期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
Distributed Weighted Data Aggregation Algorithm in End-to-Edge Communication Networks Based on Multi-armed Bandit 被引量:1
1
作者 Yifei ZOU Senmao QI +1 位作者 Cong'an XU Dongxiao YU 《计算机科学》 CSCD 北大核心 2023年第2期13-22,共10页
As a combination of edge computing and artificial intelligence,edge intelligence has become a promising technique and provided its users with a series of fast,precise,and customized services.In edge intelligence,when ... As a combination of edge computing and artificial intelligence,edge intelligence has become a promising technique and provided its users with a series of fast,precise,and customized services.In edge intelligence,when learning agents are deployed on the edge side,the data aggregation from the end side to the designated edge devices is an important research topic.Considering the various importance of end devices,this paper studies the weighted data aggregation problem in a single hop end-to-edge communication network.Firstly,to make sure all the end devices with various weights are fairly treated in data aggregation,a distributed end-to-edge cooperative scheme is proposed.Then,to handle the massive contention on the wireless channel caused by end devices,a multi-armed bandit(MAB)algorithm is designed to help the end devices find their most appropriate update rates.Diffe-rent from the traditional data aggregation works,combining the MAB enables our algorithm a higher efficiency in data aggregation.With a theoretical analysis,we show that the efficiency of our algorithm is asymptotically optimal.Comparative experiments with previous works are also conducted to show the strength of our algorithm. 展开更多
关键词 Weighted data aggregation End-to-edge communication multi-armed bandit Edge intelligence
在线阅读 下载PDF
Strict greedy design paradigm applied to the stochastic multi-armed bandit problem
2
作者 Joey Hong 《机床与液压》 北大核心 2015年第6期1-6,共6页
The process of making decisions is something humans do inherently and routinely,to the extent that it appears commonplace. However,in order to achieve good overall performance,decisions must take into account both the... The process of making decisions is something humans do inherently and routinely,to the extent that it appears commonplace. However,in order to achieve good overall performance,decisions must take into account both the outcomes of past decisions and opportunities of future ones. Reinforcement learning,which is fundamental to sequential decision-making,consists of the following components: 1 A set of decisions epochs; 2 A set of environment states; 3 A set of available actions to transition states; 4 State-action dependent immediate rewards for each action.At each decision,the environment state provides the decision maker with a set of available actions from which to choose. As a result of selecting a particular action in the state,the environment generates an immediate reward for the decision maker and shifts to a different state and decision. The ultimate goal for the decision maker is to maximize the total reward after a sequence of time steps.This paper will focus on an archetypal example of reinforcement learning,the stochastic multi-armed bandit problem. After introducing the dilemma,I will briefly cover the most common methods used to solve it,namely the UCB and εn- greedy algorithms. I will also introduce my own greedy implementation,the strict-greedy algorithm,which more tightly follows the greedy pattern in algorithm design,and show that it runs comparably to the two accepted algorithms. 展开更多
关键词 Greedy algorithms Allocation strategy Stochastic multi-armed bandit problem
在线阅读 下载PDF
高速铁路场景中基于MAB模型的多信道选择算法
3
作者 朱豪 彭艺 +1 位作者 张申 李启骞 《吉林大学学报(理学版)》 CAS 北大核心 2021年第2期365-371,共7页
针对高速列车越区切换过程中,切换带为多信道分布的问题,提出一种基于多臂老虎机(multi-armed bandit,MAB)模型的信道选择算法.首先,以置信区间上界(UCB)算法为基础,通过设置信道空闲差异因子,使算法快速收敛于最优信道;其次,通过引入... 针对高速列车越区切换过程中,切换带为多信道分布的问题,提出一种基于多臂老虎机(multi-armed bandit,MAB)模型的信道选择算法.首先,以置信区间上界(UCB)算法为基础,通过设置信道空闲差异因子,使算法快速收敛于最优信道;其次,通过引入满意通信概率(SCP),衡量移动列车的通信质量,分析与切换过程中误码率之间的关系;最后,利用最优信道选择比率、成功传输率和累积接入损失作为评判标准,分析算法的性能.仿真结果表明,该算法的累积接入损失比原始UCB算法减少了约18.5%;对比随机选择算法与原始UCB算法,成功传输率提高了约30.2%和3.3%;最优选择比率提高了约88.3%和13.5%. 展开更多
关键词 越区切换 多臂老虎机模型 置信区间上界算法 满意通信概率
在线阅读 下载PDF
基于强化学习的大规模多模Mesh网络联合路由选择及资源调度算法 被引量:9
4
作者 朱晓荣 贺楚闳 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2773-2782,共10页
为了平衡新型电力系统中大规模多模Mesh网络的传输可靠性和效率,该文在对优化问题进行描述和分析的基础上提出一种基于强化学习的大规模多模Mesh网络联合路由选择及资源调度算法,分为两个阶段。在第1阶段中,根据网络拓扑结构信息和业务... 为了平衡新型电力系统中大规模多模Mesh网络的传输可靠性和效率,该文在对优化问题进行描述和分析的基础上提出一种基于强化学习的大规模多模Mesh网络联合路由选择及资源调度算法,分为两个阶段。在第1阶段中,根据网络拓扑结构信息和业务需求,利用一种多条最短路径路由算法,输出所有最短路径。在第2阶段中,提出一种基于多臂老虎机(MAB)的资源调度算法,该算法基于得到的最短路径集合构建MAB的摇臂,然后根据业务需求计算回报,最终给出最优的路由选择及资源调度方式用于业务传输。仿真结果表明,所提算法能够满足不同的业务传输需求,实现端到端路径的平均时延和平均传输成功率的高效平衡。 展开更多
关键词 MESH网络 路由选择 资源调度 多臂老虎机 强化学习
在线阅读 下载PDF
一种MTC快速上行授权接入改进算法
5
作者 陈发堂 杨夏 韩才君 《系统工程与电子技术》 EI CSCD 北大核心 2023年第12期4064-4072,共9页
快速上行授权接入是大规模机器类通信的关键技术之一,而缓解上行共享信道资源紧张并针对时延和速率等服务质量(quality of services,QoS)高效地进行调度是对其进行优化的重要方向。针对这一问题,提出一种应用多臂赌博机(multi-armed ban... 快速上行授权接入是大规模机器类通信的关键技术之一,而缓解上行共享信道资源紧张并针对时延和速率等服务质量(quality of services,QoS)高效地进行调度是对其进行优化的重要方向。针对这一问题,提出一种应用多臂赌博机(multi-armed bandit,MAB)学习和功率域非正交多址接入(power-domain non-orthogonal multiple access,PD-NOMA)技术的快速上行授权接入算法。所提算法通过多路MAB筛选高接入速率、低接入忍耐时延要求和低接入速率、低接入忍耐时延要求的两类设备,允许其优先被调度并复用上行资源进行接入。仿真结果表明,算法降低了系统的上行资源浪费率,在提高了接入能力的同时减少了因非正交多址接入(non-orthogonal multiple access,NOMA)造成速率损失带来的影响,并优化了系统QoS。 展开更多
关键词 机器类通信 快速上行授权 多臂赌博机 非正交多址接入
在线阅读 下载PDF
基于在线学习的面向居民用户激励型需求响应 被引量:6
6
作者 姜昊 王玉峰 《电工电能新技术》 CSCD 北大核心 2023年第6期23-33,共11页
激励型需求响应是一种通过补贴信号灵活调度需求侧能源的手段,对于维持电力系统供需平衡,提升经济效益有巨大潜力。在面向居民用户的激励型需求响应中,电力运营商选择削减电量潜力大的居民用户并向其提供补贴价格,以激励其削减电量。然... 激励型需求响应是一种通过补贴信号灵活调度需求侧能源的手段,对于维持电力系统供需平衡,提升经济效益有巨大潜力。在面向居民用户的激励型需求响应中,电力运营商选择削减电量潜力大的居民用户并向其提供补贴价格,以激励其削减电量。然而,站在电力运营商的角度,面对居民用户未知且不确定的用电行为,识别并选择削减电量潜力大的居民用户以及如何动态制定补贴价格是关键挑战。为了解决这一问题,本文提出基于在线学习的激励型需求响应算法(IDR-OL),利用多臂赌博机框架在线学习居民用户削减电量潜力,建立电力运营商运营成本优化模型选择最优参与需求响应的居民用户并动态制定补贴价格。仿真结果表明,本文提出的IDR-OL算法能够在实现供需平衡的同时更大限度地降低电力运营商运营成本。 展开更多
关键词 需求响应 多臂赌博机 削减电量潜力 动态定价 居民用户选择
在线阅读 下载PDF
给定预算下基于相对熵置信区间的蒙特卡洛树搜索最优动作识别算法 被引量:2
7
作者 刘郭庆 钱宇华 +1 位作者 张亚宇 王婕婷 《计算机研究与发展》 EI CSCD 北大核心 2023年第8期1780-1794,共15页
蒙特卡洛树搜索(Monte Carlo tree search, MCTS)将强化学习的反馈优化与生长树的动态规划相结合,在输出当前状态的最佳动作的同时极大地减少了计算量,因此成为开放环境下众多领域智能系统的关键通用方法.但由于计算资源匮乏或者计算成... 蒙特卡洛树搜索(Monte Carlo tree search, MCTS)将强化学习的反馈优化与生长树的动态规划相结合,在输出当前状态的最佳动作的同时极大地减少了计算量,因此成为开放环境下众多领域智能系统的关键通用方法.但由于计算资源匮乏或者计算成本昂贵等原因,完全充分地对树结构进行搜索是难以实现的,因此在有限的预算下高效合理地分配计算资源从而获得当前状态下的最优动作是目前研究的一个重要问题.现有大多数算法仅以识别准确率作为性能指标,通过实验对比验证算法性能,缺少对算法的识别误差和影响因素的分析,从而降低了算法的可信性和可解释性.针对该问题,选择基础核心的2名玩家、完全信息、零和博弈场景,提出了固定预算设定下MCTS抽象模型的最优行动识别算法DLU——基于相对熵置信区间的纯探索(relative entropy confidence interval based pure exploration).首先提出了基于相对熵置信区间的估值方法对叶子节点胜率进行估计,其可以从底层提高树节点估值准确性;其次给出了第1层节点值估计、最优节点选择策略以形成完整算法流程;然后推导了DLU算法的识别误差上界,并分析了算法性能的影响因素;最后在人造树模型和井字棋2种场景下验证算法性能.实验结果表明,在人造树模型上基于相对熵的算法类具有更高的准确度,且模型越复杂识别难度越高时,该算法类的性能优势越显著.在井字棋场景下,DLU算法能有效地识别最优动作. 展开更多
关键词 蒙特卡洛树搜索 最优动作识别 多臂赌博机 误差最小化 强化学习
在线阅读 下载PDF
基于多臂赌博机的频率捷变雷达在线决策方法
8
作者 朱鸿宇 何丽丽 +2 位作者 刘峥 谢荣 冉磊 《雷达学报(中英文)》 EI CSCD 北大核心 2023年第6期1263-1274,共12页
频率捷变技术发挥了雷达在电子对抗中主动对抗优势,可以有效提升雷达的抗噪声压制式干扰性能。然而,随着干扰环境的日益复杂,在无法事先了解环境性质的情况下,设计一种具有动态适应能力的频率捷变雷达在线决策方法是一个具有挑战性的问... 频率捷变技术发挥了雷达在电子对抗中主动对抗优势,可以有效提升雷达的抗噪声压制式干扰性能。然而,随着干扰环境的日益复杂,在无法事先了解环境性质的情况下,设计一种具有动态适应能力的频率捷变雷达在线决策方法是一个具有挑战性的问题。该文根据干扰策略的特征,将压制式干扰场景分为3类,并以最大化检测概率为目标,设计了一种基于多臂赌博机(MAB)的频率捷变雷达在线决策方法。该方法是一种在线学习算法,无需干扰环境的先验知识和离线训练过程,在不同干扰场景下均实现了优异的学习性能。理论分析和仿真结果表明,与经典算法和随机捷变策略相比,所提方法具有更强的灵活性,在多种干扰场景下均能够有效提升频率捷变雷达的抗干扰和目标检测性能。 展开更多
关键词 频率捷变 噪声压制式干扰 检测概率 多臂赌博机(mab) 在线学习
在线阅读 下载PDF
Optimal index shooting policy for layered missile defense system 被引量:2
9
作者 LI Longyue FAN Chengli +2 位作者 XING Qinghua XU Hailong ZHAO Huizhen 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2020年第1期118-129,共12页
In order to cope with the increasing threat of the ballistic missile(BM)in a shorter reaction time,the shooting policy of the layered defense system needs to be optimized.The main decisionmaking problem of shooting op... In order to cope with the increasing threat of the ballistic missile(BM)in a shorter reaction time,the shooting policy of the layered defense system needs to be optimized.The main decisionmaking problem of shooting optimization is how to choose the next BM which needs to be shot according to the previous engagements and results,thus maximizing the expected return of BMs killed or minimizing the cost of BMs penetration.Motivated by this,this study aims to determine an optimal shooting policy for a two-layer missile defense(TLMD)system.This paper considers a scenario in which the TLMD system wishes to shoot at a collection of BMs one at a time,and to maximize the return obtained from BMs killed before the system demise.To provide a policy analysis tool,this paper develops a general model for shooting decision-making,the shooting engagements can be described as a discounted reward Markov decision process.The index shooting policy is a strategy that can effectively balance the shooting returns and the risk that the defense mission fails,and the goal is to maximize the return obtained from BMs killed before the system demise.The numerical results show that the index policy is better than a range of competitors,especially the mean returns and the mean killing BM number. 展开更多
关键词 Gittins index shooting policy layered missile defense multi-armed bandits problem Markov decision process
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部