期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
DQN-based decentralized multi-agent JSAP resource allocation for UAV swarm communication 被引量:5
1
作者 LI Jie DANG Xiaoyu LI Sai 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第2期289-298,共10页
It is essential to maximize capacity while satisfying the transmission time delay of unmanned aerial vehicle(UAV)swarm communication system.In order to address this challenge,a dynamic decentralized optimization mecha... It is essential to maximize capacity while satisfying the transmission time delay of unmanned aerial vehicle(UAV)swarm communication system.In order to address this challenge,a dynamic decentralized optimization mechanism is presented for the realization of joint spectrum and power(JSAP)resource allocation based on deep Q-learning networks(DQNs).Each UAV to UAV(U2U)link is regarded as an agent that is capable of identifying the optimal spectrum and power to communicate with one another.The convolutional neural network,target network,and experience replay are adopted while training.The findings of the simulation indicate that the proposed method has the potential to improve both communication capacity and probability of successful data transmission when compared with random centralized assignment and multichannel access methods. 展开更多
关键词 joint spectrum and power(JSAP) unmanned aerial vehicle(UAV)swarm communication deep q-learning network(dqn) UAV to UAV(U2U)
在线阅读 下载PDF
考虑行为克隆的深度强化学习股票交易策略 被引量:3
2
作者 杨兴雨 陈亮威 +1 位作者 郑萧腾 张永 《系统管理学报》 CSSCI CSCD 北大核心 2024年第1期150-161,共12页
为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择... 为提高股票投资的收益并降低风险,将模仿学习中的行为克隆思想引入深度强化学习框架中设计股票交易策略。在策略设计过程中,将对决DQN深度强化学习算法和行为克隆进行结合,使智能体在自主探索的同时模仿事先构造的投资专家的决策。选择不同行业的股票进行数值实验,说明了所设计的交易策略在年化收益率、夏普比率和卡玛比率等收益与风险指标上优于对比策略。研究结果表明:将模仿学习与深度强化学习相结合可以使智能体同时具有探索和模仿能力,从而提高模型的泛化能力和策略的适用性。 展开更多
关键词 股票交易策略 深度强化学习 模仿学习 行为克隆 对决深度Q学习网络
在线阅读 下载PDF
基于强化学习的改进NSGA-Ⅱ算法的城市快速路入口匝道控制
3
作者 陈娟 郭琦 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期666-680,共15页
为了缓解城市快速路拥堵和尾气排放问题,提出了基于竞争结构和深度循环Q网络的改进非支配排序遗传算法(non-dominated sorting genetic algorithm Ⅱ based on dueling deep recurrent Q network, DRQN-NSGA-Ⅱ).该算法结合了基于竞争... 为了缓解城市快速路拥堵和尾气排放问题,提出了基于竞争结构和深度循环Q网络的改进非支配排序遗传算法(non-dominated sorting genetic algorithm Ⅱ based on dueling deep recurrent Q network, DRQN-NSGA-Ⅱ).该算法结合了基于竞争结构的深度Q网络(dueling deep Q network, Dueling DQN)、深度循环Q网络(deep recurrent Q network, DRQN)和NSGA-Ⅱ算法,将Dueling DRQN-NSGA-Ⅱ算法用于匝道控制问题.除了考虑匝道车辆汇入以提高快速路通行效率外,还考虑了环境和能源指标,将尾气排放和燃油消耗作为评价指标.除了与无控制情况及其他算法进行比较之外, Dueling DRQN-NSGA-Ⅱ还与NSGA-Ⅱ算法进行了比较.实验结果表明:与无控制情况相比,本算法能有效改善路网通行效率、缓解环境污染、减少能源损耗;相对于无控制情况,总花费时间(total time spent, TTS)减少了16.14%,总尾气排放(total emissions, TE)减少了9.56%,总燃油消耗(total fuel consumption, TF)得到了43.49%的改善. 展开更多
关键词 匝道控制 基于竞争结构的深度Q网络 深度循环Q网络 非支配排序遗传算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部