期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
基于改进深度强化学习算法的行为决策方法
1
作者 贾瑞豪 《汽车实用技术》 2025年第1期25-30,共6页
针对传统深度强化学习算法因训练时探索策略差导致在自动驾驶决策任务中同时出现行驶效率低、收敛慢和决策成功率低的问题,提出了结合专家评价的深度竞争双Q网络的决策方法。提出离线专家模型和在线模型,在两者间引入自适应平衡因子;引... 针对传统深度强化学习算法因训练时探索策略差导致在自动驾驶决策任务中同时出现行驶效率低、收敛慢和决策成功率低的问题,提出了结合专家评价的深度竞争双Q网络的决策方法。提出离线专家模型和在线模型,在两者间引入自适应平衡因子;引入自适应重要性系数的优先经验回放机制在竞争深度Q网络的基础上搭建在线模型;设计了考虑行驶效率、安全性和舒适性的奖励函数。结果表明,该算法相较于D3QN、PERD3QN在收敛速度上分别提高了25.93%和20.00%,决策成功率分别提高了3.19%和2.77%,平均步数分别降低了6.40%和0.14%,平均车速分别提升了7.46%与0.42%。 展开更多
关键词 自动驾驶 行为决策 深度强化学习 模仿学习 改进dqn算法
在线阅读 下载PDF
基于改进DQN算法的应召搜潜无人水面艇路径规划方法 被引量:2
2
作者 牛奕龙 杨仪 +3 位作者 张凯 穆莹 王奇 王英民 《兵工学报》 EI CAS CSCD 北大核心 2024年第9期3204-3215,共12页
针对应召反潜中无人水面艇航向和航速机动的情形,提出一种基于改进深度Q学习(Deep Q-learning,DQN)算法的无人艇路径规划方法。结合应召搜潜模型,引入改进的深度强化学习(Improved-DQN,I-DQN)算法,通过联合调整无人水面艇(Unmanned Surf... 针对应召反潜中无人水面艇航向和航速机动的情形,提出一种基于改进深度Q学习(Deep Q-learning,DQN)算法的无人艇路径规划方法。结合应召搜潜模型,引入改进的深度强化学习(Improved-DQN,I-DQN)算法,通过联合调整无人水面艇(Unmanned Surface Vessel,USV)的动作空间、动作选择策略和奖励等,获取一条最优路径。算法采用时变动态贪婪策略,根据环境和神经网络的学习效果自适应调整USV动作选择,提高全局搜索能力并避免陷入局部最优解;结合USV所处的障碍物环境和当前位置设置分段非线性奖惩函数,保证不避碰的同时提升算法收敛速度;增加贝塞尔算法对路径平滑处理。仿真结果表明,在相同环境下新方法规划效果优于DQN算法、A^(*)算法和人工势场算法,具有更好的稳定性、收敛性和安全性。 展开更多
关键词 无人水面艇 路径规划 深度q学习算法 应召搜索
在线阅读 下载PDF
基于深度强化学习的空天地一体化网络资源分配算法 被引量:1
3
作者 刘雪芳 毛伟灏 杨清海 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2831-2841,共11页
空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深... 空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深度强化学习(DRL)资源分配算法。基于第3代合作伙伴计划(3GPP)标准中定义的用户参考信号接收功率(RSRP),考虑地面同频干扰情况,以不同域中基站的时频资源作为约束条件,构建了最大化系统用户的下行吞吐量优化问题。利用深度Q网络(DQN)算法求解该优化问题时,定义了能够综合考虑用户服务质量需求、系统自适应能力及系统鲁棒性的奖励函数。仿真结果表明,综合考虑无人驾驶汽车,沉浸式服务及普通移动终端通信业务需求时,表征系统性能的奖励函数值在2 000次迭代下,相较于贪婪算法提升了39.1%;对于无人驾驶汽车业务,利用DQN算法进行资源分配后,相比于贪婪算法,丢包数平均下降38.07%,时延下降了6.05%。 展开更多
关键词 空天地一体化网络 资源分配算法 深度强化学习 深度q网络
在线阅读 下载PDF
演化算法的DQN网络参数优化方法
4
作者 曹子建 郭瑞麒 +2 位作者 贾浩文 李骁 徐恺 《西安工业大学学报》 CAS 2024年第2期219-231,共13页
为了解决DQN(Deep Q Network)在早期会出现盲目搜索、勘探利用不均并导致整个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差分演化(Differential Evolution)算法为例,提出了一种基于演化算法优化DQ... 为了解决DQN(Deep Q Network)在早期会出现盲目搜索、勘探利用不均并导致整个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差分演化(Differential Evolution)算法为例,提出了一种基于演化算法优化DQN网络参数以加快其收敛速度的方法(DE-DQN)。首先,将DQN的网络参数编码为演化个体;其次,分别采用“运行步长”和“平均回报”两种适应度函数评价方式;利用CartPole控制问题进行仿真对比,验证了两种评价方式的有效性。最后,实验结果表明,在智能体训练5 000代时所提出的改进算法,以“运行步长”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了82.7%,18.1%和25.1%,并优于改进DQN算法;以“平均回报”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了74.9%,18.5%和13.3%并优于改进DQN算法。这说明了DE-DQN算法相较于传统的DQN及其改进算法前期能获得更多有用信息,加快收敛速度。 展开更多
关键词 深度强化学习 深度q网络 收敛加速 演化算法 自动控制
在线阅读 下载PDF
基于DQN算法的农用无人车作业路径规划 被引量:1
5
作者 庄金炜 张晓菲 +1 位作者 尹琪东 陈克 《沈阳理工大学学报》 CAS 2024年第4期32-37,共6页
传统农用无人车作业时常依据人工经验确定作业路线,面对复杂的作业环境时无法保证路径规划的高效性,且传统覆盖路径规划方法聚焦于覆盖率而忽略了车辆作业路线上的损耗。为此,提出一种以减少车辆在路线上的损耗为目标的最优全局覆盖路... 传统农用无人车作业时常依据人工经验确定作业路线,面对复杂的作业环境时无法保证路径规划的高效性,且传统覆盖路径规划方法聚焦于覆盖率而忽略了车辆作业路线上的损耗。为此,提出一种以减少车辆在路线上的损耗为目标的最优全局覆盖路径规划方法。以深度Q网络(DQN)算法为基础,根据作业时车辆的真实轨迹创建奖励策略(RLP),对车辆在路线上的损耗进行优化,减少车辆的转弯数、掉头数及重复作业面积,设计了RLP-DQN算法。仿真实验结果表明,对比遗传算法、A~*算法等传统路径规划方法,本文RLP-DQN算法综合性能较好,可在实现全覆盖路径规划的同时有效减少路线损耗。 展开更多
关键词 农用无人车 路径规划 深度强化学习 dqn算法
在线阅读 下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
6
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 深度q网络(Ddqn)算法
在线阅读 下载PDF
基于深度强化学习算法的火力-目标分配方法
7
作者 李伟光 陈栋 《指挥控制与仿真》 2024年第3期62-69,共8页
针对火力-目标分配问题解空间较大、离散、非线性等特点,提出了一种基于DQN的深度强化学习算法,通过将6层全连接前馈神经网络与Q-learning算法相结合,充分发挥了深度学习的感知能力和强化学习的决策能力,通过模型性能测试对比,该方法拟... 针对火力-目标分配问题解空间较大、离散、非线性等特点,提出了一种基于DQN的深度强化学习算法,通过将6层全连接前馈神经网络与Q-learning算法相结合,充分发挥了深度学习的感知能力和强化学习的决策能力,通过模型性能测试对比,该方法拟合能力较强、收敛速度较快、方差抖动性较小,并通过实际作战场景对算法进行了验证,所得的分配结果符合作战期望,可为指挥员火力打击分配问题决策提供一定参考。 展开更多
关键词 火力-目标分配 深度强化学习 q-learning算法 dqn算法
在线阅读 下载PDF
基于改进DQN强化学习算法的弹性光网络资源分配研究 被引量:3
8
作者 尚晓凯 韩龙龙 翟慧鹏 《光通信技术》 2023年第5期12-15,共4页
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现... 针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。 展开更多
关键词 弹性光网络 改进深度q网络强化学习算法 资源分配
在线阅读 下载PDF
基于Q学习算法的燃煤机组深度调峰协调控制优化 被引量:1
9
作者 赵涵 杨锋 《通信电源技术》 2023年第23期128-130,共3页
常规的燃煤机组调峰协调控制方法以储能负荷控制为主,减少了节流损失,增加了煤耗量,影响深度调峰协调控制的经济性效果。因此,设计了基于Q学习算法的燃煤机组深度调峰协调控制优化方法。确定燃煤机组调峰协调控制优化参数,在满足调度中... 常规的燃煤机组调峰协调控制方法以储能负荷控制为主,减少了节流损失,增加了煤耗量,影响深度调峰协调控制的经济性效果。因此,设计了基于Q学习算法的燃煤机组深度调峰协调控制优化方法。确定燃煤机组调峰协调控制优化参数,在满足调度中心给定负荷指令的基础上,将经济性指标作为协调控制优化的约束条件,简化燃煤机组深度调峰的协调步骤。基于Q学习算法控制燃煤机组深度调峰均衡负荷,令机组实际供电负荷之和与全厂总负荷指令相等,从而满足深度调峰协调控制的经济性需求。通过对比实验证实,文章所提优化方法的经济性能更高,能够应用于实际生活。 展开更多
关键词 q学习算法 燃煤机组 深度调峰 协调控制 优化方法
在线阅读 下载PDF
基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法 被引量:1
10
作者 张帆 邵光耀 +1 位作者 李昱翰 李玉雪 《工矿自动化》 CSCD 北大核心 2024年第6期23-29,45,共8页
受深部开采冲击地压等地质灾害扰动的影响,存在矿井超前支护系统自感知能力差、智能抗冲自适应能力弱、缺乏决策控制能力等问题。针对上述问题,提出了一种基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法。通过多源传... 受深部开采冲击地压等地质灾害扰动的影响,存在矿井超前支护系统自感知能力差、智能抗冲自适应能力弱、缺乏决策控制能力等问题。针对上述问题,提出了一种基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法。通过多源传感器感知巷道环境和超前液压支架支护状态,在虚拟世界中创建物理实体的数字孪生模型,其中物理模型精确展现超前液压支架的结构特征和细节,控制模型实现超前液压支架的自适应控制,机理模型实现对超前液压支架自适应支护的逻辑描述和机理解释,数据模型存储超前液压支架实体运行数据和孪生数据,仿真模型完成超前液压支架立柱仿真以实现超前液压支架与数字孪生模型虚实交互。根据基于深度Q网络(DQN)的超前液压支架自适应抗冲决策算法,对仿真环境中巷道抗冲支护进行智能决策,并依据决策结果对物理实体和数字孪生模型下达调控指令,实现超前液压支架智能控制。实验结果表明:立柱位移与压力变化一致,说明超前液压支架立柱仿真模型设计合理,从而验证了数字孪生模型的准确性;基于DQN的矿井超前液压支架自适应抗冲决策算法可通过调节液压支架控制器PID参数,自适应调控立柱压力,提升巷道安全等级,实现超前液压支架自适应抗冲支护。 展开更多
关键词 矿井智能抗冲 超前液压支架 自适应支护 数字孪生 深度强化学习 深度q网络 dqn
在线阅读 下载PDF
结合先验知识的深度Q神经网络算法研究 被引量:3
11
作者 褚伟 茹琦 任明仑 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2019年第7期901-905,958,共6页
深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射... 深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射,根据先验知识对动作选择过程的影响程度,将先验知识引入DQN算法,优化DQN算法的动作选择规则,降低其在探索过程中的动作选择随机性,并使用赛车游戏对算法进行训练。实验结果表明,PK-DQN算法能够更快收敛,有较高的学习效率,算法训练时长明显缩短。 展开更多
关键词 深度学习 强化学习 深度q神经网络(dqn) 先验知识
在线阅读 下载PDF
基于强化学习的人道主义应急物资分配优化研究
12
作者 张建军 杨云丹 周一卓 《上海管理科学》 2025年第2期109-117,共9页
当重大突发事件发生后,救援组织如何高效地分配有限的人道主义援助物资,在满足受灾区域物资需求的同时又能降低灾民的痛苦,是一项重要的研究课题。针对这一问题,本文建模了适配的混合非整数线性规划问题MINLP,涉及多期动态最优化分配策... 当重大突发事件发生后,救援组织如何高效地分配有限的人道主义援助物资,在满足受灾区域物资需求的同时又能降低灾民的痛苦,是一项重要的研究课题。针对这一问题,本文建模了适配的混合非整数线性规划问题MINLP,涉及多期动态最优化分配策略求解。作为当前策略探索问题的两种主流方法之一的强化学习算法,通过与环境的交互获取反馈信号以调整策略从而自适应外部动态变化,扩展性极强,比针对特定状态求解的启发式算法更适合动态物资分配场景,由此采取Dueling DQN算法求解最优策略,规避了以往强化学习用于人道主义物资分配领域中存在的Q值过高估计缺点,更精准地求出受灾区域的动作价值函数。与此同时,本文构建需求随机化假设,这一创新使得模型构造更符合受灾场景实际情况,模型的有效性、真实性得以提升。本文以雅安地震为背景,利用数值算例验证了算法的效能,是首篇代入真实数据源佐证强化学习优化应急物资分配方案的论文:相对于传统的DQN方法,Dueling DQN算法能够降低总成本约5%,这意味着在确保物资供给的同时更有效减少了受灾人群的痛苦,彰显了我国“以人为本”的救援原则,在基于人道主义的应急救援方面具备重要的理论和实践意义。 展开更多
关键词 深度强化学习 人道主义 应急物资分配 Dueling dqn算法
在线阅读 下载PDF
城轨列车深度强化学习节能优化控制方法
13
作者 郭啸 孟建军 +3 位作者 陈晓强 胥如迅 李德仓 宋明瑞 《铁道标准设计》 北大核心 2024年第7期185-191,217,共8页
为提高城轨列车自动驾驶(Automatic Train Operation,ATO)的控制性能,针对城轨ATO目标速度曲线追踪控制方法中工况切换频繁、牵引能耗高等问题,以列车准点、精准停车和能耗为优化目标,设计了一种以时间冗余(Time Redundancy,TR)规划参... 为提高城轨列车自动驾驶(Automatic Train Operation,ATO)的控制性能,针对城轨ATO目标速度曲线追踪控制方法中工况切换频繁、牵引能耗高等问题,以列车准点、精准停车和能耗为优化目标,设计了一种以时间冗余(Time Redundancy,TR)规划参考系统为主动约束的列车深度强化学习DQN控制方法。建立了城轨列车动力学模型和多目标优化适应度函数;定义了TR规划参考系统约束下的DQN列车控制器,并对控制器中的动作空间和奖励函数进行设置;最后规定了列车控制器神经网络更新方法,利用随机梯度下降算法更新Q网络参数。结果表明:加入以TR时间规划参考系统为约束的TR-DQN算法提高了DQN迭代收敛速度以及迭代训练过程中的稳定性;TR-DQN动态调整列车运行策略的控制方法相比传统目标速度曲线追踪PID算法能耗降低12.32%,列车站间工况切换频率较低;针对设置的3种不同站间规划时间,列车牵引能耗依次降低7.5%和6.4%,列车站间工况动态切换频率和牵引能耗随行程规划时间增大而降低。 展开更多
关键词 城市轨道交通 列车自动驾驶 时间规划系统 节能运行 深度强化学习 dqn算法
在线阅读 下载PDF
基于深度强化学习的卫星信道动态分配算法 被引量:5
14
作者 唐一强 杨霄鹏 +1 位作者 肖楠 朱圣铭 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2022年第2期61-67,共7页
在卫星通信系统中,频率和信道是十分珍稀的资源,针对如何利用可靠且高效的方法来进行资源的开发这一亟需解决的难题,提出了一种基于Q-learning深度强化学习的动态卫星信道分配算法DRL-DCA,该算法将卫星和环境交互建模为马尔科夫决策过程... 在卫星通信系统中,频率和信道是十分珍稀的资源,针对如何利用可靠且高效的方法来进行资源的开发这一亟需解决的难题,提出了一种基于Q-learning深度强化学习的动态卫星信道分配算法DRL-DCA,该算法将卫星和环境交互建模为马尔科夫决策过程,通过环境的反馈提升卫星的决策能力,实现用户业务请求的高效应答,提升卫星通信的服务质量,降低通信阻塞发生概率。仿真分析表明该算法能够有效地提升通信的吞吐量,降低通信的阻塞率。 展开更多
关键词 卫星通信 深度学习 q算法
在线阅读 下载PDF
基于改进DQN的移动机器人避障路径规划 被引量:3
15
作者 田箫源 董秀成 《中国惯性技术学报》 EI CSCD 北大核心 2024年第4期406-416,共11页
针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效... 针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效率和成功率。其次提出奖励优化方法,利用状态间的访问次数差异给予奖励,平衡状态点的访问次数,避免过度访问;同时通过计算与目标点的欧氏距离,使其偏向于选择接近目标的路径,并取消远离目标惩罚,实现奖励机制的自适应优化。最后设计了动态探索因子函数,在后期训练中侧重利用强化学习策略选取动作和学习,提高算法性能和学习效率。实验仿真结果显示,与传统DQN算法相比,改进算法在训练时间上缩短了40.25%,避障成功率上提升了79.8%以及路径长度上缩短了2.25%,均体现了更好的性能。 展开更多
关键词 移动机器人 dqn算法 路径规划 避障 深度强化学习
在线阅读 下载PDF
基于深度强化学习的综合电子系统重构方法
16
作者 马驰 张国群 +2 位作者 孙俊格 吕广喆 张涛 《空天防御》 2024年第1期63-70,共8页
重构作为综合模块化航空电子系统用来提高容错性和稳定性的常用手段,是指发生某一故障后,系统根据事先预设好的重构蓝图,通过一系列应用迁移动作从故障状态转为正常状态的过程。随着综合电子系统的功能多元化和结构复杂化,提高系统的容... 重构作为综合模块化航空电子系统用来提高容错性和稳定性的常用手段,是指发生某一故障后,系统根据事先预设好的重构蓝图,通过一系列应用迁移动作从故障状态转为正常状态的过程。随着综合电子系统的功能多元化和结构复杂化,提高系统的容错性和稳定性显得至关重要。然而现有的人工重构和传统重构算法这两种重构配置蓝图设计方式难以保证综合电子系统的容错性和稳定性。本文针对综合电子系统故障情况,结合深度强化学习算法,对重构蓝图的重构模型进行探索并提出基于优先经验回放的竞争深度Q网络算法(PEP_DDQN),通过优先经验回放机制和SUMTREE批量样本抽取技术提出基于深度强化学习的优先经验回放和竞争深度Q网络重构算法。实验表明,相较于传统强化学习Q-Learning算法和DQN算法实现的重构蓝图生成算法,所提出的PEP_DDQN算法能生成更高质量的蓝图并具有更高的收敛性能与更快的求解速度。 展开更多
关键词 综合模块化航空电子系统 智能重构 深度强化学习 dqn算法
在线阅读 下载PDF
深度强化学习下连续和离散相位RIS毫米波通信
17
作者 胡浪涛 杨瑞 +3 位作者 刘全金 吴建岚 嵇文 吴磊 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第1期50-59,共10页
在分布式智能反射面(RIS)辅助多用户毫米波(mmWave)系统中,利用深度强化学习(DRL)理论学习并调整基站发射波束赋形矩阵和RIS相位偏转矩阵,联合优化发射波束赋形和相位偏转,实现加权和速率最大化。即在离散动作空间中,设计了功率码本与... 在分布式智能反射面(RIS)辅助多用户毫米波(mmWave)系统中,利用深度强化学习(DRL)理论学习并调整基站发射波束赋形矩阵和RIS相位偏转矩阵,联合优化发射波束赋形和相位偏转,实现加权和速率最大化。即在离散动作空间中,设计了功率码本与相位码本,提出了用深度Q网络(DQN)算法进行优化发射波束赋形与RIS相位偏转矩阵;在连续动作空间中,采用双延迟策略梯度(TD3)算法进行优化发射波束赋形与RIS相位偏转矩阵。仿真分析比较了在不同码本比特数下离散动作空间和连续动作空间下系统的加权和速率。与传统的凸优化算法以及迫零波束赋形随机相位偏转算法进行了对比,强化学习算法的和速率性能有明显提升,连续的TD3算法的和速率超过凸优化算法23.89%,在码本比特数目为4时,离散的DQN算法性能也优于传统的凸优化算法。 展开更多
关键词 深度q网络(dqn) 深度强化学习 双延迟策略梯度 毫米波 智能反射面
在线阅读 下载PDF
深度强化学习驱动下的智能电网通信网业务路由分配方法研究
18
作者 胡楠 张维 《通信电源技术》 2024年第10期43-45,共3页
在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析... 在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析,以提高通信资源利用率,提升业务路由方法的稳定性和可靠性。 展开更多
关键词 智能电网 通信网 深度q网络(dqn)算法 异步优势演员-评论家(A3C)算法 深度学习
在线阅读 下载PDF
基于分层框架混合强化学习的导弹制导与突防策略
19
作者 谭明虎 何昊麟 +1 位作者 艾文洁 柴斌 《宇航学报》 北大核心 2025年第1期117-128,共12页
针对目标-导弹-防御者三方交战场景中攻击导弹面临主动防御拦截的问题,提出了一种基于分层框架混合强化学习的全过程智能制导与突防策略。首先,分析攻击导弹的制导与突防任务需求,构建了三方交战的运动学模型。其次,基于双层策略结构提... 针对目标-导弹-防御者三方交战场景中攻击导弹面临主动防御拦截的问题,提出了一种基于分层框架混合强化学习的全过程智能制导与突防策略。首先,分析攻击导弹的制导与突防任务需求,构建了三方交战的运动学模型。其次,基于双层策略结构提出了混合强化学习方法,以分别应对连续和离散两种动作空间类型。通过近端策略优化(PPO)算法训练下层制导与突防模型,获得了自动驾驶仪的制导指令;同时采用深度Q网络(DQN)算法训练上层决策模型,在每个决策时刻根据全局状态选择调用下层子模型。提出的制导与突防策略通过分层框架实现了导弹打击任务中的全过程实时智能决策。与传统综合制导律的对比实验结果表明,基于分层框架混合强化学习的突防制导策略不仅确保了攻击导弹在三方交战环境中的生存能力,同时在能量消耗方面取得了显著优势。 展开更多
关键词 强化学习 制导突防策略 近端策略优化(PPO) 深度q网络(dqn)
在线阅读 下载PDF
基于集成深度强化学习的自动驾驶车辆行为决策模型 被引量:4
20
作者 张新锋 吴琳 《汽车安全与节能学报》 CAS CSCD 北大核心 2023年第4期472-479,共8页
提出一种基于集成的深度强化学习的自动驾驶车辆的行为决策模型。基于Markov决策过程(MDP)理论,采用标准投票法,将深度Q学习网络(DQN)、双DQN(DDQN)和竞争双DDQN(Dueling DDQN)等3种基础网络模型集成。在高速公路仿真环境、在单向3车道... 提出一种基于集成的深度强化学习的自动驾驶车辆的行为决策模型。基于Markov决策过程(MDP)理论,采用标准投票法,将深度Q学习网络(DQN)、双DQN(DDQN)和竞争双DDQN(Dueling DDQN)等3种基础网络模型集成。在高速公路仿真环境、在单向3车道、4车道、5车道数量场景下,对向左换道、车道保持、向右换道、同车道加速和减速等5种车辆驾驶行为,进行测试和泛化性验证。结果表明:与其它3种网络模型相比,该模型的决策成功率分别提高了6%、3%和6%;平均车速也有提升;100回合的测试,耗时小于1 ms,满足决策实时性要求。因而,该决策模型提高了行车安全和决策效率。 展开更多
关键词 自动驾驶 深度强化学习 集成学习 深度q网络(dqn) 标准投票法
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部