期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
深度确定性策略梯度和预测相结合的无人机空战决策研究 被引量:3
1
作者 李永丰 吕永玺 +1 位作者 史静平 李卫华 《西北工业大学学报》 EI CAS CSCD 北大核心 2023年第1期56-64,共9页
针对无人机自主空战机动决策过程中遇到的敌方不确定性操纵问题,提出了一种目标机动指令预测和深度确定性策略梯度算法相结合的无人机空战自主机动决策方法。对空战双方的态势数据进行有效的融合和处理,搭建无人机六自由度模型和机动动... 针对无人机自主空战机动决策过程中遇到的敌方不确定性操纵问题,提出了一种目标机动指令预测和深度确定性策略梯度算法相结合的无人机空战自主机动决策方法。对空战双方的态势数据进行有效的融合和处理,搭建无人机六自由度模型和机动动作库,在空战中目标通过深度Q网络算法生成相应机动动作库指令,同时我方无人机通过概率神经网络给出目标机动的预测结果。提出了一种同时考虑了两机态势信息和敌机预测结果的深度确定性策略梯度强化学习方法,使得无人机能够根据当前空战态势选择合适的机动决策。仿真结果表明,该算法可以有效利用空战态势信息和目标机动预测信息,在保证收敛性的前提下提高无人机自主空战决策强化学习算法的有效性。 展开更多
关键词 无人机 空战机动决策 预测 深度确定性策略梯度
在线阅读 下载PDF
改进深度确定性策略梯度的决策算法研究 被引量:1
2
作者 陈建文 张小俊 张明路 《汽车实用技术》 2022年第1期28-31,共4页
为解决无人驾驶路径规划过程中的决策控制问题,文章针对深度确定性策略梯度算法在未知环境中随着搜索空间的增大,出现训练效率低、收敛不稳定等缺点,提出了基于奖励指导的改进算法。首先在每回合内采用基于奖励的优先级经验回放,减少深... 为解决无人驾驶路径规划过程中的决策控制问题,文章针对深度确定性策略梯度算法在未知环境中随着搜索空间的增大,出现训练效率低、收敛不稳定等缺点,提出了基于奖励指导的改进算法。首先在每回合内采用基于奖励的优先级经验回放,减少深度确定性策略梯度算法随机探索的盲目性,提高智能车学习效率。然后在回合间基于奖励筛选优秀轨迹,便于指导智能车对复杂空间的探索,得到稳定的控制策略。最后,在开源智能驾驶仿真环境进行仿真。实验结果表明改进后的深度确定性策略梯度算法性能优于原来的算法,训练效率和收敛稳定性均得到有效提升。 展开更多
关键词 路径规划 决策控制 深度确定性策略梯度 奖励指导 优先经验回放
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
3
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于深度确定性策略梯度算法的智能水下机器人局部路径规划
4
作者 吕茜 党康宁 《科学技术创新》 2023年第20期224-228,共5页
路径规划是智能水下机器人技术研究的核心内容之一,是实现其自主航行和作业的关键环节。基于水下机器人的运动学模型,将深度确定性策略梯度(DDPG)算法应用于水下机器人的局部路径规划中,通过构造适当的奖励信号和设置合理的训练评估条件... 路径规划是智能水下机器人技术研究的核心内容之一,是实现其自主航行和作业的关键环节。基于水下机器人的运动学模型,将深度确定性策略梯度(DDPG)算法应用于水下机器人的局部路径规划中,通过构造适当的奖励信号和设置合理的训练评估条件,使算法适用于水下机器人的运动学模型。仿真试验验证了采用DDPG算法训练的水下机器人能够在航道水域环境中安全快速地规划和避开障碍物,实现自主安全航行。 展开更多
关键词 智能水下机器人 局部路径规划 深度确定性策略梯度(ddpg)算法 自主安全航行
在线阅读 下载PDF
考虑源荷不确定性下微电网能量调度的深度强化学习策略 被引量:1
5
作者 马冲冲 王一铮 +1 位作者 王坤 冯昌森 《高技术通讯》 CAS 2023年第1期79-87,共9页
针对微电网中源荷不确定性问题,本文提出一种基于连续型深度确定性策略梯度(DDPG)算法的微电网能量调度方法。首先,以日运行成本最低为目标构建优化调度模型,并将该调度模型转化成马尔可夫决策过程(MDP),定义了马尔可夫决策模型的状态... 针对微电网中源荷不确定性问题,本文提出一种基于连续型深度确定性策略梯度(DDPG)算法的微电网能量调度方法。首先,以日运行成本最低为目标构建优化调度模型,并将该调度模型转化成马尔可夫决策过程(MDP),定义了马尔可夫决策模型的状态空间、动作空间和奖励函数。其次,利用长短期记忆(LSTM)神经网络提取环境中时序数据的未来趋势作为状态,从而在连续调度动作空间下改善深度强化学习算法收敛效果。最后,通过训练深度强化学习模型,对比多种算法下最优能量调度策略,验证了本文所提方法的有效性。 展开更多
关键词 微电网 能量管理 强化学习 深度确定性策略梯度(ddpg)
在线阅读 下载PDF
DDPG深度强化学习算法在无人船目标追踪与救援中的应用
6
作者 宋雷震 吕东芳 《黑龙江大学工程学报(中英俄文)》 2024年第1期58-64,共7页
为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳... 为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳定成功率接近100%,性能优异。该设计的算法最终回合累积奖励值能够稳定在10左右,而平均时长则能稳定在80 s左右,能够根据周边环境的状态调整自己的运动策略,满足海上救援活动中的紧迫性要求,能为相关领域的研究提供一条新的思路。 展开更多
关键词 无人船 目标追踪 海上救援 深度确定性策略梯度算法(ddpg)
在线阅读 下载PDF
一种基于DDPG的变体飞行器智能变形决策方法
7
作者 王青 刘华华 屈东扬 《宇航学报》 EI CAS CSCD 北大核心 2024年第10期1560-1567,共8页
针对一类变体飞行器自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能变形决策方法。首先,针对一种后掠角可连续变化的飞行器,通过计算流体力学方法获得飞行器的气动参数并分析其气动特性;然后,联合制导过程与DDPG算... 针对一类变体飞行器自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能变形决策方法。首先,针对一种后掠角可连续变化的飞行器,通过计算流体力学方法获得飞行器的气动参数并分析其气动特性;然后,联合制导过程与DDPG算法,以获得最优气动特性和制导性能为目标,提出了一种变体飞行器智能变形决策算法;最后,仿真结果表明所提算法收敛效果好,相比于固定外形,可通过合适的变形决策指令在得到最优气动外形的同时获得更好的制导性能。 展开更多
关键词 变体飞行器 自主变形决策 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于深度强化学习CLPER-DDPG的车辆纵向速度规划
8
作者 柳鹏 赵克刚 +1 位作者 梁志豪 叶杰 《汽车安全与节能学报》 CAS CSCD 北大核心 2024年第5期702-710,共9页
为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训... 为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训练和测试,并对深度确定性策略梯度(DDPG)、结合优先经验回放机制的深度确定性策略梯度(PER-DDPG)、结合优先经验回放机制和课程学习机制的深度确定性策略梯度(CLPER-DDPG)3种算法进行对比实验,并在园区内的真实道路上进行实车实验。结果表明:相比于DDPG算法,CLPER-DDPG算法使规划器的收敛速度提高了56.45%,距离差均值降低了16.61%,速度差均值降低了15.25%,冲击度均值降低了18.96%。此外,当实验场景的环境气候和传感器硬件等参数发生改变时,模型能保证在安全的情况下完成纵向速度规划任务。 展开更多
关键词 自动驾驶 纵向速度规划 深度确定性策略梯度(ddpg)算法 课程学习机制 优先经验回放机制
在线阅读 下载PDF
仿驾驶员DDPG汽车纵向自动驾驶决策方法 被引量:12
9
作者 高振海 闫相同 +1 位作者 高菲 孙天骏 《汽车工程》 EI CSCD 北大核心 2021年第12期1737-1744,共8页
汽车纵向自动驾驶的决策层根据车辆当前运动状态与环境信息,决策出理想的动作指令。目前如何在自动驾驶决策策略中考虑人类驾驶员的行为成为研究热点。在纵向自动驾驶决策策略中传统的基于规则的决策策略难以运用到复杂的场景中,而当前... 汽车纵向自动驾驶的决策层根据车辆当前运动状态与环境信息,决策出理想的动作指令。目前如何在自动驾驶决策策略中考虑人类驾驶员的行为成为研究热点。在纵向自动驾驶决策策略中传统的基于规则的决策策略难以运用到复杂的场景中,而当前使用强化学习和深度强化学习的决策方法大多通过设计安全性、舒适性、经济性相关公式构建奖励函数,得到的决策策略与人类驾驶员相比仍然存在较大差距。针对以上问题,本文使用驾驶员数据通过BP神经网络拟合设计奖励函数,使用深度强化学习DDPG算法,建立了一种仿驾驶员的纵向自动驾驶决策方法。最终通过仿真测试验证了该方法的有效性和与驾驶员行为的一致性。 展开更多
关键词 自动驾驶 决策算法 深度强化学习 深度确定性策略梯度
在线阅读 下载PDF
基于深度强化学习的车辆自主避撞决策控制模型 被引量:8
10
作者 李文礼 张友松 +2 位作者 韩迪 钱洪 石晓辉 《汽车安全与节能学报》 CAS CSCD 北大核心 2021年第2期201-209,共9页
为提高车辆对行驶环境的自我学习和决策能力,提出了一种基于深度确定性策略梯度(DDPG)的车辆自主避撞决策控制模型。基于Markov决策过程的强化学习理论和车辆纵向运动学特性,设计了决策所需目标对象及自车信息的状态空间和自车减速度的... 为提高车辆对行驶环境的自我学习和决策能力,提出了一种基于深度确定性策略梯度(DDPG)的车辆自主避撞决策控制模型。基于Markov决策过程的强化学习理论和车辆纵向运动学特性,设计了决策所需目标对象及自车信息的状态空间和自车减速度的动作空间,以安全性、舒适性和效率因素为多目标奖励函数的端到端的车辆自主避撞决策模型。利用Matlab/Simulink构建的DDPG算法与交通环境的交互模型,通过了前车静止(CCRs)和前车制动(CCRb)场景测试。结果表明:本决策算法具有很好的收敛性,引入加速度和冲击度的极限值,在实现车辆有效避撞的同时,兼顾乘坐舒适性,且性能优于模糊控制。 展开更多
关键词 车辆安全 自主避撞 深度确定性策略梯度(ddpg) 控制模型 多目标奖励函数
在线阅读 下载PDF
基于WGAIL-DDPG(λ)的车辆自动驾驶决策模型 被引量:4
11
作者 张明恒 吕新飞 +1 位作者 万星 吴增文 《大连理工大学学报》 CAS CSCD 北大核心 2022年第1期77-84,共8页
优良的可靠性、学习效率和模型泛化能力是车辆自动驾驶系统研究的基本要求.基于深度强化学习理论框架提出了一种用于车辆自动驾驶决策的WGAIL-DDPG(λ)(Wasserstein generative adversarial nets-deep deterministic policy gradient(... 优良的可靠性、学习效率和模型泛化能力是车辆自动驾驶系统研究的基本要求.基于深度强化学习理论框架提出了一种用于车辆自动驾驶决策的WGAIL-DDPG(λ)(Wasserstein generative adversarial nets-deep deterministic policy gradient(λ))模型.其中,基于驾驶安全性、稳定性的车辆行驶性能要求,对强化学习模型中的奖励函数进行了针对性设计;通过引入模仿学习有效提升了强化学习过程中的学习效率;通过合理的增益调度器设计,保证了从模仿学习到强化学习的平稳过渡.实验结果表明,在稳定性上,智能体偏离道路中线的程度一直在30%内波动;在安全性上,智能体与周边其他车辆的安全距离基本保持在10 m以上;在模型泛化性方面,智能体在许多未训练过的复杂弯道也能很好地完成安全、平稳的驾驶任务;与原始DDPG(deep deterministic policy gradient)算法相比,该模型在学习速度上提升了约3.4倍,说明所提出的模型在保证自动驾驶系统可靠决策的同时有效提升了强化学习的效率,进一步实验证明其适用于不同的驾驶条件. 展开更多
关键词 自动驾驶决策 深度强化学习 模仿学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于强化学习的飞行器自主规避决策方法 被引量:1
12
作者 窦立谦 任梦圆 +1 位作者 张秀云 宗群 《航空科学技术》 2024年第6期96-103,共8页
考虑飞行器在执行任务过程中存在诸多不可预知的威胁或障碍,为保障飞行器的安全性,本文进行飞行器面向威胁目标的自主规避决策方法研究。首先综合考虑飞行器与威胁目标行为之间的相互影响,提出了基于深度长短期记忆(LSTM)神经网络的轨... 考虑飞行器在执行任务过程中存在诸多不可预知的威胁或障碍,为保障飞行器的安全性,本文进行飞行器面向威胁目标的自主规避决策方法研究。首先综合考虑飞行器与威胁目标行为之间的相互影响,提出了基于深度长短期记忆(LSTM)神经网络的轨迹预测算法,实现对威胁目标未来轨迹的预测;然后结合预测信息构建拦截场景下规避机动的马尔可夫决策过程,设计了基于改进双延迟深度确定性策略梯度(P-TD3)的飞行器规避决策方法,以最大化规避过程的总收益为优化目标,实现飞行器自主规避决策。最后通过在虚拟仿真交互平台的试验验证,本文的决策方法提升了网络的收敛速度,具有84%的规避成功率,提高了飞行器对潜在威胁的成功规避概率,有利于增强飞行器的自主性与安全性。 展开更多
关键词 高超声速飞行器 强化学习 双延迟深度确定性策略梯度 自主规避 机动决策
在线阅读 下载PDF
基于DDPG算法的变体飞行器自主变形决策 被引量:11
13
作者 桑晨 郭杰 +2 位作者 唐胜景 王肖 王子瑶 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第5期910-919,共10页
针对变体飞行器的自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能二维变形决策方法。以可同时变展长及后掠角的飞行器为研究对象,利用DATCOM计算气动数据,并通过分析获得变形量与气动特性之间关系;基于给定的展长... 针对变体飞行器的自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能二维变形决策方法。以可同时变展长及后掠角的飞行器为研究对象,利用DATCOM计算气动数据,并通过分析获得变形量与气动特性之间关系;基于给定的展长和后掠角变形动力学方程,设计DDPG算法学习步骤;针对对称和不对称变形条件下的变形策略进行学习训练。仿真结果表明:所提算法可以快速收敛,变形误差保持在3%以内,训练好的神经网络提高了变体飞行器对不同飞行任务的适应性,可以在不同的飞行环境中获得最佳的飞行性能。 展开更多
关键词 变体飞行器 自主变形决策 深度强化学习 深度确定性策略梯度(ddpg)算法 动力学分析
在线阅读 下载PDF
基于深度强化学习的端到端无人驾驶决策 被引量:19
14
作者 黄志清 曲志伟 +2 位作者 张吉 张严心 田锐 《电子学报》 EI CAS CSCD 北大核心 2020年第9期1711-1719,共9页
端到端的驾驶决策是无人驾驶领域的研究热点.本文基于DDPG(Deep Deterministic Policy Gradient)的深度强化学习算法对连续型动作输出的端到端驾驶决策展开研究.首先建立基于DDPG算法的端到端决策控制模型,模型根据连续获取的感知信息(... 端到端的驾驶决策是无人驾驶领域的研究热点.本文基于DDPG(Deep Deterministic Policy Gradient)的深度强化学习算法对连续型动作输出的端到端驾驶决策展开研究.首先建立基于DDPG算法的端到端决策控制模型,模型根据连续获取的感知信息(如车辆转角,车辆速度,道路距离等)作为输入状态,输出车辆驾驶动作(加速,刹车,转向)的连续型控制量.然后在TORCS(The Open Racing Car Simulator)平台下不同的行驶环境中进行训练并验证,结果表明该模型可以实现端到端的无人驾驶决策.最后与离散型动作输出的DQN(Deep Q-learning Network)模型进行对比分析,实验结果表明DDPG决策模型具有更优越的决策控制效果. 展开更多
关键词 无人驾驶 端到端决策 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于改进DDPG的空战行为决策方法 被引量:6
15
作者 殷宇维 王凡 +1 位作者 吴奎 胡剑秋 《指挥控制与仿真》 2022年第1期97-102,共6页
针对空战中飞机如何根据实时态势进行快速智能决策问题,提出基于改进DDPG算法的空战行为决策框架(Air Combat Behavior Decision-making Framework on Improve DDPG,ACBDF_DDPG)。框架中的主要改进如下:1.设计一种针对动态目标的嵌入式... 针对空战中飞机如何根据实时态势进行快速智能决策问题,提出基于改进DDPG算法的空战行为决策框架(Air Combat Behavior Decision-making Framework on Improve DDPG,ACBDF_DDPG)。框架中的主要改进如下:1.设计一种针对动态目标的嵌入式人工经验奖励机制,缓解深度强化学习算法在训练过程中,由于状态空间巨大且奖励稀疏导致的收敛困难问题;2.对框架中的Actor网络更新机制进行改进,解决Critic网络评估效果差时,更新Actor网络导致的模型训练不稳定问题;3.采用优先采样机制确保训练价值高的经验样本得到充分利用。最后基于MaCA平台搭建仿真实验环境,通过消融实验验证了所提出框架中改进机制的有效性和优越性。 展开更多
关键词 深度强化学习 深度确定性策略梯度 空战行为决策 动态目标 嵌入式人工经验奖励机制
在线阅读 下载PDF
基于DDPG的变外形航天飞行器碰撞规避的轨迹规划方法
16
作者 丁天雲 夏逸 +2 位作者 梅泽伟 邵星灵 刘俊 《兵工学报》 EI CAS CSCD 北大核心 2024年第11期3903-3914,共12页
针对变外形航天飞行器制导与变形决策强耦合问题,提出了基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)变外形碰撞规避的轨迹规划方法。依托变形参量建立变外形航天飞行器运动学模型,设计具有射程误差校正功能的纵... 针对变外形航天飞行器制导与变形决策强耦合问题,提出了基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)变外形碰撞规避的轨迹规划方法。依托变形参量建立变外形航天飞行器运动学模型,设计具有射程误差校正功能的纵向制导律和基于视线角偏差的横向制导律,实现绕飞障碍物并保证制导精度。建立适用于连续变外形的马尔可夫决策模型,以攻角、马赫数以及飞行器与障碍物的相对距离为状态空间,设计考虑碰撞的势场惩罚函数及满足制导精度的奖励函数,并构建DDPG网络实现状态空间到动作的尺度变换,得到最优外形决策指令。仿真结果表明:与固定外形航天飞行器相比,通过对外形最优决策,提高了航天飞行器制导精度和横向避障能力,降低了对机载雷达感知能力的要求,节省了感知成本。 展开更多
关键词 变外形航天飞行器 深度确定性策略梯度 智能决策 轨迹规划 碰撞规避
在线阅读 下载PDF
基于深度强化学习的工业机器人数字孪生模型更新方法
17
作者 段现银 秦志强 +1 位作者 唐小卫 向峰 《航空制造技术》 CSCD 北大核心 2024年第11期48-55,共8页
工业机器人的数字孪生模型能够模拟真实世界中工业机器人的行为和性能,但其仿真精度会受场景更新和设备磨损等使役工况的影响而下降。对此,本文提出了一种基于深度强化学习的工业机器人数字孪生模型更新方法。该方法应用仿真工具Coppeli... 工业机器人的数字孪生模型能够模拟真实世界中工业机器人的行为和性能,但其仿真精度会受场景更新和设备磨损等使役工况的影响而下降。对此,本文提出了一种基于深度强化学习的工业机器人数字孪生模型更新方法。该方法应用仿真工具Coppeliasim建立了工业机器人数字孪生模型,同时基于深度确定性策略梯度(DDPG)算法对数字孪生模型的PID参数、关节阻尼等关键参数进行优化,实现模型的参数更新,提高模型精度。最后,通过ABB–IRB2400工业机器人仿真同步试验,验证了所提方法的有效性。 展开更多
关键词 深度强化学习 工业机器人 数字孪生 深度确定性策略梯度(ddpg) 模型更新
在线阅读 下载PDF
基于改进DDPG-PID的芯片共晶键合温度控制
18
作者 刘家池 陈秀梅 邓娅莉 《半导体技术》 CAS 北大核心 2024年第11期973-980,共8页
芯片共晶键合对加热过程中的升温速率、保温时间和温度精度要求较高,在使用传统的比例-积分-微分(PID)温度控制方法时,存在响应时间过长、超调量过大、控制温度不够准确等问题。针对共晶加热台的温度控制问题,提出了一种基于改进的深度... 芯片共晶键合对加热过程中的升温速率、保温时间和温度精度要求较高,在使用传统的比例-积分-微分(PID)温度控制方法时,存在响应时间过长、超调量过大、控制温度不够准确等问题。针对共晶加热台的温度控制问题,提出了一种基于改进的深度确定性策略梯度(DDPG)强化学习算法优化PID参数的控制方法,采用分类经验回放的思想,以奖励值大小为标准对经验进行分类存放,根据智能体当前的状态和下一步动作,从相应的经验池中进行采样并训练,并根据PID控制算法的特性设计了合理的奖励函数,改善了强化学习中奖励稀疏的问题,提高了算法的收敛速度与性能。仿真结果表明,与传统PID控制、常规DDPG-PID控制相比,改进DDPG-PID控制缩短了响应时间,降低了超调量,近乎消除了稳态误差,提高了控制性能和系统稳定性。 展开更多
关键词 芯片共晶键合 深度确定性策略梯度(ddpg)算法 强化学习 温度控制 比例-积分-微分(PID)控制
在线阅读 下载PDF
基于多智能体深度强化学习的无人艇集群博弈对抗研究
19
作者 于长东 刘新阳 +2 位作者 陈聪 刘殿勇 梁霄 《水下无人系统学报》 2024年第1期79-86,共8页
基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟... 基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟具体作战场景平台,设计多智能体网络模型、奖励函数机制以及训练策略。实验结果表明,文中方法可以有效应对敌方无人艇的协同围捕决策问题,在不同作战场景下具有较高的效率,为未来复杂作战场景下无人艇智能决策研究提供理论参考价值。 展开更多
关键词 无人艇集群 多智能体深度确定性策略梯度算法 深度强化学习 智能决策 博弈对抗
在线阅读 下载PDF
基于深度强化学习算法的投资组合策略与自动化交易研究
20
作者 杨旭 刘家鹏 +1 位作者 越瀚 张芹 《现代电子技术》 北大核心 2024年第6期154-160,共7页
投资组合策略问题是金融领域经久不衰的一个课题,将人工智能技术用于金融市场是信息技术时代一个重要的研究方向。目前的研究较多集中在股票的价格预测上,对于投资组合及自动化交易这类决策性问题的研究较少。文中基于深度强化学习算法... 投资组合策略问题是金融领域经久不衰的一个课题,将人工智能技术用于金融市场是信息技术时代一个重要的研究方向。目前的研究较多集中在股票的价格预测上,对于投资组合及自动化交易这类决策性问题的研究较少。文中基于深度强化学习算法,利用深度学习的BiLSTM来预测股价的涨跌,以强化学习的智能体进行观测,更好地判断当期情况,从而确定自己的交易动作;同时,利用传统的投资组合策略来建立交易的预权重,使智能体可以在自动化交易的过程中进行对比,从而不断优化自己的策略选择,生成当期时间点内最优的投资组合策略。文章选取美股的10支股票进行实验,在真实的市场模拟下表明,基于深度强化学习算法的模型累计收益率达到了86.5%,与其他基准策略相比,收益最高,风险最小,具有一定的实用价值。 展开更多
关键词 投资组合策略 自动化交易 深度强化学习 BiLSTM 深度确定性策略梯度(ddpg) 权重对比
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部