期刊文献+
共找到47篇文章
< 1 2 3 >
每页显示 20 50 100
基于深度确定性策略梯度算法的智能水下机器人局部路径规划
1
作者 吕茜 党康宁 《科学技术创新》 2023年第20期224-228,共5页
路径规划是智能水下机器人技术研究的核心内容之一,是实现其自主航行和作业的关键环节。基于水下机器人的运动学模型,将深度确定性策略梯度(DDPG)算法应用于水下机器人的局部路径规划中,通过构造适当的奖励信号和设置合理的训练评估条件... 路径规划是智能水下机器人技术研究的核心内容之一,是实现其自主航行和作业的关键环节。基于水下机器人的运动学模型,将深度确定性策略梯度(DDPG)算法应用于水下机器人的局部路径规划中,通过构造适当的奖励信号和设置合理的训练评估条件,使算法适用于水下机器人的运动学模型。仿真试验验证了采用DDPG算法训练的水下机器人能够在航道水域环境中安全快速地规划和避开障碍物,实现自主安全航行。 展开更多
关键词 智能水下机器人 局部路径规划 深度确定性策略梯度(DDPG)算法 自主安全航行
在线阅读 下载PDF
基于TD3算法的光伏电站参与电力系统频率控制策略
2
作者 张建华 陶莹 赵思 《郑州大学学报(工学版)》 北大核心 2025年第3期42-49,共8页
针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较。结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。 展开更多
关键词 光伏并网系统 一次调频 深度强化学习 双延迟深度确定性策略梯度算法 控制性能
在线阅读 下载PDF
基于深度确定性策略梯度的粒子群算法 被引量:5
3
作者 鲁华祥 尹世远 +2 位作者 龚国良 刘毅 陈刚 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期199-206,共8页
在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分... 在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分别实现了动作函数和动作价值函数,且利用神经网络可以动态地生成算法运行所需要的参数,降低了人工配置算法的难度。实验表明DDPGPSO相比9种同类算法在收敛速度和寻优精度上均有较大的提升。 展开更多
关键词 自适应惯性权值 收敛因子 深度确定性策略梯度算法 强化学习 群体智能 粒子群优化算法
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
4
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于DDPG优化方法的插电式混合动力汽车等效燃油消耗最小控制策略
5
作者 徐晓东 韦文祥 甘紫东 《汽车实用技术》 2025年第5期8-13,共6页
为提高混动汽车的燃油经济性,以插电式混合动力汽车作为研究对象,采用深度确定性策略梯度(DDPG)算法对等效燃油消耗最小策略(ECMS)的等效因子和电池荷电状态(SOC)进行优化。将深度学习的感知能力与强化学习的决策能力相结合,解决了对混... 为提高混动汽车的燃油经济性,以插电式混合动力汽车作为研究对象,采用深度确定性策略梯度(DDPG)算法对等效燃油消耗最小策略(ECMS)的等效因子和电池荷电状态(SOC)进行优化。将深度学习的感知能力与强化学习的决策能力相结合,解决了对混合动力汽车的能量管理优化问题。在MATLAB/Simulink中搭建整车仿真模型进行试验,结果表明,采用新欧洲驾驶循环特定工况,在满足车辆正常行驶动力需求下,基于DDPG算法优化的等效油耗极小值算法燃油消耗明显低于双深度Q网络(DDQN)和传统的ECMS,同时维持电池SOC的平衡,保证了多目标平衡性。 展开更多
关键词 插电式混合动力汽车 确定性策略梯度算法 等效燃油消耗最小控制策略 等效因子 多目标平衡
在线阅读 下载PDF
航空混合动力系统能量管理策略研究综述
6
作者 张丁予 沈挺 《航空发动机》 北大核心 2025年第1期12-20,共9页
能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。... 能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。通过阐述强化学习原理,分析了深度Q网络算法和深度确定性策略梯度算法的奖励原理、神经网络更新原理、以及各自优缺点及适用场景,并提出基于规则类能量管理策略对于专家经验依赖性较高等缺陷,可以通过将其与基于智能算法内部创新融合进行缓解的措施。在此基础上,展望了能量管理策略的未来发展趋势为智能内部算法、智能与其他类型算法的融合创新等,可以为后续航空混动系统能量管理策略研究提供一定的参考。 展开更多
关键词 能量管理策略 深度Q网络算法 深度确定性策略梯度算法 强化学习 航空混合动力系统
在线阅读 下载PDF
DDPG深度强化学习算法在无人船目标追踪与救援中的应用
7
作者 宋雷震 吕东芳 《黑龙江大学工程学报(中英俄文)》 2024年第1期58-64,共7页
为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳... 为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳定成功率接近100%,性能优异。该设计的算法最终回合累积奖励值能够稳定在10左右,而平均时长则能稳定在80 s左右,能够根据周边环境的状态调整自己的运动策略,满足海上救援活动中的紧迫性要求,能为相关领域的研究提供一条新的思路。 展开更多
关键词 无人船 目标追踪 海上救援 深度确定性策略梯度算法(DDPG)
在线阅读 下载PDF
基于PER-DDPG算法的城市轨道交通越区切换研究
8
作者 张军平 王小鹏 王冶力 《山西电子技术》 2024年第3期100-102,共3页
针对传统IEEE802.11越区切换方式存在较高的切换延时以及乒乓切换等问题,提出深度强化学习(Deep Q-Network,DQN)越区切换算法。通过对列车运行的特征状态信息进行提取输入,考虑列车运行速度及场强、切换阈值等动态信息构建越区切换模型... 针对传统IEEE802.11越区切换方式存在较高的切换延时以及乒乓切换等问题,提出深度强化学习(Deep Q-Network,DQN)越区切换算法。通过对列车运行的特征状态信息进行提取输入,考虑列车运行速度及场强、切换阈值等动态信息构建越区切换模型。同时针对算法时间成本复杂度及稳定性,采用优先经验回放深度确定性策略梯度(Prioritized Experience Replay-Deep Deterministic Policy Gradient,PER-DDPG)算法,将列车状态空间信息传输至PER-DDPG网络中进行优化分析。结果表明基于PER-DDPG算法优化后的列车越区切换模型使用该算法时间计算成本降低,数据包传输延时约降低55%。 展开更多
关键词 基于通信列车控制 CBTC系统 IEEE802.11标准 优先经验回放机制深度确定策略梯度算法
在线阅读 下载PDF
基于扰动流体与TD3的无人机路径规划算法 被引量:3
9
作者 陈康雄 刘磊 《电光与控制》 CSCD 北大核心 2024年第1期57-62,共6页
针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动... 针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动态未知环境下的无人机路径规划问题,实现了无人机路径规划方案的快速收敛。仿真结果表明,对算法的改进可大幅提升网络训练效率,且能在保证避障实时性的前提下,满足航迹质量需求,为路径规划任务中应用深度强化学习提供了新思路。 展开更多
关键词 无人机 路径规划 双延迟深度确定性策略梯度算法 深度强化学习 扰动流体动态系统
在线阅读 下载PDF
基于策略梯度及强化学习的拖挂式移动机器人控制方法 被引量:1
10
作者 林俊文 程金 季金胜 《市政技术》 2023年第10期101-105,共5页
针对拖挂式移动机器人的反向泊车运动控制问题,提出了一种基于策略梯度及强化学习的拖挂式移动机器人控制方法。首先,在Gym软件中搭建了具有单节拖车的拖挂式移动机器人的运动学仿真模型,并设计了稳定的反向泊车运动控制律。其次,构建... 针对拖挂式移动机器人的反向泊车运动控制问题,提出了一种基于策略梯度及强化学习的拖挂式移动机器人控制方法。首先,在Gym软件中搭建了具有单节拖车的拖挂式移动机器人的运动学仿真模型,并设计了稳定的反向泊车运动控制律。其次,构建了基于Tensorflow框架的神经网络模型,设计了相应的损失函数,并利用策略梯度算法更新神经网络的参数,以训练机器人的反向泊车运动。仿真实验结果表明,经过训练的拖挂式移动机器人能够有效地学习反向泊车运动控制策略,并稳定地实现反向泊车运动。不同参数下的实验结果验证了基于策略梯度算法的强化学习模型的有效性。 展开更多
关键词 拖挂式移动机器人 强化学习 人工智能 策略梯度算法 反向泊车
在线阅读 下载PDF
基于MADDPG算法的匝道合流区多车协同控制
11
作者 蔡田茂 孔伟伟 +3 位作者 罗禹贡 石佳 姬鹏霄 李聪民 《汽车安全与节能学报》 CSCD 北大核心 2024年第6期923-933,共11页
为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通... 为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通过构建相对静止环境,改进策略更新梯度,保障智能体面向连续车流环境的平稳性;拆分匝道合流区场景为准备区和汇入区,分别依据两区域控制目标设计了状态、动作空间及奖励函数。结果表明:在不同交通流量下,与基于规则的方法相比,该方法通行合流区的总延误时间平均缩短25.46%;与全局优化方法相比,延误时间相差8.47%,但控制时长上不会随车辆数量增加而增长。该文所提出匝道合流区多车协同控制方法能够更好地兼顾通行效率提升与系统实时性。 展开更多
关键词 多智能体确定性策略梯度算法(MADDPG) 多智能体强化学习 多车协同控制 匝道合流
在线阅读 下载PDF
基于DDPG算法的海运船舶避碰路径规划方法 被引量:1
12
作者 初文忠 《科技通报》 2024年第8期51-54,共4页
针对多船舶会遇情况,以提高避碰路径规划能力,本文提出了一种基于深度确定策略梯度算法(deep deterministic policy gradient,DDPG)的海运船舶避碰路径规划方法。利用栅格法建立船舶航行路线的静态全局环境,并利用人工蜂群算法设计静态... 针对多船舶会遇情况,以提高避碰路径规划能力,本文提出了一种基于深度确定策略梯度算法(deep deterministic policy gradient,DDPG)的海运船舶避碰路径规划方法。利用栅格法建立船舶航行路线的静态全局环境,并利用人工蜂群算法设计静态初始路径。针对多船会遇情况,计算海运船舶与其他船舶发生碰撞的危险程度,以危险程度作为DDPG算法的输入参数,通过训练与学习输出海运船舶避碰路径的规划结果。实验表明:经过本文方法的规划后,海运船舶安全避开了另外三艘船舶,未发生碰撞事故,安全到达目标点,证明本文方法规划的线路避碰性能更强,提高了海运船舶航行的安全性。 展开更多
关键词 深度确定策略梯度算法 海运船舶 静态初始路径 碰撞危险程度 避碰路径 路径规划
在线阅读 下载PDF
基于DDPG算法的游船航行避碰路径规划 被引量:14
13
作者 周怡 袁传平 +1 位作者 谢海成 羊箭锋 《中国舰船研究》 CSCD 北大核心 2021年第6期19-26,60,共9页
[目的]作为船舶航行安全的核心问题,若船舶避碰完全依赖船长的个人状态和判断将存在一定的安全隐患。为了统筹关键水域上所有船舶(游船、货船等)并进行路径预测,需要建立防碰撞预警机制。[方法]利用深度确定性策略梯度(DDPG)算法和船舶... [目的]作为船舶航行安全的核心问题,若船舶避碰完全依赖船长的个人状态和判断将存在一定的安全隐患。为了统筹关键水域上所有船舶(游船、货船等)并进行路径预测,需要建立防碰撞预警机制。[方法]利用深度确定性策略梯度(DDPG)算法和船舶领域模型,采用电子海图模拟船舶的航行路径,提出基于失败区域重点学习的DDPG算法改进策略,并针对游船特点改进的船舶领域模型参数等改进方法,提高航线预测和防碰撞准确率。[结果]使用改进的DDPG算法和改进的船舶领域模型,与未改进前的算法相比,船舶避碰正确率由84.9%升至89.7%,模拟航线与真实航线的平均误差由25.2 m降至21.4 m。[结论]通过基于改进的DDPG算法和改进的船舶领域模型开展船舶避碰路径规划,可以实现水域船舶航线监管功能,且当预测航线与其他船舶存在交会时,告警调度人员,从而实现防碰撞预警机制。 展开更多
关键词 混合航道 船舶领域 船舶避碰 深度确定性策略梯度算法 失败区域探索策略
在线阅读 下载PDF
基于多无人机的空中计算网络资源分配算法 被引量:1
14
作者 谈玲 许海 +1 位作者 刘玉风 夏景明 《电子学报》 EI CAS CSCD 北大核心 2023年第11期3070-3078,共9页
空中计算(over-the-Air Computation,AirComp)是一种有效提升分布式数据聚合效率的方法.现有研究大多采用单无人机(Unmanned Aerial Vehicle,UAV)方案,未考虑数据聚合质量和系统稳定性.为此,本文提出一种基于多UAV辅助的AirComp网络,旨... 空中计算(over-the-Air Computation,AirComp)是一种有效提升分布式数据聚合效率的方法.现有研究大多采用单无人机(Unmanned Aerial Vehicle,UAV)方案,未考虑数据聚合质量和系统稳定性.为此,本文提出一种基于多UAV辅助的AirComp网络,旨在实现多个地面移动传感器(Ground Mobile Sensor,GMS)的高效聚合.为了改进数据采集质量并全面反映系统性能,本文设计了一个多约束优化问题,通过联合优化UAV-GMS关联、UAV三维(Three Dimensional,3D)部署、UAV去噪因子以及传输功率分配,以最大化系统的最小可达速率.针对多约束优化问题的非线性特征,本文提出一种AirComp网络下多UAV辅助的深度确定性策略梯度优化算法(DeepDeterministicPolicyGradient-basedoptimizationalgorithmformulti-UAVcooperationinAirCompnetwork,AirDDPG-UAV),用以协助多UAV在复杂环境下快速响应聚合任务.该算法利用深度强化学习的确定性策略对网络中的状态、行为和奖励进行优化,以最大化系统最小可达速率.数值结果显示,AirDDPG-UAV算法在保证较低的系统能耗和计算复杂度前提下,能够使系统最小可达速率提高15%,表明本文所提方案适用于分布式数据聚合,可以有效提高数据聚合效率. 展开更多
关键词 无人机 空中计算 3 D部署 深度确定性策略梯度算法 地面移动传感器 数据聚合
在线阅读 下载PDF
深度强化学习下的管道气动软体机器人控制
15
作者 江雨霏 朱其新 《西安工程大学学报》 2025年第2期65-74,共10页
在复杂的管道环境中,与刚性机器人相比,软体机器人更适合执行操作任务。然而,由于具有无限自由度和非线性变形的特点,软体机器人的控制是一个较大的挑战。根据管道气动软体机器人变形方式进行动力学建模,提出一种结合预测奖励技术的深... 在复杂的管道环境中,与刚性机器人相比,软体机器人更适合执行操作任务。然而,由于具有无限自由度和非线性变形的特点,软体机器人的控制是一个较大的挑战。根据管道气动软体机器人变形方式进行动力学建模,提出一种结合预测奖励技术的深度确定性策略梯度(predictive reward-deep deterministic policy gradient,PR-DDPG)算法,将其应用于管道气动软体机器人的连续运动控制,为其动态的弯曲运动控制问题设计自主运动控制器。实验结果表明:PR-DDPG算法能够有效控制管道气动软体机器人在三维空间中进行自主连续运动,且可控制其前端到达目标点与目标方向。与深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法相比,PR-DDPG算法的收敛时间减少了约17%,奖励值提高了约20%,提高了管道气动软体机器人的连续运动控制性能。 展开更多
关键词 管道软体机器人 运动控制 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于深度强化学习的增程式电动轻卡能量管理策略 被引量:3
16
作者 段龙锦 王贵勇 +1 位作者 王伟超 何述超 《内燃机工程》 CAS CSCD 北大核心 2023年第6期90-99,共10页
为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,T... 为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法的实时能量管理策略,以发动机燃油消耗量、电池荷电状态(state of charge,SOC)变化等为优化目标,在世界轻型车辆测试程序(world light vehicle test procedure,WLTP)中对深度强化学习智能体进行训练。仿真结果表明,利用不同工况验证了基于TD3算法的能量管理策略(energy management strategy,EMS)具有较好的稳定性和适应性;TD3算法实现对发动机转速和转矩连续控制,使得输出功率更加平滑。将基于TD3算法的EMS与基于传统深度Q网络(deep Q-network,DQN)算法和深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行对比分析,结果表明:基于TD3算法的EMS燃油经济性分别相比基于DQN算法和DDPG算法提高了12.35%和0.67%,达到基于动态规划(dynamic programming,DP)算法的94.85%,收敛速度相比基于DQN算法和DDPG算法分别提高了40.00%和47.60%。 展开更多
关键词 深度Q网络 深度确定性策略梯度 双延迟深度确定性策略梯度算法 增程式电动轻卡
在线阅读 下载PDF
改进型DDPG算法的多智能体编队控制与仿真 被引量:2
17
作者 景永年 耿双双 +1 位作者 向瑶 文家燕 《广西科技大学学报》 CAS 2023年第3期62-71,共10页
针对多智能体系统编队在路径规划过程中队形不稳定、获取路径时间较慢以及在避障过程中存在与障碍物距离较近的问题,本文采用角度距离度量的方式对多智能体进行编队,通过改变传统的由起始点到达终点避障过程所形成的路径规划方法,弱化... 针对多智能体系统编队在路径规划过程中队形不稳定、获取路径时间较慢以及在避障过程中存在与障碍物距离较近的问题,本文采用角度距离度量的方式对多智能体进行编队,通过改变传统的由起始点到达终点避障过程所形成的路径规划方法,弱化起始点和终点概念,添加路径中点的方式,使智能体同时从起点以及终点向中点移动,形成由起点指向中点、终点指向中点的2条路径。将奖励函数设计为同号智能体相碰为正向奖励,异号智能体相碰以及智能体(同号智能体和异号智能体)与障碍物之间相碰均为负向奖励。在搭建的静态和动态障碍物2种仿真环境下分别进行可变容量体验池深度确定性策略梯度算法(deep deterministic policy gradient-variable capacity experience pool,DDPG-vcep)验证,并对比不同训练次数下的奖赏值。仿真结果表明,改进后的DDPG编队算法较传统DDPG算法节约了路径获取时间,编队避障的效果更加明显。 展开更多
关键词 深度学习 强化学习 深度确定性策略梯度算法(DDPG算法) 多智能体 编队控制 避障
在线阅读 下载PDF
基于改进TD3算法的无人机决策研究 被引量:1
18
作者 蒋方庆 陈自力 +2 位作者 高喜俊 王春峰 贺道坤 《信息化研究》 2023年第3期36-42,共7页
针对无人机在执行打击任务时,对飞行区域的环境掌握甚少、飞行区域大、目标稀疏、火力威胁等相对不确定因素会导致任务的完成度低的问题。本文提出利用双策略网络对双延迟深度确定性策略梯度算法(TD3)进行改进,解决单策略动作波动大问... 针对无人机在执行打击任务时,对飞行区域的环境掌握甚少、飞行区域大、目标稀疏、火力威胁等相对不确定因素会导致任务的完成度低的问题。本文提出利用双策略网络对双延迟深度确定性策略梯度算法(TD3)进行改进,解决单策略动作波动大问题。针对优质训练样本利用率低导致的收敛速度慢问题,采用优先经验回放机制提高优质样本利用率。使用改进后的TD3算法训练无人机,通过改变偏航角、俯仰角以及速度控制无人机飞行,无人机在三维环境中完成抵近打击任务并规避威胁。实验结果表明,改进后的算法相比于传统TD3算法,算法收敛的速度更快,无人机的任务完成度可相对提高15%。 展开更多
关键词 无人机 双延迟深度确定性策略梯度算法 策略网络 优先经验回放
在线阅读 下载PDF
区块链驱动的边缘计算系统联合优化算法 被引量:3
19
作者 杜剑波 胥娇 +3 位作者 姜静 曾耀平 金蓉 何华 《西安邮电大学学报》 2023年第6期1-11,共11页
针对物联网设备在任务处理过程中能耗高及来自不同运营商的实体之间缺乏信任等问题,提出一种区块链驱动的边缘计算(Multi-access Edge Computing,MEC)系统联合优化算法。构建多接入边缘计算网络架构,其中基站作为边缘节点,同时兼具区块... 针对物联网设备在任务处理过程中能耗高及来自不同运营商的实体之间缺乏信任等问题,提出一种区块链驱动的边缘计算(Multi-access Edge Computing,MEC)系统联合优化算法。构建多接入边缘计算网络架构,其中基站作为边缘节点,同时兼具区块链子系统共识节点的功能。在可信性保证及用户服务质量保障的前提下,通过联合优化接入控制及计算资源分配策略,降低物联网设备的平均总能耗。考虑到网络的动态特性和信息获取的不确定性,将问题重建为马尔可夫决策过程,并采用基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的自适应决策算法求解。仿真结果表明,与随机接入算法和演员评论家算法相比,该算法能有效地降低网络能耗,提高DDPG智能体的长期平均累积奖励。 展开更多
关键词 多接入边缘计算 区块链 马尔可夫决策过程 深度确定性策略梯度算法 网络能耗
在线阅读 下载PDF
基于PPO算法的旅行商问题求解模型 被引量:1
20
作者 贝世之 严嘉钰 章乐 《北京电子科技学院学报》 2021年第4期88-95,共8页
旅行商问题,即TSP(Traveling Salesman Problem)问题,是经典计算模型中的NP-hard问题。也因为其为NP-hard,所以从理论上来说目前并没有多项式时间的算法可以快速计算出给定图的实例所对应的TSP旅行路线,即tour。近些年来,对于小规模的图... 旅行商问题,即TSP(Traveling Salesman Problem)问题,是经典计算模型中的NP-hard问题。也因为其为NP-hard,所以从理论上来说目前并没有多项式时间的算法可以快速计算出给定图的实例所对应的TSP旅行路线,即tour。近些年来,对于小规模的图(顶点数不超过100,称为TSP100),人们提出了基于神经网络模型的方法去计算出tour。特别的,在[Kwon等人,NIPS 2020]中,Kwon等人提出了POMO(Policy Optimization with Multiple Optima)模型,对TSP100问题可以给出接近目前启发式策略所能获得的最短tour,且相应的计算时间相比较于启发式策略加快了近一个数量级。本文基于PPO(Proximal Policy Optimization)算法,对该模型进行了微调(fine-tune),将其在TSP100相关的测试集上的平均tour长度从7.80改进到7.791,而目前不基于学习的启发式算法所能找到最短的平均tour长度为7.76。本文中的结果更加接近于目前的最好结果,但相比启发式策略,得到结果的时间大大缩短。 展开更多
关键词 旅行商问题 强化学习 策略梯度算法
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部