期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于深度确定性策略梯度的粒子群算法 被引量:5
1
作者 鲁华祥 尹世远 +2 位作者 龚国良 刘毅 陈刚 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期199-206,共8页
在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分... 在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分别实现了动作函数和动作价值函数,且利用神经网络可以动态地生成算法运行所需要的参数,降低了人工配置算法的难度。实验表明DDPGPSO相比9种同类算法在收敛速度和寻优精度上均有较大的提升。 展开更多
关键词 自适应惯性权值 收敛因子 深度确定性策略梯度算法 强化学习 智能 粒子群优化算法
在线阅读 下载PDF
基于深度确定性策略梯度算法的智能水下机器人局部路径规划
2
作者 吕茜 党康宁 《科学技术创新》 2023年第20期224-228,共5页
路径规划是智能水下机器人技术研究的核心内容之一,是实现其自主航行和作业的关键环节。基于水下机器人的运动学模型,将深度确定性策略梯度(DDPG)算法应用于水下机器人的局部路径规划中,通过构造适当的奖励信号和设置合理的训练评估条件... 路径规划是智能水下机器人技术研究的核心内容之一,是实现其自主航行和作业的关键环节。基于水下机器人的运动学模型,将深度确定性策略梯度(DDPG)算法应用于水下机器人的局部路径规划中,通过构造适当的奖励信号和设置合理的训练评估条件,使算法适用于水下机器人的运动学模型。仿真试验验证了采用DDPG算法训练的水下机器人能够在航道水域环境中安全快速地规划和避开障碍物,实现自主安全航行。 展开更多
关键词 智能水下机器人 局部路径规划 深度确定性策略梯度(DDPG)算法 自主安全航行
在线阅读 下载PDF
基于多智能体深度强化学习的多无人机辅助移动边缘计算轨迹设计
3
作者 徐少毅 杨磊 《北京交通大学学报》 CSCD 北大核心 2024年第5期1-9,共9页
无人机(Unmanned Aerial Vehicle,UAV)辅助的移动边缘计算(Mobile Edge Computing,MEC)网络能够为地面用户设备(User Equipment,UE)提供优质的计算服务,但是为多无人机进行实时的轨迹设计仍是一个挑战.针对该问题,提出基于多智能体深度... 无人机(Unmanned Aerial Vehicle,UAV)辅助的移动边缘计算(Mobile Edge Computing,MEC)网络能够为地面用户设备(User Equipment,UE)提供优质的计算服务,但是为多无人机进行实时的轨迹设计仍是一个挑战.针对该问题,提出基于多智能体深度强化学习的轨迹设计算法,利用多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)框架对无人机的轨迹进行协作设计.考虑到无人机有限的电池容量是限制无人机网络性能的重要因素,因此以无人机的能量效率之和为优化目标构建优化问题,联合优化无人机集群的轨迹和用户设备的卸载决策.每个智能体与边缘计算网络环境进行交互并观测自己的局部状态,通过Actor网络得到轨迹坐标,联合其他智能体的动作和观测训练Critic网络,从而改善Actor网络输出的轨迹策略.仿真结果表明:基于MADDPG的无人机轨迹设计算法具有良好的收敛性和鲁棒性,能够高效地提升无人机的能量效率;所提算法性能较随机飞行算法最高可提升120%,较圆周飞行算法最高可提升20%,较深度确定性策略梯度算法可提升5%~10%. 展开更多
关键词 无人机轨迹设计 移动边缘计算 强化学习 多智能深度确定性策略梯度
在线阅读 下载PDF
一种基于DDPG的变体飞行器智能变形决策方法
4
作者 王青 刘华华 屈东扬 《宇航学报》 EI CAS CSCD 北大核心 2024年第10期1560-1567,共8页
针对一类变体飞行器自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能变形决策方法。首先,针对一种后掠角可连续变化的飞行器,通过计算流体力学方法获得飞行器的气动参数并分析其气动特性;然后,联合制导过程与DDPG算... 针对一类变体飞行器自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能变形决策方法。首先,针对一种后掠角可连续变化的飞行器,通过计算流体力学方法获得飞行器的气动参数并分析其气动特性;然后,联合制导过程与DDPG算法,以获得最优气动特性和制导性能为目标,提出了一种变体飞行器智能变形决策算法;最后,仿真结果表明所提算法收敛效果好,相比于固定外形,可通过合适的变形决策指令在得到最优气动外形的同时获得更好的制导性能。 展开更多
关键词 飞行器 自主变形决策 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于多智能体深度强化学习的多星观测任务分配方法 被引量:1
5
作者 王桢朗 何慧群 +1 位作者 周军 金云飞 《上海航天(中英文)》 CSCD 2024年第1期108-115,共8页
为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况... 为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况下,仍具有一定的自主协同能力及独立实现多星观测任务的高效分配能力。 展开更多
关键词 多智能系统 深度强化学习 多星系统 多智能深度确定性策略梯度算法 任务规划
在线阅读 下载PDF
基于MADDPG算法的匝道合流区多车协同控制
6
作者 蔡田茂 孔伟伟 +3 位作者 罗禹贡 石佳 姬鹏霄 李聪民 《汽车安全与节能学报》 CSCD 北大核心 2024年第6期923-933,共11页
为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通... 为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通过构建相对静止环境,改进策略更新梯度,保障智能体面向连续车流环境的平稳性;拆分匝道合流区场景为准备区和汇入区,分别依据两区域控制目标设计了状态、动作空间及奖励函数。结果表明:在不同交通流量下,与基于规则的方法相比,该方法通行合流区的总延误时间平均缩短25.46%;与全局优化方法相比,延误时间相差8.47%,但控制时长上不会随车辆数量增加而增长。该文所提出匝道合流区多车协同控制方法能够更好地兼顾通行效率提升与系统实时性。 展开更多
关键词 多智能确定性策略梯度算法(maddpg) 多智能强化学习 多车协同控制 匝道合流
在线阅读 下载PDF
基于多智能体深度强化学习的无人艇集群博弈对抗研究
7
作者 于长东 刘新阳 +2 位作者 陈聪 刘殿勇 梁霄 《水下无人系统学报》 2024年第1期79-86,共8页
基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟... 基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟具体作战场景平台,设计多智能体网络模型、奖励函数机制以及训练策略。实验结果表明,文中方法可以有效应对敌方无人艇的协同围捕决策问题,在不同作战场景下具有较高的效率,为未来复杂作战场景下无人艇智能决策研究提供理论参考价值。 展开更多
关键词 无人艇集群 多智能深度确定性策略梯度算法 深度强化学习 智能决策 博弈对抗
在线阅读 下载PDF
改进型DDPG算法的多智能体编队控制与仿真 被引量:2
8
作者 景永年 耿双双 +1 位作者 向瑶 文家燕 《广西科技大学学报》 CAS 2023年第3期62-71,共10页
针对多智能体系统编队在路径规划过程中队形不稳定、获取路径时间较慢以及在避障过程中存在与障碍物距离较近的问题,本文采用角度距离度量的方式对多智能体进行编队,通过改变传统的由起始点到达终点避障过程所形成的路径规划方法,弱化... 针对多智能体系统编队在路径规划过程中队形不稳定、获取路径时间较慢以及在避障过程中存在与障碍物距离较近的问题,本文采用角度距离度量的方式对多智能体进行编队,通过改变传统的由起始点到达终点避障过程所形成的路径规划方法,弱化起始点和终点概念,添加路径中点的方式,使智能体同时从起点以及终点向中点移动,形成由起点指向中点、终点指向中点的2条路径。将奖励函数设计为同号智能体相碰为正向奖励,异号智能体相碰以及智能体(同号智能体和异号智能体)与障碍物之间相碰均为负向奖励。在搭建的静态和动态障碍物2种仿真环境下分别进行可变容量体验池深度确定性策略梯度算法(deep deterministic policy gradient-variable capacity experience pool,DDPG-vcep)验证,并对比不同训练次数下的奖赏值。仿真结果表明,改进后的DDPG编队算法较传统DDPG算法节约了路径获取时间,编队避障的效果更加明显。 展开更多
关键词 深度学习 强化学习 深度确定性策略梯度算法(DDPG算法) 多智能 编队控制 避障
在线阅读 下载PDF
考虑智能网联车辆影响的八车道高速公路施工区可变限速控制方法 被引量:1
9
作者 过秀成 肖哲 +2 位作者 张一鸣 张叶平 许鹏宇 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第2期353-359,共7页
为提升车联网环境下高速公路施工区交通运行效率及安全水平,提出了一种基于强化学习的可变限速控制方法.选取智能驾驶模型和真车试验模型,分别对传统人工车辆和智能网联车辆的跟驰行为进行建模,构建了以瓶颈下游路段交通流量为效率指标... 为提升车联网环境下高速公路施工区交通运行效率及安全水平,提出了一种基于强化学习的可变限速控制方法.选取智能驾驶模型和真车试验模型,分别对传统人工车辆和智能网联车辆的跟驰行为进行建模,构建了以瓶颈下游路段交通流量为效率指标、瓶颈路段速度标准差为安全指标的复合奖励值,利用深度确定性策略梯度算法,分车道动态求解最佳限速值.仿真结果表明,所提可变限速控制方法在不同智能网联车辆渗漏率条件下均能有效提升交通流运行效率和安全水平,且在智能网联车辆渗漏率较低时,提升效果更加显著.当智能网联车辆渗漏率为1.0时,瓶颈下游路段交通流量提升10.1%,瓶颈路段速度标准差均值下降68.9%;当智能网联车辆渗漏率为0时,瓶颈下游路段交通流量提升20.7%,瓶颈路段速度标准差均值下降78.1%.智能网联车辆的引入能够提升至多52.0%的瓶颈下游路段交通流量. 展开更多
关键词 可变限速控制 深度确定性策略梯度算法 八车道高速公路施工区 智能网联车辆 协同自适应巡航控制
在线阅读 下载PDF
基于DDPG算法的变体飞行器自主变形决策 被引量:11
10
作者 桑晨 郭杰 +2 位作者 唐胜景 王肖 王子瑶 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第5期910-919,共10页
针对变体飞行器的自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能二维变形决策方法。以可同时变展长及后掠角的飞行器为研究对象,利用DATCOM计算气动数据,并通过分析获得变形量与气动特性之间关系;基于给定的展长... 针对变体飞行器的自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能二维变形决策方法。以可同时变展长及后掠角的飞行器为研究对象,利用DATCOM计算气动数据,并通过分析获得变形量与气动特性之间关系;基于给定的展长和后掠角变形动力学方程,设计DDPG算法学习步骤;针对对称和不对称变形条件下的变形策略进行学习训练。仿真结果表明:所提算法可以快速收敛,变形误差保持在3%以内,训练好的神经网络提高了变体飞行器对不同飞行任务的适应性,可以在不同的飞行环境中获得最佳的飞行性能。 展开更多
关键词 飞行器 自主变形决策 深度强化学习 深度确定性策略梯度(DDPG)算法 动力学分析
在线阅读 下载PDF
基于多智能体强化学习的轨道追逃博弈方法 被引量:16
11
作者 许旭升 党朝辉 +2 位作者 宋斌 袁秋帆 肖余之 《上海航天(中英文)》 CSCD 2022年第2期24-31,共8页
针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法。首先通过对博弈场景进... 针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法。首先通过对博弈场景进行建模,在考虑最短时间、最优燃料以及碰撞规避的情形下进行奖励函数的塑造和改进,利用深度强化学习方法中的多智能体深度确定性策略梯度(MADDPG)算法进行集中训练,得到各个追捕卫星和逃逸卫星的最优追逃策略参数;然后分布式执行使得多个追捕卫星和逃逸卫星之间能够完成追逃博弈。仿真结果表明:该方法能够完成集群卫星对非合作目标的追逃博弈,且能够利用数量优势有效地弥补速度劣势,涌现出“围捕“”拦截“”合作“”潜伏”等一系列智能博弈行为,有效地实现了博弈目的。 展开更多
关键词 集群卫星 非合作目标 追逃博弈 奖励塑造 多智能深度确定性策略梯度算法 涌现 智能
在线阅读 下载PDF
LEO-RAN切片场景联合用户关联和动态资源分配算法 被引量:4
12
作者 陈赓 邢治薇 +1 位作者 沈斐 曾庆田 《通信学报》 EI CSCD 北大核心 2024年第2期173-187,共15页
为了解决6G天地一体化网络的资源高效利用问题,提出了一种面向高密度低地球轨道卫星-无线接入网(LEO-RAN)切片场景的联合用户关联和动态资源分配算法。考虑不同切片的最小速率、最大时延及资源比例等约束,以频谱效率(SE)和不同切片服务... 为了解决6G天地一体化网络的资源高效利用问题,提出了一种面向高密度低地球轨道卫星-无线接入网(LEO-RAN)切片场景的联合用户关联和动态资源分配算法。考虑不同切片的最小速率、最大时延及资源比例等约束,以频谱效率(SE)和不同切片服务水平协议(SLA)满意率(SSR)的加权和作为优化目标,建立用户关联和资源分配的联合优化问题。首先设计基于多智能体深度确定性策略梯度(MADDPG)的网络切片算法确定切片资源比例,然后采用基于拉格朗日对偶的用户关联算法确定最优的用户关联策略,最后通过轮询调度机制将资源分配给用户。仿真结果表明,所提算法在满足不同切片差异化SLA的同时能够有效提高SE。与基于MADDPG-RA、MATD3-LG、MATD3-RA、MASAC-LG和MASAC-RA算法相比,所提算法系统效用分别提升了2.0%、2.3%、5.7%、8.7%和9.4%。 展开更多
关键词 LEO卫星通信 网络切片 用户关联 多智能深度确定性策略梯度 系统效用
在线阅读 下载PDF
无人机集群不完全信息路径规划方法 被引量:1
13
作者 杜江涛 于家明 齐辉 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2024年第11期2210-2217,共8页
针对不完全信息下路径规划的环境复杂与动态目标等问题,本文研究了无人机集群的路径规划策略。不完全信息下的无人机集群执行任务时,由于各无人机存在目标、始发地、时间等因素的差异,会有碰撞、冲突等问题。通过分析无人机动态战场与... 针对不完全信息下路径规划的环境复杂与动态目标等问题,本文研究了无人机集群的路径规划策略。不完全信息下的无人机集群执行任务时,由于各无人机存在目标、始发地、时间等因素的差异,会有碰撞、冲突等问题。通过分析无人机动态战场与作战信息的不确定性,建立不完全信息的多无人机路径规划模型;基于多智能体深度确定性策略梯度算法设计无人机集群在探测时的全局奖励与部分局部奖励函数,使得训练后的无人机集群能够有效地在不完全信息的情景下,快速实现路径规划。仿真对比了无人机集群在不同参数、不同算法等条件下的学习效果,验证了改进多智能体深度确定性策略梯度算法在路径规划任务中的优越性。 展开更多
关键词 无人机集群 路径规划 不完全信息 动态目标 多智能深度确定性策略梯度算法 强化学习 避障 仿真
在线阅读 下载PDF
基于再生制动能高效利用的列车运行方案优化
14
作者 王若愚 周慧娟 +3 位作者 秦勇 孙璇 张尊栋 张蛰 《铁道运输与经济》 北大核心 2024年第12期76-87,共12页
随着城市轨道交通的快速发展,列车运行能耗问题已成为行业关注的焦点。传统的节能控制方法在大规模列车智能协同方面存在一定的局限性。为了优化总体能耗,尤其是有效利用再生制动能,研究提出了一种结合微观列车驾驶策略与宏观列车运行... 随着城市轨道交通的快速发展,列车运行能耗问题已成为行业关注的焦点。传统的节能控制方法在大规模列车智能协同方面存在一定的局限性。为了优化总体能耗,尤其是有效利用再生制动能,研究提出了一种结合微观列车驾驶策略与宏观列车运行方案的优化求解框架。通过考虑列车运行过程中发车、站间操纵及停站等关键因素,深入刻画列车在单向运行过程中的全链路控制环境,构建多列车协同工况优化模型。引入一种多列车牵引制动重叠时间框架,提出一种融合多头注意力机制的多智能体协同深度确定性策略梯度算法(Multi-headed Attention Mechanism&Multi-Agent Deep Deterministic Policy Gradient,Mam-MADDPG)求解框架,快速实现多列车运行能耗优化求解。使用北京地铁亦庄线数据进行仿真验证,结果表明,提出的Mam-MADDPG方法在再生制动能利用方面提升近20%的节能效率,且具备较强的稳定性。这一研究为城市轨道交通的节能减排提供了新思路。 展开更多
关键词 城市轨道交通 列车节能 再生制动能 多智能强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
深度强化学习下的管道气动软体机器人控制
15
作者 江雨霏 朱其新 《西安工程大学学报》 2025年第2期65-74,共10页
在复杂的管道环境中,与刚性机器人相比,软体机器人更适合执行操作任务。然而,由于具有无限自由度和非线性变形的特点,软体机器人的控制是一个较大的挑战。根据管道气动软体机器人变形方式进行动力学建模,提出一种结合预测奖励技术的深... 在复杂的管道环境中,与刚性机器人相比,软体机器人更适合执行操作任务。然而,由于具有无限自由度和非线性变形的特点,软体机器人的控制是一个较大的挑战。根据管道气动软体机器人变形方式进行动力学建模,提出一种结合预测奖励技术的深度确定性策略梯度(predictive reward-deep deterministic policy gradient,PR-DDPG)算法,将其应用于管道气动软体机器人的连续运动控制,为其动态的弯曲运动控制问题设计自主运动控制器。实验结果表明:PR-DDPG算法能够有效控制管道气动软体机器人在三维空间中进行自主连续运动,且可控制其前端到达目标点与目标方向。与深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法相比,PR-DDPG算法的收敛时间减少了约17%,奖励值提高了约20%,提高了管道气动软体机器人的连续运动控制性能。 展开更多
关键词 管道软机器人 运动控制 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
国产化环境下基于强化学习的地空协同作战仿真 被引量:3
16
作者 李理 李旭光 +2 位作者 郭凯杰 史超 陈昭文 《兵工学报》 EI CAS CSCD 北大核心 2022年第S01期74-81,共8页
以未来战场无人地空协同作战为需求牵引,面对军事领域实战场景匮乏、训练数据不足的实际问题,聚焦仿真环境下的深度强化学习方法,实现地空协同作战仿真中多智能体决策模型。在飞腾CPU和昆仑K200硬件平台与麒麟V10操作系统环境下搭建虚... 以未来战场无人地空协同作战为需求牵引,面对军事领域实战场景匮乏、训练数据不足的实际问题,聚焦仿真环境下的深度强化学习方法,实现地空协同作战仿真中多智能体决策模型。在飞腾CPU和昆仑K200硬件平台与麒麟V10操作系统环境下搭建虚拟仿真环境,设置仿真环境状态表征、各智能体动作空间及奖励机制,构建基于深度确定性策略梯度算法的多智能体模型(MADDPG),通过仿真实验验证采用MADDPG算法能够使奖励值在地空协同作战仿真场景中逐渐收敛,从而证明该模型应用于地空协同作战的决策有效性。 展开更多
关键词 地空协同作战 强化学习 深度确定性策略梯度算法 多智能模型 国产化环境
在线阅读 下载PDF
基于强化学习的带落角约束的制导律研究 被引量:1
17
作者 康冰冰 姜涛 +1 位作者 曹建 魏晓晴 《航空兵器》 CSCD 北大核心 2023年第6期44-49,共6页
针对以特定角度攻击面目标的制导律设计问题,采用深度确定性策略梯度算法构建强化学习制导律模型,设计了模型状态、奖励规则及制导环境。通过设定不同的初始条件和攻击角度,训练强化学习制导律模型,获得了稳定的制导律。强化学习制导律... 针对以特定角度攻击面目标的制导律设计问题,采用深度确定性策略梯度算法构建强化学习制导律模型,设计了模型状态、奖励规则及制导环境。通过设定不同的初始条件和攻击角度,训练强化学习制导律模型,获得了稳定的制导律。强化学习制导律能够使导弹以设定的落角命中固定目标,以较小的落角误差命中低速运动面目标。仿真结果表明,与带落角约束的最优制导律相比,带落角约束的强化学习制导律的约束角度收敛速度更快,加速度变化更加平滑,制导末时刻的加速度值更小,适应战场环境的能力更强。 展开更多
关键词 制导律 强化学习 深度确定性策略梯度 落角约束 马尔可夫 智能算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部