期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于融合课程思想MADDPG的无人机编队控制
1
作者 吴凯峰 刘磊 +1 位作者 刘晨 梁成庆 《计算机工程》 北大核心 2025年第5期73-82,共10页
多智能体深度确定性梯度(MADDPG)算法由深度确定性策略梯度(DDPG)算法扩展而来,专门针对多智能体环境设计,算法中每个智能体不仅考虑自身的观察和行动,还考虑其他智能体的策略,以更好地进行集体决策,这种设计显著提升了其在复杂、多变... 多智能体深度确定性梯度(MADDPG)算法由深度确定性策略梯度(DDPG)算法扩展而来,专门针对多智能体环境设计,算法中每个智能体不仅考虑自身的观察和行动,还考虑其他智能体的策略,以更好地进行集体决策,这种设计显著提升了其在复杂、多变的环境中的性能和稳定性。基于MADDPG算法框架,设计算法的网络结构、状态空间、动作空间和奖励函数,实现无人机编队控制。为解决多智能体算法收敛困难的问题,训练过程中使用课程强化学习将任务进行阶段分解,针对每次任务不同,设计层次递进的奖励函数,并使用人工势场思想设计稠密奖励,使得训练难度大大降低。在自主搭建的软件在环(SITL)仿真环境中,通过消融、对照实验,验证了MADDPG算法在多智能体环境中的有效性和稳定性。最后进行实机实验,在现实环境中进一步验证了所设计算法的实用性。 展开更多
关键词 无人机编队 深度强化学习 多智能体深度确定性策略梯度 课程学习 神经网络
在线阅读 下载PDF
基于MADDPG的多无人机协同攻击方法
2
作者 张波 刘满国 刘梦焱 《弹箭与制导学报》 北大核心 2025年第3期344-350,共7页
多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定... 多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定性策略梯度(MADDPG)算法训练攻击策略。使用蒙特卡洛法分析仿真实验,结果表明在该多智能体强化学习算法训练之后,特定对抗场景下多无人机协同攻击任务完成率达到82.9%。 展开更多
关键词 多智能体 深度强化学习 分布式部分可观测马尔可夫决策过程(Dec-POMDP) 多智能体深度确定性策略梯度算法(maddpg) 无人机集群
在线阅读 下载PDF
基于MADDPG算法的匝道合流区多车协同控制
3
作者 蔡田茂 孔伟伟 +3 位作者 罗禹贡 石佳 姬鹏霄 李聪民 《汽车安全与节能学报》 CSCD 北大核心 2024年第6期923-933,共11页
为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通... 为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通过构建相对静止环境,改进策略更新梯度,保障智能体面向连续车流环境的平稳性;拆分匝道合流区场景为准备区和汇入区,分别依据两区域控制目标设计了状态、动作空间及奖励函数。结果表明:在不同交通流量下,与基于规则的方法相比,该方法通行合流区的总延误时间平均缩短25.46%;与全局优化方法相比,延误时间相差8.47%,但控制时长上不会随车辆数量增加而增长。该文所提出匝道合流区多车协同控制方法能够更好地兼顾通行效率提升与系统实时性。 展开更多
关键词 多智能体确定性策略梯度算法(maddpg) 多智能体强化学习 多车协同控制 匝道合流
在线阅读 下载PDF
基于融合专家知识DDPG的孤岛微电网频率调节策略 被引量:6
4
作者 黄堃 付明 梁加本 《中国电力》 CSCD 北大核心 2024年第2期194-201,共8页
随着风、光等间歇性新能源接入到孤岛微电网,传统控制方法在进行频率调节时难以有效协同源-荷-储等多种资源以应对源-荷的随机性波动所导致的频率偏差问题。为此,提出了一种融合专家知识与深度确定性策略梯度(DDPG)的孤岛微电网频率调... 随着风、光等间歇性新能源接入到孤岛微电网,传统控制方法在进行频率调节时难以有效协同源-荷-储等多种资源以应对源-荷的随机性波动所导致的频率偏差问题。为此,提出了一种融合专家知识与深度确定性策略梯度(DDPG)的孤岛微电网频率调节算法,通过专家知识的经验规则引导各调控设备与环境高效交互,提升多资源协同频率调节的性能。仿真结果表明所提调频策略能够充分挖掘微网内多种资源的调频潜力,并有效提升调频性能。 展开更多
关键词 孤岛微电网 频率调节 专家知识 深度确定性策略梯度
在线阅读 下载PDF
基于多智能体深度强化学习的多无人机辅助移动边缘计算轨迹设计 被引量:1
5
作者 徐少毅 杨磊 《北京交通大学学报》 CSCD 北大核心 2024年第5期1-9,共9页
无人机(Unmanned Aerial Vehicle,UAV)辅助的移动边缘计算(Mobile Edge Computing,MEC)网络能够为地面用户设备(User Equipment,UE)提供优质的计算服务,但是为多无人机进行实时的轨迹设计仍是一个挑战.针对该问题,提出基于多智能体深度... 无人机(Unmanned Aerial Vehicle,UAV)辅助的移动边缘计算(Mobile Edge Computing,MEC)网络能够为地面用户设备(User Equipment,UE)提供优质的计算服务,但是为多无人机进行实时的轨迹设计仍是一个挑战.针对该问题,提出基于多智能体深度强化学习的轨迹设计算法,利用多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)框架对无人机的轨迹进行协作设计.考虑到无人机有限的电池容量是限制无人机网络性能的重要因素,因此以无人机的能量效率之和为优化目标构建优化问题,联合优化无人机集群的轨迹和用户设备的卸载决策.每个智能体与边缘计算网络环境进行交互并观测自己的局部状态,通过Actor网络得到轨迹坐标,联合其他智能体的动作和观测训练Critic网络,从而改善Actor网络输出的轨迹策略.仿真结果表明:基于MADDPG的无人机轨迹设计算法具有良好的收敛性和鲁棒性,能够高效地提升无人机的能量效率;所提算法性能较随机飞行算法最高可提升120%,较圆周飞行算法最高可提升20%,较深度确定性策略梯度算法可提升5%~10%. 展开更多
关键词 无人机轨迹设计 移动边缘计算 强化学习 多智能体深度确定性策略梯度
在线阅读 下载PDF
无人机集群不完全信息路径规划方法 被引量:1
6
作者 杜江涛 于家明 齐辉 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2024年第11期2210-2217,共8页
针对不完全信息下路径规划的环境复杂与动态目标等问题,本文研究了无人机集群的路径规划策略。不完全信息下的无人机集群执行任务时,由于各无人机存在目标、始发地、时间等因素的差异,会有碰撞、冲突等问题。通过分析无人机动态战场与... 针对不完全信息下路径规划的环境复杂与动态目标等问题,本文研究了无人机集群的路径规划策略。不完全信息下的无人机集群执行任务时,由于各无人机存在目标、始发地、时间等因素的差异,会有碰撞、冲突等问题。通过分析无人机动态战场与作战信息的不确定性,建立不完全信息的多无人机路径规划模型;基于多智能体深度确定性策略梯度算法设计无人机集群在探测时的全局奖励与部分局部奖励函数,使得训练后的无人机集群能够有效地在不完全信息的情景下,快速实现路径规划。仿真对比了无人机集群在不同参数、不同算法等条件下的学习效果,验证了改进多智能体深度确定性策略梯度算法在路径规划任务中的优越性。 展开更多
关键词 无人机集群 路径规划 不完全信息 动态目标 多智能体深度确定性策略梯度算法 强化学习 避障 仿真
在线阅读 下载PDF
混合动作空间下的多设备边缘计算卸载方法
7
作者 张冀 齐国梁 +1 位作者 朵春红 龚雯雯 《计算机工程与应用》 CSCD 北大核心 2024年第10期301-310,共10页
为降低多设备多边缘服务器场景中设备层级的总成本,并解决现有深度强化学习(deep reinforcement learning,DRL)只支持单一动作空间的算法局限性,提出基于混合决策的多智能体深度确定性策略梯度方法(hybrid-based multi-agent deep deter... 为降低多设备多边缘服务器场景中设备层级的总成本,并解决现有深度强化学习(deep reinforcement learning,DRL)只支持单一动作空间的算法局限性,提出基于混合决策的多智能体深度确定性策略梯度方法(hybrid-based multi-agent deep determination policy gradient,H-MADDPG)。首先考虑物联网设备/服务器计算能力随负载的动态变化、时变的无线传输信道增益、能量收集的未知性、任务量不确定性多种复杂的环境条件,建立MEC系统模型;其次以一段连续时隙内综合时延、能耗的总成本最小作为优化目标建立问题模型;最后将问题以马尔科夫决策过程(Markov decision procession,MDP)的形式交付给H-MADDPG,在价值网络的辅助下训练并行的两个策略网络,为设备输出离散的服务器选择及连续的任务卸载率。实验结果表明,H-MADDPG方法具有良好的收敛性和稳定性,从计算任务是否密集、延迟是否敏感等不同角度进行观察,H-MADDPG系统整体回报优于Local、OffLoad和DDPG,在计算密集型的任务需求下也能保持更大的系统吞吐量。 展开更多
关键词 物联网(IoT) 边缘计算卸载 多智能体深度确定性策略梯度(maddpg) 混合动作空间
在线阅读 下载PDF
基于强化学习的非正交多址接入和移动边缘计算联合系统信息年龄更新 被引量:5
8
作者 李保罡 石泰 +3 位作者 陈静 李诗璐 王宇 张天魁 《电子与信息学报》 EI CSCD 北大核心 2022年第12期4238-4245,共8页
物联网发展对信息时效性的需求越来越高,信息新鲜度变得至关重要。为了维持信息新鲜度,在非正交多址接入(NOMA)和移动边缘计算(MEC)的联合系统中,对多设备单边缘计算服务器的传输场景进行了研究。在该场景中,如何分配卸载任务量和卸载... 物联网发展对信息时效性的需求越来越高,信息新鲜度变得至关重要。为了维持信息新鲜度,在非正交多址接入(NOMA)和移动边缘计算(MEC)的联合系统中,对多设备单边缘计算服务器的传输场景进行了研究。在该场景中,如何分配卸载任务量和卸载功率以最小化平均更新代价是一个具有挑战性的问题。该文考虑到现实中的信道状态变化情况,基于多代理深度确定性策略梯度(MADDPG)算法,考虑信息新鲜度影响,建立了最小化平均更新代价的优化问题,提出一种寻找最优的卸载因子和卸载功率决策。仿真结果表明,采用部分卸载的方式可以有效地降低平均更新代价,利用MADDPG算法可以进一步优化卸载功率,经比较,MADDPG算法在降低平均更新代价方面优于其他方案,并且适当地减少设备数量在降低平均更新代价方面效果更好。 展开更多
关键词 非正交多址接入 移动边缘计算 信息年龄 多代理深度确定性策略梯度
在线阅读 下载PDF
基于多智能体深度确定策略梯度算法的有功-无功协调调度模型 被引量:25
9
作者 赵冬梅 陶然 +2 位作者 马泰屹 夏轩 王浩翔 《电工技术学报》 EI CSCD 北大核心 2021年第9期1914-1925,共12页
实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用多智能体技术,智能组织多种有功调控资源和无功调控资源,建立电网有功-无功协调调度模型;为解... 实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用多智能体技术,智能组织多种有功调控资源和无功调控资源,建立电网有功-无功协调调度模型;为解决电力系统环境在多智能体探索过程中出现的不稳定问题,采用多智能体深度确定策略梯度算法,设计适用于有功-无功协调调度模型的电力系统多智能体环境,构造智能体状态、动作和奖励函数。通过算例仿真和对比分析,验证所提模型及算法的有效性。 展开更多
关键词 多智能体 多智能体深度确定策略梯度算法 策略迭代 灵活调控资源 有功-无功协调
在线阅读 下载PDF
深度强化学习驱动的双馈抽蓄抽水工况下调频控制 被引量:3
10
作者 劳文洁 史林军 +2 位作者 李杨 吴峰 林克曼 《电力系统及其自动化学报》 CSCD 北大核心 2023年第12期59-70,共12页
为改善新型电力系统的频率特性,利用抽水工况下双馈抽水蓄能机组功率可调的特点,提出基于多智能体深度确定性策略梯度算法的系统频率控制方法。首先,基于抽水工况下双馈抽水蓄能的频率控制策略,构建多能互补系统的频率控制模型;其次,以... 为改善新型电力系统的频率特性,利用抽水工况下双馈抽水蓄能机组功率可调的特点,提出基于多智能体深度确定性策略梯度算法的系统频率控制方法。首先,基于抽水工况下双馈抽水蓄能的频率控制策略,构建多能互补系统的频率控制模型;其次,以提高各区域控制性能标准指标为目标,利用改进的多智能体深度确定性策略梯度算法优化各机组的自动发电控制指令。算例分析表明,抽水工况下双馈抽水蓄能参与调频可显著改善系统的频率特性,且所提频率控制方法的鲁棒性和可靠性优于传统控制。 展开更多
关键词 调频 双馈抽水蓄能机组 多智能体深度确定性策略梯度算法 多能互补系统 控制性能标准
在线阅读 下载PDF
无人集群系统行为决策学习奖励机制
11
作者 张婷婷 蓝羽石 宋爱国 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第12期2442-2451,共10页
未来作战的发展方向是由多智能体系统构成的无人集群系统通过智能体之间自主协同来完成作战任务。由于每个智能体自主采取行为和改变状态,增加了智能群体行为策略训练的不稳定性。通过先验约束条件和智能体间的同构特性增强奖励信号的... 未来作战的发展方向是由多智能体系统构成的无人集群系统通过智能体之间自主协同来完成作战任务。由于每个智能体自主采取行为和改变状态,增加了智能群体行为策略训练的不稳定性。通过先验约束条件和智能体间的同构特性增强奖励信号的实时性,提高训练效率和学习的稳定性。采用动作空间边界碰撞惩罚、智能体间时空距离约束满足程度奖励;通过智能体在群体中的关系特性,增加智能体之间经验共享,进一步优化学习效率。在实验中,将先验增强的奖励机制和经验共享应用到多智能体深度确定性策略梯度(MADDPG)算法中验证其有效性。结果表明,学习收敛性和稳定性有大幅提高,从而提升了无人集群系统行为学习效率。 展开更多
关键词 无人集群系统 maddpg算法 对抗任务 行为决策 奖励机制
在线阅读 下载PDF
基于深度强化学习的无人机集群协同作战决策方法 被引量:5
12
作者 赵琳 吕科 +4 位作者 郭靖 宏晨 向贤财 薛健 王泳 《计算机应用》 CSCD 北大核心 2023年第11期3641-3646,共6页
在无人机(UAV)集群攻击地面目标时,UAV集群将分为两个编队:主攻目标的打击型UAV集群和牵制敌方的辅助型UAV集群。当辅助型UAV集群选择激进进攻或保存实力这两种动作策略时,任务场景类似于公共物品博弈,此时合作者的收益小于背叛者。基于... 在无人机(UAV)集群攻击地面目标时,UAV集群将分为两个编队:主攻目标的打击型UAV集群和牵制敌方的辅助型UAV集群。当辅助型UAV集群选择激进进攻或保存实力这两种动作策略时,任务场景类似于公共物品博弈,此时合作者的收益小于背叛者。基于此,提出一种基于深度强化学习的UAV集群协同作战决策方法。首先,通过建立基于公共物品博弈的UAV集群作战模型,模拟智能化UAV集群在合作中个体与集体间的利益冲突问题;其次,利用多智能体深度确定性策略梯度(MADDPG)算法求解辅助UAV集群最合理的作战决策,从而以最小的损耗代价实现集群胜利。在不同数量UAV情况下进行训练并展开实验,实验结果表明,与IDQN(Independent Deep QNetwork)和ID3QN(Imitative Dueling Double Deep Q-Network)这两种算法的训练效果相比,所提算法的收敛性最好,且在4架辅助型UAV情况下胜率可达100%,在其他UAV数情况下也明显优于对比算法。 展开更多
关键词 无人机 多集群 公共物品博弈 多智能体深度确定性策略梯度 协同作战决策方法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部