期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法 被引量:8
1
作者 张严心 孔涵 +2 位作者 殷辰堃 王子豪 黄志清 《北京工业大学学报》 CAS CSCD 北大核心 2023年第4期459-466,共8页
针对实际多智能体系统对交互经验的庞大需求,在单智能体领域分布式架构的基础上,提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with probabilistic prioritized experience rep... 针对实际多智能体系统对交互经验的庞大需求,在单智能体领域分布式架构的基础上,提出概率经验优先回放机制与分布式架构并行的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with probabilistic prioritized experience replay based on a distributed paradigm, DPER-MASAC).该算法中的行动者以并行与环境交互的方式收集经验数据,为突破单纯最近经验在多智能体高吞吐量情况下被高概率抽取的局限性,提出更为普适的改进的基于优先级的概率方式对经验数据进行抽样利用的模式,并对智能体的网络参数进行更新.为验证算法的效率,设计了难度递增的2类合作和竞争关系共存的捕食者-猎物任务场景,将DPER-MASAC与多智能体软行动-评论者算法(multi-agent soft Actor-Critic, MASAC)和带有优先经验回放机制的多智能体软行动-评论者算法(multi-agent soft Actor-Critic with prioritized experience replay, PER-MASAC)2种基线算法进行对比实验.结果表明,采用DPER-MASAC训练的捕食者团队其决策水平在最终性能和任务成功率2个维度上均有明显提升. 展开更多
关键词 多智能体系统(MAS) 多智能体深度强化学习(DRL) 优先经验回放机制 分布式结构 抽样概率 软行动-评论者算法
在线阅读 下载PDF
基于改进优先经验回放的SAC算法路径规划 被引量:3
2
作者 崔立志 钟航 董文娟 《空间控制技术与应用》 CSCD 北大核心 2023年第5期55-64,共10页
为解决智能体在复杂环境下的路径规划问题,提出一种基于改进优先经验回放方法的在线异策略深度强化学习算法模型.该模型采用柔性动作评价算法,通过设计智能体的状态空间、动作空间及奖励函数等实现智能体无碰撞路径规划;利用样本状态优... 为解决智能体在复杂环境下的路径规划问题,提出一种基于改进优先经验回放方法的在线异策略深度强化学习算法模型.该模型采用柔性动作评价算法,通过设计智能体的状态空间、动作空间及奖励函数等实现智能体无碰撞路径规划;利用样本状态优先度与TD误差构建的样本混合优先度的离散度计算样本采样概率,进一步提出基于改进优先经验回放方法的柔性动作评价算法,提高模型学习效率.仿真实验结果验证了提出的改进柔性动作评价算法在各个参数配合下的有效性及改进优先经验回放方法在连续控制任务中模型学习效率的优越性. 展开更多
关键词 状态优先 TD误差 离散度 优先经验回放 学习效率
在线阅读 下载PDF
一种多重优先经验回放的麻将游戏数据利用方法 被引量:2
3
作者 李淑琴 李奕 《重庆理工大学学报(自然科学)》 CAS 北大核心 2022年第12期162-169,共8页
针对大众麻将AI训练时经验回放机制中样本均匀采样导致训练缓慢的问题,提出了一种多重优先经验回放算法,即从时序差分误差、局面复杂程度、动作即时奖励3个维度对经验样本进行优先级标记,每次采样时优先级高的样本高概率被抽取来更新神... 针对大众麻将AI训练时经验回放机制中样本均匀采样导致训练缓慢的问题,提出了一种多重优先经验回放算法,即从时序差分误差、局面复杂程度、动作即时奖励3个维度对经验样本进行优先级标记,每次采样时优先级高的样本高概率被抽取来更新神经网络。为了验证算法的有效性,构建了大众麻将自博弈平台进行相应的实验验证。实验结果表明:相比随机经验回放方法,新方法将麻将AI的训练速度提升了22.5%。 展开更多
关键词 大众麻将 多重优先经验回放 时序差分误差 自博弈
在线阅读 下载PDF
基于排序优先经验回放的竞争深度Q网络学习 被引量:10
4
作者 周瑶瑶 李烨 《计算机应用研究》 CSCD 北大核心 2020年第2期486-488,共3页
为减少深度Q网络(DQN)算法的训练时间,采用结合优先经验回放机制与竞争网络结构的DQN方法,针对Open AI Gym平台cart pole和mountain car两个经典控制问题进行研究,其中经验回放采用基于排序的机制,而竞争结构中采用深度神经网络。仿真... 为减少深度Q网络(DQN)算法的训练时间,采用结合优先经验回放机制与竞争网络结构的DQN方法,针对Open AI Gym平台cart pole和mountain car两个经典控制问题进行研究,其中经验回放采用基于排序的机制,而竞争结构中采用深度神经网络。仿真结果表明,相比于常规DQN算法、基于竞争网络结构的DQN方法和基于优先经验回放的DQN方法,该方法具有更好的学习性能,训练时间最少。同时,详细分析了算法参数对于学习性能的影响,为实际运用提供了有价值的参考。 展开更多
关键词 强化学习 深度Q网络 竞争网络 排序优先经验回放
在线阅读 下载PDF
MADDPG算法并行优先经验回放机制 被引量:9
5
作者 高昂 董志明 +2 位作者 李亮 宋敬华 段莉 《系统工程与电子技术》 EI CSCD 北大核心 2021年第2期420-433,共14页
多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法是深度强化学习方法在多智能体系统(multi-agent system,MAS)领域的重要运用,为提升算法性能,提出基于并行优先经验回放机制的MADDPG算法。分... 多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法是深度强化学习方法在多智能体系统(multi-agent system,MAS)领域的重要运用,为提升算法性能,提出基于并行优先经验回放机制的MADDPG算法。分析算法框架及训练方法,针对算法集中式训练、分布式执行的特点,采用并行方法完成经验回放池数据采样,并在采样过程中引入优先回放机制,实现经验数据并行流动、数据处理模型并行工作、经验数据优先回放。分别在OpenAI多智能体对抗、合作两类典型环境中,从训练轮数、训练时间两个维度对改进算法进行了对比验证,结果表明,并行优先经验回放机制的引入使得算法性能提升明显。 展开更多
关键词 多智能体系统 深度强化学习 并行方法 优先经验回放 深度确定性策略梯度
在线阅读 下载PDF
优先价值网络的多智能体协同强化学习算法
6
作者 苗国英 孙英博 王慧琴 《控制工程》 北大核心 2025年第4期691-698,共8页
为了提高多智能体系统的智能决策能力,针对多智能体强化学习的经验回放存在的弊端,以及智能体决策强调动作值而忽略状态值等问题,提出一种基于优先价值网络的多智能体强化学习算法。首先,该算法引入优先经验回放机制,根据重要性权重进... 为了提高多智能体系统的智能决策能力,针对多智能体强化学习的经验回放存在的弊端,以及智能体决策强调动作值而忽略状态值等问题,提出一种基于优先价值网络的多智能体强化学习算法。首先,该算法引入优先经验回放机制,根据重要性权重进行经验复用,解决通过随机采样进行经验复用存在的问题;其次,该算法在智能体的值网络中引入价值优势网络形式,对比状态值与动作优势的信息,使智能体更快地学习到优势动作。多个协同场景的实验结果表明,该算法能够提升多智能体系统的学习与合作质量,使智能体更快、更好地做出决策,完成给定任务。 展开更多
关键词 多智能体 强化学习 优先经验回放 价值优势网络 状态值
在线阅读 下载PDF
基于改进DQN算法的船舶全局路径规划研究
7
作者 关巍 曲胜 +1 位作者 张显库 胡彤博 《中国舰船研究》 北大核心 2025年第1期107-114,共8页
[目的]为提升实际海域环境下船舶航行路径的经济性与安全性,提出一种改进深度Q网络(DQN)算法的船舶全局路径规划方法。[方法]首先,引入优先经验回放机制赋予重要样本更高的权重,提升学习效率;然后,再通过决斗网络和噪声网络改进DQN的网... [目的]为提升实际海域环境下船舶航行路径的经济性与安全性,提出一种改进深度Q网络(DQN)算法的船舶全局路径规划方法。[方法]首先,引入优先经验回放机制赋予重要样本更高的权重,提升学习效率;然后,再通过决斗网络和噪声网络改进DQN的网络结构,使其对特定状态及其动作的价值评估更加准确,并同时具备一定的探索性和泛化性。[结果]实验结果表明,在马尼拉附近海域环境下,相比于A^(*)算法和DQN算法,改进算法在路径长度上分别缩短了1.9%和1.0%,拐点数量上分别减少了62.5%和25%。[结论]实验结果验证了改进DQN算法能够更经济、更合理地规划出有效路径。 展开更多
关键词 船舶 运动规划 DQN算法 优先经验回放(PER)
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
8
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于激光雷达的多目标路径规划算法
9
作者 韩慧妍 郑心怡 +2 位作者 况立群 杨晓文 韩燮 《激光与红外》 北大核心 2025年第7期1029-1037,共9页
随着人工智能技术的发展和机器人技术的进步,路径规划问题受到越来越多的关注。强化学习由于无需训练数据、泛化能力强,被广泛应用于移动机器人目标路径规划,虽然取得了一些成果,仍存在一系列挑战,包括多目标路径规划算法较少、有效经... 随着人工智能技术的发展和机器人技术的进步,路径规划问题受到越来越多的关注。强化学习由于无需训练数据、泛化能力强,被广泛应用于移动机器人目标路径规划,虽然取得了一些成果,仍存在一系列挑战,包括多目标路径规划算法较少、有效经验利用率低、环境奖励稀疏和模型收敛困难,为了解决这些问题,本文首次将柔性动作-评价算法(Soft Actor-Critic,SAC)应用于多目标路径规划,并提出了一种基于优先经验回放和专家经验柔性动作评价的多目标路径规划方法。基于优先经验回放的策略提高了有效数据的采样效率。通过优化奖励函数使机器人在执行每个动作后都能从环境中得到及时合理的反馈,解决SAC算法易陷入局部最优的问题。基于专家经验进行模仿学习,提高强化学习的训练效率,提升模型收敛速度。最后,在ROS平台上进行多目标路径规划仿真,结果表明,相较于多目标SAC算法,本文提出的算法在包含障碍物的简单和复杂环境中都可以加速收敛,且能够生成更短、更平滑、无碰撞的路径。 展开更多
关键词 路径规划 多目标 优先经验回放 专家经验
在线阅读 下载PDF
面向空间自主装配验证评估的机械臂避障运动规划
10
作者 谢芳霖 汪凌昕 +2 位作者 张亚航 王耀兵 王捷 《航天器工程》 北大核心 2025年第2期82-89,共8页
面向空间机械臂自主装配的验证评估问题,针对人机、多机协同作业过程中彼此进入对方作业区域后可能出现的高风险碰撞工况,将机械臂避障抓取的运动规划定义为强化学习问题,并提出一种改进的双经验池组合采样经验回放方法。仿真结果表明:... 面向空间机械臂自主装配的验证评估问题,针对人机、多机协同作业过程中彼此进入对方作业区域后可能出现的高风险碰撞工况,将机械臂避障抓取的运动规划定义为强化学习问题,并提出一种改进的双经验池组合采样经验回放方法。仿真结果表明:采用该方法进行训练后,机械臂可有效避开动态障碍物,且末端到位精度从0.2717 m提高至0.0413 m。基于物理样机开展了试验验证,进一步证明了避障抓取策略能使机械臂自主避开任意障碍物并准确抓取目标,不需要对障碍物的运动状态进行预测。文章提出的避障运动规划,可用于各类固定基座空间机械臂的地面验证评估。 展开更多
关键词 空间机械臂 避障运动规划 深度强化学习 优先经验回放 迁移学习
在线阅读 下载PDF
基于混合深度强化学习的ICV任务卸载与资源分配
11
作者 刘佳慧 邹渊 +3 位作者 孙巍 孟逸豪 路潇然 李圆圆 《汽车工程》 北大核心 2025年第1期35-43,共9页
随着智能网联车辆(ICV)技术的发展,计算资源有限的ICV面临计算需求大幅增加的问题。ICV可以通过路侧单元(RSU)将任务卸载到移动边缘计算(MEC)服务器上。然而,车联网环境的动态性和复杂性使任务卸载和资源分配变得极具挑战。本文提出在... 随着智能网联车辆(ICV)技术的发展,计算资源有限的ICV面临计算需求大幅增加的问题。ICV可以通过路侧单元(RSU)将任务卸载到移动边缘计算(MEC)服务器上。然而,车联网环境的动态性和复杂性使任务卸载和资源分配变得极具挑战。本文提出在环境和资源的约束下,通过控制任务卸载决策、通信功率和计算资源分配,最小化任务计算能耗。针对这一问题离散和连续控制变量共存的特性,设计了混合深度强化学习(HDRL)算法:利用双深度Q网络(DDQN)生成任务卸载决策,利用深度确定性策略梯度(DDPG)生成通信功率和MEC资源分配决策,并结合改进的优先级经验回放(IPER)机制来评估和选择动作,输出最优策略。仿真实验结果表明,该方法比对比算法具有更快更稳定的决策收敛性,实现了任务计算卸载的最小能耗,并能有效适应ICV数量和任务大小的变化,具有高实时性和良好环境适应性。 展开更多
关键词 移动边缘计算 深度强化学习 任务卸载 资源分配 优先经验回放
在线阅读 下载PDF
基于深度强化学习的中央空调冷水机组无模型控制
12
作者 王萌 傅启明 +3 位作者 何坤 陈建平 陆悠 王蕴哲 《计算机工程与设计》 北大核心 2025年第5期1526-1534,共9页
针对当前中央空调冷水机组优化问题中基于模型控制对模型精确度依赖高和模型维护困难等问题,提出一种基于优先经验回放的深度强化学习无模型控制方法。将优化控制建模为马尔可夫决策过程,利用时间差分误差和总和树改进经验回放机制,提... 针对当前中央空调冷水机组优化问题中基于模型控制对模型精确度依赖高和模型维护困难等问题,提出一种基于优先经验回放的深度强化学习无模型控制方法。将优化控制建模为马尔可夫决策过程,利用时间差分误差和总和树改进经验回放机制,提高样本利用效率,设计兼顾室内舒适性和节能需求的奖励函数。基于实测历史数据构建仿真平台,用于方法验证。实验结果表明,在保证舒适度的前提下,该方法节能性优于规则控制,接近于模型控制并具有更快的收敛性。 展开更多
关键词 深度强化学习 优先经验回放 无模型控制 马尔可夫决策过程 冷水机组优化 舒适性保持 节能优化
在线阅读 下载PDF
边端协同场景下的深度强化学习任务卸载方法
13
作者 李英豪 刘盼盼 +3 位作者 王文猛 刘晓亮 韩志勇 刘成明 《小型微型计算机系统》 北大核心 2025年第2期280-288,共9页
针对现有部分任务卸载方法未考虑排队时延及训练过程采样效率低等问题,提出了一种基于多智能体深度强化学习的任务卸载方法.首先,综合考虑任务量、服务资源、队列的负载情况等因素建立面向时延和能耗联合优化的边端协同卸载模型,其次,... 针对现有部分任务卸载方法未考虑排队时延及训练过程采样效率低等问题,提出了一种基于多智能体深度强化学习的任务卸载方法.首先,综合考虑任务量、服务资源、队列的负载情况等因素建立面向时延和能耗联合优化的边端协同卸载模型,其次,将该模型表述为马尔可夫决策过程,目标为最小化系统的总成本.然后引入优先经验回放机制和重要性采样对多智能体深度确定性策略梯度算法进行改进,利用长期环境信息高效探索任务卸载的最优解决方案.最后,将本文算法与基于MADDPG、D3QN、DQN和随机卸载算法的性能进行了比较,仿真结果表明,所提出的算法在各项指标上表现更优. 展开更多
关键词 移动边缘计算 任务卸载 多智能体 优先经验回放
在线阅读 下载PDF
基于深度强化学习CLPER-DDPG的车辆纵向速度规划 被引量:1
14
作者 柳鹏 赵克刚 +1 位作者 梁志豪 叶杰 《汽车安全与节能学报》 CAS CSCD 北大核心 2024年第5期702-710,共9页
为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训... 为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训练和测试,并对深度确定性策略梯度(DDPG)、结合优先经验回放机制的深度确定性策略梯度(PER-DDPG)、结合优先经验回放机制和课程学习机制的深度确定性策略梯度(CLPER-DDPG)3种算法进行对比实验,并在园区内的真实道路上进行实车实验。结果表明:相比于DDPG算法,CLPER-DDPG算法使规划器的收敛速度提高了56.45%,距离差均值降低了16.61%,速度差均值降低了15.25%,冲击度均值降低了18.96%。此外,当实验场景的环境气候和传感器硬件等参数发生改变时,模型能保证在安全的情况下完成纵向速度规划任务。 展开更多
关键词 自动驾驶 纵向速度规划 深度确定性策略梯度(DDPG)算法 课程学习机制 优先经验回放机制
在线阅读 下载PDF
基于DRL的无人机辅助MEC任务卸载算法 被引量:1
15
作者 吴文娇 郭荣佐 樊相奎 《计算机工程与设计》 北大核心 2024年第9期2697-2703,共7页
针对无人机辅助移动边缘计算系统中任务卸载问题,结合深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)、改进优先经验回放机制、退火思想,提出一种深度强化学习卸载算法PPS-DDPG。采用部分卸载策略,在时延约束下,联... 针对无人机辅助移动边缘计算系统中任务卸载问题,结合深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)、改进优先经验回放机制、退火思想,提出一种深度强化学习卸载算法PPS-DDPG。采用部分卸载策略,在时延约束下,联合优化用户调度、资源分配以及无人机飞行轨迹,以最小化终端用户总能耗为目标建立数学模型,运用深度强化学习算法寻找最优卸载决策。通过大量仿真实验,验证了该算法能够有效降低终端能耗,在性能和收敛程度上优于基准方案。 展开更多
关键词 移动边缘计算 无人机 计算卸载 深度强化学习 轨迹 资源分配 优先经验回放
在线阅读 下载PDF
基于改进深度确定性策略梯度算法的电压无功优化策略 被引量:6
16
作者 李付强 张文朝 +4 位作者 潘艳 张野 赵伟 李杏 周永东 《智慧电力》 北大核心 2024年第5期1-7,30,共8页
电压无功优化是用来调节电压,保证电力系统安全、稳定、优质运行的必要手段。针对当前电力系统电压控制矛盾突出、无功优化难度大的问题,提出了1种基于改进深度确定性策略梯度(I-DDPG)算法的电压控制策略。首先,建立电力系统最小网损化... 电压无功优化是用来调节电压,保证电力系统安全、稳定、优质运行的必要手段。针对当前电力系统电压控制矛盾突出、无功优化难度大的问题,提出了1种基于改进深度确定性策略梯度(I-DDPG)算法的电压控制策略。首先,建立电力系统最小网损化的目标函数,采用马尔可夫决策过程(MDP)对电力系统无功优化问题进行建模,引入了Ornstein-Uhlenbeck(OU)过程生成自相关噪声,使智能体可以确保首先在1个方向上探索,提高学习效率;其次,采用Sumtree结构的优先经验回放池,提高训练样本利用率,并采用重要性采样(IS)来优化收敛结果。最后,通过IEEE30节点标准系统算例,验证了本文所提出的方法在运行过程中使得平均网损相比于之前的系统降低19.64%,有效降低了电网有功损耗,符合电力系统发展的需要。 展开更多
关键词 强化学习 马尔可夫决策过程 OU噪声 优先经验回放
在线阅读 下载PDF
基于内在好奇心与自模仿学习的探索算法
17
作者 吕相霖 臧兆祥 +1 位作者 李思博 邹耀斌 《现代电子技术》 北大核心 2024年第16期137-144,共8页
针对深度强化学习算法在部分可观测环境中面临的稀疏奖励、信息缺失等问题,提出一种结合好奇心模块与自模仿学习的近端策略优化算法。该算法利用随机网络来生成探索过程中的经验样本数据,然后利用优先经验回放技术选取高质量样本,通过... 针对深度强化学习算法在部分可观测环境中面临的稀疏奖励、信息缺失等问题,提出一种结合好奇心模块与自模仿学习的近端策略优化算法。该算法利用随机网络来生成探索过程中的经验样本数据,然后利用优先经验回放技术选取高质量样本,通过自模仿学习对优秀的序列轨迹进行模仿,并更新一个新的策略网络用于指导探索行为。在Minigrid环境中设置了消融与对比实验,实验结果表明,所提算法在收敛速度上具有明显优势,并且能够完成更为复杂的部分可观测环境探索任务。 展开更多
关键词 好奇心模块 自模仿学习 深度强化学习 近端策略优化 随机网络 优先经验回放
在线阅读 下载PDF
基于改进TD3的欠驱动无人水面艇路径跟踪控制 被引量:1
18
作者 曲星儒 江雨泽 +2 位作者 李初 龙飞飞 张汝波 《上海海事大学学报》 北大核心 2024年第3期1-9,共9页
针对模型参数未知和海洋环境干扰下的欠驱动无人水面艇(unmanned surface vehicles,USV)路径跟踪问题,提出一种基于改进双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的控制方法。在运动学层次上,设... 针对模型参数未知和海洋环境干扰下的欠驱动无人水面艇(unmanned surface vehicles,USV)路径跟踪问题,提出一种基于改进双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的控制方法。在运动学层次上,设计基于视线制导的航速航向联合制导律,引导USV准确跟踪期望路径。在动力学层次上,设计基于改进TD3的强化学习动力学控制器;采用基于时间差分误差的优先经验回放技术,建立包含路径跟踪成功和失败采样信息的双经验池,通过自适应比例系数调整每批次回放数据的组成结构;搭建包含长短期记忆网络的评价网络和策略网络,利用历史状态序列信息提高路径跟踪控制器的训练效率。仿真结果表明,基于改进TD3的控制方法可有效提高欠驱动USV的跟踪精度。该方法不依赖USV模型,可为USV路径跟踪控制提供参考。 展开更多
关键词 无人水面艇 路径跟踪控制 双延迟深度确定性策略梯度 优先经验回放 长短期记忆网络
在线阅读 下载PDF
基于深度强化学习的机械臂多模混合控制
19
作者 李家乐 张建锋 +2 位作者 李彬 刘天琅 陈检 《计算机工程与设计》 北大核心 2024年第9期2835-2843,共9页
针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别... 针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别进行训练;将经过初步训练的多个模式以距离阈值或奖励积累阈值进行切换控制,消除混合控制存在的冲突;结合机械臂单元运动学特点设计具有软体性质的多连杆机械臂平面仿真模型。实验验证所提方法能够有效提升机械臂动态避障能力,避免多任务间的冲突。 展开更多
关键词 深度强化学习 机械臂 双重演员正则化评论家算法(DARC) 奖励机制 动态避障 优先经验回放机制 连续动作控制
在线阅读 下载PDF
基于多智能体深度强化学习的多船协同避碰策略
20
作者 黄仁贤 罗亮 《计算机集成制造系统》 EI CSCD 北大核心 2024年第6期1972-1988,共17页
为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延... 为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延迟确定策略梯度(TD3)算法存在的值估计偏差问题,还在模型训练过程中引入熵正则项,以促进探索和控制随机控制策略,采用自适应噪声对不同阶段的任务进行有效探索,进一步提升了算法的学习效果和稳定性。通过实验验证,所提算法在解决多船协同避碰问题上具有较好的决策效果、更快的收敛速度和更稳定的性能。 展开更多
关键词 多智能体深度强化学习 协同避碰 中心化训练去中心化执行 优先经验回放 多智能体Softmax深层双确定性策略梯度
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部