期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于深度强化学习的机械臂多模混合控制 被引量:1
1
作者 李家乐 张建锋 +2 位作者 李彬 刘天琅 陈检 《计算机工程与设计》 北大核心 2024年第9期2835-2843,共9页
针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别... 针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别进行训练;将经过初步训练的多个模式以距离阈值或奖励积累阈值进行切换控制,消除混合控制存在的冲突;结合机械臂单元运动学特点设计具有软体性质的多连杆机械臂平面仿真模型。实验验证所提方法能够有效提升机械臂动态避障能力,避免多任务间的冲突。 展开更多
关键词 深度强化学习 机械臂 双重演员正则化评论家算法(DARC) 奖励机制 动态避障 优先经验回放机制 连续动作控制
在线阅读 下载PDF
改进DDPG算法在外骨骼机械臂轨迹运动中的应用 被引量:11
2
作者 苏杰 刘光宇 +1 位作者 暨仲明 黄雨梦 《传感器与微系统》 CSCD 北大核心 2023年第2期149-152,160,共5页
针对现阶段外骨骼机器人轨迹运动时出现效果不佳的问题,提出了基于优先经验回放与分区奖励(PERDA)融合的深度确定性策略梯度(DDPG)强化学习算法,即PERDA-DDPG。该方法利用时间差分误差(TD-errors)的大小对经验排序,改变了原始采样的策... 针对现阶段外骨骼机器人轨迹运动时出现效果不佳的问题,提出了基于优先经验回放与分区奖励(PERDA)融合的深度确定性策略梯度(DDPG)强化学习算法,即PERDA-DDPG。该方法利用时间差分误差(TD-errors)的大小对经验排序,改变了原始采样的策略。此外,相较于以往二值奖励函数,本文根据物理模型提出针对化的分区奖励。在Open AI Gym平台上实现仿真环境,实验结果表明:改进的算法收敛速度提升了约9.2%,学习过程更加稳定。 展开更多
关键词 外骨骼机械臂 深度强化学习 优先经验回放与分区奖励 深度确定性策略梯度
在线阅读 下载PDF
强化学习驱动的海战场多智能体协同作战仿真算法 被引量:8
3
作者 石鼎 燕雪峰 +3 位作者 宫丽娜 张静宣 关东海 魏明强 《系统仿真学报》 CAS CSCD 北大核心 2023年第4期786-796,共11页
未来海战场形势瞬息万变,亟需依托人工智能技术实现对海战场环境的高质量作战仿真,以全面优化和提升我军战斗力,达成克敌制胜的目的。作战单元的协同合作是实现海战场作战仿真的关键环节,如何实现多智能体之间的均衡决策是作战仿真首要... 未来海战场形势瞬息万变,亟需依托人工智能技术实现对海战场环境的高质量作战仿真,以全面优化和提升我军战斗力,达成克敌制胜的目的。作战单元的协同合作是实现海战场作战仿真的关键环节,如何实现多智能体之间的均衡决策是作战仿真首要解决的问题。基于解耦的优先经验回放机制和注意力机制,提出强化学习驱动的多智能体协同作战仿真算法(multi-agent reinforcement learning-based cooperative combat simulation,MARL-CCSA)。在MARL-CCSA基础上,利用专家经验,设计一种多尺度奖励函数,并基于此函数构建一个海战场作战仿真环境,使MARL-CCSA在此环境中训练易于收敛。设计想定进行仿真实验,并与其他算法的效果进行对比,验证MARL-CCSA的可行性与实用性。 展开更多
关键词 作战仿真 协同工作 强化学习 优先经验回放 注意力机制 多尺度奖励函数
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部