期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
一种面向博弈场景的PPO-Dueling DQN策略优化方法
1
作者 刘鹏程 汪永伟 +2 位作者 余欣鋆 刘小虎 胡浩 《小型微型计算机系统》 北大核心 2025年第11期2594-2599,共6页
传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩... 传统的深度Q学习训练算法改进通常侧重于奖励函数的优化,相对缺少策略的自优化和收敛梯度的动态调整.本文针对该问题,在Dueling-DQN算法的基础上提出了一种混合算法PPO-Dueling DQN,该算法一方面能够使用策略梯度下降和自适应KL散度惩罚机制,实现目标函数损失和值函数损失的同步更新,进而优化模型的损失函数和策略选择,另一方面能更加实时地提取博弈过程中的状态价值和动作优势,从而避免依靠单一指标进行策略更新和效能评估.通过对比实验,验证了面向网络博弈模型的PPO-Dueling DQN算法在学习能力、收敛速度和自适应效能等指标上的优化效果,并进行了关于折扣因子的参数分析以更好地评估模型效能,实验结果证明本文提出的算法相对于基准模型具有一定的性能优势. 展开更多
关键词 强化学习 深度Q网络 ppo算法 网络攻防博弈 效能评估
在线阅读 下载PDF
基于PPO算法的CIES低碳优化调度方法 被引量:2
2
作者 陈凡 吴凌霄 +2 位作者 王曼 吕干云 张小莲 《电力工程技术》 北大核心 2024年第6期88-99,共12页
阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优... 阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。 展开更多
关键词 园区综合能源系统(CIES) 优化调度 近端策略优化(ppo)算法 阶梯式碳交易机制 惩罚系数 碳排放
在线阅读 下载PDF
基于PPO的自适应PID控制算法研究 被引量:6
3
作者 周志勇 莫非 +2 位作者 赵凯 郝云波 钱宇峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第6期1425-1432,共8页
采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多... 采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多智能体思想,根据PID三个参数对控制系统的不同影响及六轴机械臂的特性,将三个参数分别作为不同的智能个体进行训练,实现多智能体自适应调整参数的新型多智能体自适应PID算法。仿真结果表明:该算法的训练收敛性优于MA-DDPG与MA-SAC算法,与传统PID算法的控制效果相比,在遇到扰动及振荡的情况下,能够更有效地抑制振荡,并具有更低的超调量和调整时间,控制过程更为平缓,有效提高了机械臂的控制精度,证明了该算法的鲁棒性及有效性。 展开更多
关键词 强化学习 近端优化算法 自适应PID整定 机械臂 多智能体
在线阅读 下载PDF
基于一种改进PPO算法的无人机空战自主机动决策方法研究 被引量:1
4
作者 张欣 董文瀚 +3 位作者 尹晖 贺磊 张聘 李敦旺 《空军工程大学学报》 CSCD 北大核心 2024年第6期77-86,共10页
深度强化学习的应用为无人机自主机动决策提供了新的可能。提出一种基于态势评估模型重构与近端策略优化(PPO)算法相结合的无人机自主空战机动决策方法,为一对一近距空战提供了有效策略选择。首先,建立高保真六自由度无人机模型与近距... 深度强化学习的应用为无人机自主机动决策提供了新的可能。提出一种基于态势评估模型重构与近端策略优化(PPO)算法相结合的无人机自主空战机动决策方法,为一对一近距空战提供了有效策略选择。首先,建立高保真六自由度无人机模型与近距空战攻击模型;其次,基于空战状态划分重构角度、速度、距离和高度态势函数,提出一种描述机动潜力的新型态势评估指标;之后,基于态势函数设计塑形奖励,并与基于规则的稀疏奖励、基于状态转换的子目标奖励共同构成算法奖励函数,增强了强化学习算法的引导能力;最后,设计专家系统作为对手,在高保真空战仿真平台(JSBSim)中对本文工作进行了评估。仿真验证,应用本文方法的智能体在对抗固定机动对手与专家系统对手时算法收敛速度与胜率都得到了有效提升。 展开更多
关键词 ppo算法 机动潜力 六自由度飞机模型 态势函数 近距空战 专家系统
在线阅读 下载PDF
基于人工势场的防疫机器人改进近端策略优化算法
5
作者 伍锡如 沈可扬 《智能系统学报》 北大核心 2025年第3期689-698,共10页
针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和... 针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和目标节点的势场,定义防疫机器人的动作空间与安全运动范围,解决防疫机器人运作中避障效率低的问题。为解决传统PPO算法的奖励稀疏问题,将人工势场因子引入PPO算法的奖励函数,提升算法运行中的奖励反馈效率。改进PPO算法网络模型,增加隐藏层和Previous Actor网络,提高了防疫机器人的灵活性与学习感知能力。最后,在静态和动态仿真环境中对算法进行对比实验,结果表明本算法能更快到达奖励峰值,减少冗余路径,有效完成避障和路径规划决策。 展开更多
关键词 ppo算法 人工势场 路径规划 防疫机器人 深度强化学习 动态环境 安全性 奖励函数
在线阅读 下载PDF
基于强化学习的高铁列车运行图编制模型优化方法研究 被引量:6
6
作者 范文天 曾勇程 +2 位作者 郭一唯 杨宁 张海峰 《铁道运输与经济》 北大核心 2025年第1期70-81,共12页
针对高铁列车运行图中可能存在的停站时间超出范围、运行时间超出范围、超车和间隔时间不足这4类冲突,基于强化学习理论,实现一个用于调解列车运行图冲突的智能体。通过建立列车运行图编制环境,研究设计用于调解不同冲突的算子集,利用... 针对高铁列车运行图中可能存在的停站时间超出范围、运行时间超出范围、超车和间隔时间不足这4类冲突,基于强化学习理论,实现一个用于调解列车运行图冲突的智能体。通过建立列车运行图编制环境,研究设计用于调解不同冲突的算子集,利用近端策略优化算法在搭建好的环境中训练智能体。为提升算法性能,采用启发式贪心算法采集样本对网络进行监督学习作为前期预训练,利用熵增加算法的探索力度和多策略决策让最终的调解方案更加有效,并使用模型预热让算法网络在每个测试环境中进行参数微调以适应新环境。结果表明,在相同初始环境下,该方法消解所有冲突所需步骤显著少于启发式贪心算法,且100%消解所有冲突的概率远大于启发式贪心算法,该方法为列车运行图编制模型提供了新的参考。 展开更多
关键词 列车运行图 强化学习 ppo算法 冲突调解 启发式贪心算法
在线阅读 下载PDF
基于多智能体对抗学习的攻击路径发现方法
7
作者 张国敏 张俊峰 +1 位作者 屠智鑫 王梓澎 《信息网络安全》 北大核心 2025年第8期1254-1262,共9页
攻击路径发现是智能化渗透测试的一项重要技术,由于安防机制触发、安防人员介入等原因,目标网络往往处于动态变化状态,然而现有研究方法基于静态虚拟网络环境进行训练,智能体因经验失效问题难以适应环境的改变。为此,文章设计了一种基... 攻击路径发现是智能化渗透测试的一项重要技术,由于安防机制触发、安防人员介入等原因,目标网络往往处于动态变化状态,然而现有研究方法基于静态虚拟网络环境进行训练,智能体因经验失效问题难以适应环境的改变。为此,文章设计了一种基于完全竞争的智能体对抗博弈框架AGF,模拟红方在动态防御网络中攻击路径发现的红蓝智能体对抗博弈过程,并在PPO算法的基础上提出带有防御响应感知(DRP)机制的改进型算法PPODRP对状态和动作进行规划处理,从而使智能体具备对动态环境的适应性。实验结果表明,相比传统PPO算法,PPODRP方法在动态防御网络中的收敛效率更高,能够以更小的代价完成攻击路径发现任务。 展开更多
关键词 自动化渗透测试 ppo算法 攻击路径发现 对抗性强化学习
在线阅读 下载PDF
基于近端策略优化算法的船舶横摇运动控制系统与试验研究
8
作者 邹远停 徐文华 焦甲龙 《振动与冲击》 北大核心 2025年第18期140-145,179,共7页
为了实现船舶在零航速下的减摇效果,提出了一种基于近端策略优化算法的减摇鳍控制策略,并在拖曳水池中开展了船模零航速减摇试验。首先,建立了S175船模装置及减摇测试系统,制定了基于强迫横摇装置及水池造波模型的横摇运动控制试验方案... 为了实现船舶在零航速下的减摇效果,提出了一种基于近端策略优化算法的减摇鳍控制策略,并在拖曳水池中开展了船模零航速减摇试验。首先,建立了S175船模装置及减摇测试系统,制定了基于强迫横摇装置及水池造波模型的横摇运动控制试验方案;然后,通过近端策略优化算法对船舶减摇运动进行学习训练,根据训练得到的决策奖励值实时生成减摇鳍最优拍动角度方案;最后,基于所建立的船舶横摇运动控制的软硬件测试系统,在水池中开展了规则波和不规则波下的船模横摇减摇试验。结果表明,所建立的减摇系统能够使船舶在各类海况下均具有较好的减摇效果。 展开更多
关键词 船舶横摇 零航速 减摇鳍 减摇试验 近端策略优化算法
在线阅读 下载PDF
高速公路收费站动态车道配置的在线优化方法
9
作者 马飞虎 陈晓燕 +1 位作者 孙翠羽 田星彤 《交通运输系统工程与信息》 北大核心 2025年第5期333-342,共10页
针对高速公路收费站车道配置优化问题,本文提出一种基于强化学习的动态车道配置策略。根据车辆通过收费站的交通行为构建高速公路收费站仿真环境,将复杂的车道配置问题转化为考虑收费站运营成本、用户延误和拥堵惩罚的明确量化指标的目... 针对高速公路收费站车道配置优化问题,本文提出一种基于强化学习的动态车道配置策略。根据车辆通过收费站的交通行为构建高速公路收费站仿真环境,将复杂的车道配置问题转化为考虑收费站运营成本、用户延误和拥堵惩罚的明确量化指标的目标函数,借助强化学习网络训练,动态优化收费站车道资源配置策略。模型能够实时学习并动态调整车道配置,以应对交通流量和模式的动态变化。实验对比了强化学习优化方法与传统离线优化方法,结果表明,PPO(Proximal Policy Optimization)方法在全程平均排队数上降低了12.45%,在平均通过时间的波动范围上缩小了26.94%,PPO算法在减少排队长度和降低通行时间波动方面具有优势,特别是在高峰时段动态车道配置策略展现出更高的适应性和灵活性,提升了收费站的运营效率。 展开更多
关键词 公路运输 车道配置动态优化 强化学习 高速公路收费站 ppo算法
在线阅读 下载PDF
基于改进PPO算法的机器人局部路径规划 被引量:14
10
作者 刘国名 李彩虹 +3 位作者 李永迪 张国胜 张耀玉 高腾腾 《计算机工程》 CAS CSCD 北大核心 2023年第2期119-126,135,共9页
利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的... 利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的全连接层替换为LSTM记忆单元,控制样本信息的记忆和遗忘程度,优先学习奖励值高的样本,从而更快地累积奖励优化模型。在此基础上,加入虚拟目标点,通过雷达传感器收集的环境信息判断机器人陷入死锁区域时弃用目标点给予机器人的引导,使机器人走出陷阱区域并趋向目标点,减少在死锁区域不必要的训练。分别在特殊障碍物场景和混合障碍物场景中对LSTM-PPO算法进行仿真验证,结果表明,与传统PPO算法和改进算法SDAS-PPO相比,该算法在两种场景训练中均能最快到达奖励峰值,可加快模型收敛速度,减少冗余路段,优化路径平滑度并缩短路径长度。 展开更多
关键词 机器人 局部路径规划 长短期记忆神经网络 近端策略优化算法 虚拟目标点
在线阅读 下载PDF
基于PPO算法优化的IoT环境温度预测研究 被引量:3
11
作者 朱广 霍跃华 +1 位作者 栾庆磊 史艳琼 《传感器与微系统》 CSCD 北大核心 2021年第4期33-36,共4页
针对现有物联网(IoT)环境温度预测方法存在的预测精度低以及预测结果存在滞后性的问题,提出了一种基于优化的近端策略优化(PPO)算法和AC(Actor-Critic)网络的IoT环境温度预测模型(PPO-AC)。模型结合AC强化学习网络构建用于温度预测的双... 针对现有物联网(IoT)环境温度预测方法存在的预测精度低以及预测结果存在滞后性的问题,提出了一种基于优化的近端策略优化(PPO)算法和AC(Actor-Critic)网络的IoT环境温度预测模型(PPO-AC)。模型结合AC强化学习网络构建用于温度预测的双网络模型,并采用优化的PPO算法动态选择损失函数。最后,采用Kaggle数据平台提供的IoT环境温度数据集,通过实验验证了该模型的有效性和稳定性。 展开更多
关键词 物联网(IoT) 近端策略优化(ppo)算法 AC(Actor-Critic)网络 温度预测
在线阅读 下载PDF
基于PPO算法的攻击路径发现与寻优方法 被引量:3
12
作者 张国敏 张少勇 张津威 《信息网络安全》 CSCD 北大核心 2023年第9期47-57,共11页
基于策略网络选择渗透动作发现最优攻击路径,是自动化渗透测试的一项关键技术。然而,现有方法在训练过程中存在无效动作过多、收敛速度慢等问题。为了解决这些问题,文章将PPO(Proximal Policy Optimization)算法用于解决攻击路径寻优问... 基于策略网络选择渗透动作发现最优攻击路径,是自动化渗透测试的一项关键技术。然而,现有方法在训练过程中存在无效动作过多、收敛速度慢等问题。为了解决这些问题,文章将PPO(Proximal Policy Optimization)算法用于解决攻击路径寻优问题,并提出带有渗透动作选择模块的改进型PPO算法IPPOPAS(Improved PPO with Penetration Action Selection),该算法在获取回合经验时,根据渗透测试场景进行动作筛选。文章设计实现IPPOPAS算法的各个组件,包括策略网络、价值网络和渗透动作选择模块等,对动作选择过程进行改进,并进行参数调优和算法优化,提高了算法的性能和效率。实验结果表明,IPPOPAS算法在特定网络场景中的收敛速度优于传统深度强化学习算法DQN(Deep Q Network)及其改进算法,并且随着主机中漏洞数量的增加,该算法的收敛速度更快。此外,实验还验证了在网络规模扩大的情况下IPPOPAS算法的有效性。 展开更多
关键词 自动化渗透测试 策略网络 ppo算法 攻击路径发现
在线阅读 下载PDF
面向OODA作战流程的防空火力网端对端智能构建算法 被引量:2
13
作者 罗雨雨 丁伟 +4 位作者 明振军 李传浩 王国新 阎艳 王玉茜 《兵工学报》 EI CAS CSCD 北大核心 2024年第12期4231-4245,共15页
针对防空战场环境下目标数量多、装备协同难、体系反应拙的问题,提出一种面向侦测-整编-决策-打击(Observe-Orient-Decide-Act,OODA)作战流程的防空火力网端对端智能构建算法。围绕OODA作战流程,构建由情报网、指控网和火力网组成的防... 针对防空战场环境下目标数量多、装备协同难、体系反应拙的问题,提出一种面向侦测-整编-决策-打击(Observe-Orient-Decide-Act,OODA)作战流程的防空火力网端对端智能构建算法。围绕OODA作战流程,构建由情报网、指控网和火力网组成的防空体系框架,并基于此框架着力解决影响战场胜负关键的火力网智能构建;将拦截武器损毁目标建模为马尔可夫决策过程,并给出相应的状态空间、动作空间与奖励策略等;在此基础上,通过对标准端对端近端策略优化算法进行改进,提高模型精度和减少训练时间。以某防空反导联合区域作战场景为例,开展所提算法的评估验证。实验结果表明:所提方法相比于规则和启发式算法能够快速准确地生成防空火力网设计方案,尤其在同等大规模作战场景中的计算效率和作战成本方面具有更突出的优势,为作战体系全流程的杀伤网构建提供了基础。 展开更多
关键词 防空火力网 改进近端策略优化算法 OODA作战流程 战场态势 端对端训练
在线阅读 下载PDF
基于裁剪近端策略优化算法的软机械臂不规则物体抓取 被引量:2
14
作者 余家宸 杨晔 《计算机应用》 CSCD 北大核心 2024年第11期3629-3638,共10页
为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(... 为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(PPO)算法的性能,提升了它在高维状态空间的稳定性和学习效率。首先定义了软体机械臂的状态空间和动作空间,并设计了模仿八爪鱼触手的软体机械臂模型;其次利用Matlab的SoRoSim(Soft Robot Simulation)工具箱进行建模,同时定义了结合连续和稀疏函数的环境奖励函数;最后构建了基于Matlab的仿真平台,通过Python脚本和滤波器对不规则物体图像进行预处理,并利用Redis缓存高效传输处理后的轮廓数据至仿真平台。与TRPO(Trust Region Policy Optimization)和SAC(Soft Actor-Critic)算法的对比实验结果表明,CPPO算法在软体机械臂抓取不规则物体任务中达到了86.3%的成功率,比TRPO算法高出了3.6个百分点。这说明CPPO算法可以应用于软体机械臂控制,可在非结构化环境下为软体机械臂在复杂抓取任务中的应用提供重要参考。 展开更多
关键词 深度强化学习 近端策略优化算法 不规则物体检测 软体机械臂 机械臂抓取
在线阅读 下载PDF
基于深度强化学习的多机协同空战方法研究 被引量:68
15
作者 施伟 冯旸赫 +4 位作者 程光权 黄红蓝 黄金才 刘忠 贺威 《自动化学报》 EI CAS CSCD 北大核心 2021年第7期1610-1623,共14页
多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative ... 多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative air combat decision framework,DRL-MACACDF),并针对近端策略优化(Proximal policy optimization,PPO)算法,设计4种算法增强机制,提高多机协同对抗场景下智能体间的协同程度.在兵棋推演平台上进行的仿真实验,验证了该方法的可行性和实用性,并对对抗过程数据进行了可解释性复盘分析,研讨了强化学习与传统兵棋推演结合的交叉研究方向. 展开更多
关键词 多机协同空战 智能决策 深度强化学习 ppo算法 增强机制
在线阅读 下载PDF
基于强化学习的直流蒸汽发生器控制策略研究 被引量:2
16
作者 李程 余刃 +1 位作者 余文敏 王天舒 《舰船科学技术》 北大核心 2022年第11期89-94,共6页
针对直流蒸汽发生器二回路水容积小,负荷变化过程中蒸汽出口压力极易发生波动、难以控制的特点,设计一种基于强化学习PPO算法的直流蒸汽发生器蒸汽出口压力双层控制结构。该算法通过智能体选取PID参数作为强化学习中的动作Action输出,... 针对直流蒸汽发生器二回路水容积小,负荷变化过程中蒸汽出口压力极易发生波动、难以控制的特点,设计一种基于强化学习PPO算法的直流蒸汽发生器蒸汽出口压力双层控制结构。该算法通过智能体选取PID参数作为强化学习中的动作Action输出,作用到被控对象,利用与其交互后得到奖励值的反馈进行智能体的在线学习,通过上层控制参数调整策略的在线学习和底层PID参数的跟踪调整,从而提升控制器的控制性能。通与传统PID控制算法进行仿真比对实验,验证了基于PPO算法的自适应PID控制器具有响应速度更快、超调量和调整时间更小等优点。 展开更多
关键词 直流蒸汽发生器 强化学习 ppo算法 PID控制
在线阅读 下载PDF
基于深度强化学习的三维路径规划算法 被引量:16
17
作者 黄东晋 蒋晨凤 韩凯丽 《计算机工程与应用》 CSCD 北大核心 2020年第15期30-36,共7页
合理的路线选择是智能体三维路径规划研究领域的难点。现有路径规划方法存在不能很好地适应未知地形,避障形式单一等问题。针对这些问题,提出了一种基于LSTM-PPO的智能体三维路径规划算法。利用虚拟射线探测仿真环境,并将收集到的状态... 合理的路线选择是智能体三维路径规划研究领域的难点。现有路径规划方法存在不能很好地适应未知地形,避障形式单一等问题。针对这些问题,提出了一种基于LSTM-PPO的智能体三维路径规划算法。利用虚拟射线探测仿真环境,并将收集到的状态空间和动作状态引入长短时记忆网络。通过额外的奖惩函数和好奇心驱动让智能体学会跳跃通过低矮障碍物,避开大型障碍物。利用PPO算法的截断项机制使得规划策略更新的幅度更加优化。实验结果表明,该算法是可行的,能够更加智能合理地选择路线,很好地适应存在多样障碍物的未知环境。 展开更多
关键词 深度强化学习 近端策略优化算法 路径规划 复杂未知场景
在线阅读 下载PDF
多智能体强化学习的机械臂运动控制决策研究 被引量:9
18
作者 羊波 王琨 +3 位作者 马祥祥 范彪 徐磊 闫浩 《计算机工程与应用》 CSCD 北大核心 2023年第6期318-325,共8页
针对传统运动控算法存在环境适应性较差,效率低的问题。可以利用强化学习在环境中不断去探索试错,并通过奖励函数对神经网络参数进行调节的方法对机械臂的运动进行控制。但是在现实中无法提供机械臂试错的环境,采用Unity引擎平台来构建... 针对传统运动控算法存在环境适应性较差,效率低的问题。可以利用强化学习在环境中不断去探索试错,并通过奖励函数对神经网络参数进行调节的方法对机械臂的运动进行控制。但是在现实中无法提供机械臂试错的环境,采用Unity引擎平台来构建机械臂的数字孪生仿真环境,设置观察状态变量和设置奖励函数机制,并提出在该模型环境中对PPO(proximal policy optimization)与多智能体(agents)结合的M-PPO算法来加快训练速度,实现通过强化学习算法对机械臂进行智能运动控制,完成机械臂执行末端有效避障快速到达目标物体位置,并通过该算法与M-SAC(多智能体与Soft Actor-Critic结合)和PPO算法的实验结果进行分析,验证M-PPO算法在不同环境下机械臂运动控制决策调试上的有效性与先进性。实现孪生体自主规划决策,反向控制物理体同步运动的目的。 展开更多
关键词 强化学习 Unity引擎 运动控制 M-ppo算法 多智能体
在线阅读 下载PDF
面向连续泊位和岸桥动态调度问题的强化学习方法
19
作者 王苓 王钰 梁承姬 《运筹与管理》 2025年第8期185-191,共7页
近年来集装箱吞吐量增加、作业设备智能化程度提升,使得港口对动态环境下泊位与岸桥联合调度的要求不断提高。为充分利用动态环境中的大量数据从而作出高效的优化决策,本文将连续泊位岸桥调度问题考虑为序列决策问题,构建了相应的马尔... 近年来集装箱吞吐量增加、作业设备智能化程度提升,使得港口对动态环境下泊位与岸桥联合调度的要求不断提高。为充分利用动态环境中的大量数据从而作出高效的优化决策,本文将连续泊位岸桥调度问题考虑为序列决策问题,构建了相应的马尔可夫决策过程,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)的深度强化学习算法。该算法充分考虑了岸桥的动态移动、船舶动态抵港情况,设计了合理的状态空间、动作空间和奖励函数,算法通过与大规模复杂场景下的动态环境不断交互获得连续泊位岸桥联合优化的最佳调度方案。多个算例的测试结果表明本文所提出的PPO算法能够充分适应不同问题规模和动态环境,相较于传统的调度决策方法更具优势:与遗传算法和粒子群算相比,其计算效率提升了93.21%和93.01%,决策目标平均改进了15.7%和20.3%;与DDPG强化学习算法相比在收敛速度上更快,通过对比在几组不同算例下的决策目标改进了6.5%~10%的作业时间。 展开更多
关键词 泊位岸桥调度 深度强化学习 连续泊位分配 岸桥动态调度 ppo算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部