期刊文献+
共找到874篇文章
< 1 2 44 >
每页显示 20 50 100
基于改进PPO算法的机械臂动态路径规划 被引量:1
1
作者 万宇航 朱子璐 +3 位作者 钟春富 刘永奎 林廷宇 张霖 《系统仿真学报》 北大核心 2025年第6期1462-1473,共12页
针对非结构化环境下机械臂路径规划面临的环境不确定性因素增多、建模难度大等问题,提出了一种基于改进近端策略优化(PPO)算法的机械臂动态路径规划方法。针对由于动态环境中障碍物数量变化而导致的状态空间输入长度不固定的问题,提出... 针对非结构化环境下机械臂路径规划面临的环境不确定性因素增多、建模难度大等问题,提出了一种基于改进近端策略优化(PPO)算法的机械臂动态路径规划方法。针对由于动态环境中障碍物数量变化而导致的状态空间输入长度不固定的问题,提出了基于LSTM网络的环境状态输入处理方法,并对PPO算法的网络结构进行了改进;基于人工势场法设计了奖励函数,并建立机械臂碰撞检测模型。实验结果表明:改进算法能够适应场景中障碍物数量和位置的变化,具有更快的收敛速度和稳定性。 展开更多
关键词 动态路径规划 改进ppo算法 LSTM网络 人工势场法 ML-Agents
在线阅读 下载PDF
局部风信息启发的AVW-PPO室内气源定位算法
2
作者 李世钰 袁杰 +2 位作者 谢霖伟 郭旭 张宁宁 《哈尔滨工业大学学报》 北大核心 2025年第8期57-68,共12页
为解决当前复杂、动态室内羽流环境中气源定位(OSL)效率低下和成功率不足的问题,尤其在湍流条件下机器人难以准确感知环境并实现有效导航的挑战,提出了一种基于深度强化学习的辅助价值与风导向的近端策略优化(AVW-PPO)算法。首先,在原始... 为解决当前复杂、动态室内羽流环境中气源定位(OSL)效率低下和成功率不足的问题,尤其在湍流条件下机器人难以准确感知环境并实现有效导航的挑战,提出了一种基于深度强化学习的辅助价值与风导向的近端策略优化(AVW-PPO)算法。首先,在原始PPO算法的基础上引入辅助价值网络,以减少单一值网络的估计偏差,从而提升策略更新的稳定性与预测精度。其次,设计了一种风导向策略,将局部环境风场信息融入强化学习框架中的状态空间与奖励函数,使机器人能够更敏锐地感知羽流环境的动态变化,优化其决策路径,从而有效提高气源定位的效率。最后,通过构建二维环境中的气体扩散模型,在3种不同的湍流条件下对所提算法进行了测试。结果表明:相同环境条件下,AVW-PPO算法在平均搜索步数和成功率两个指标上均优于其他同类算法,且定位成功率超过99%。其中,风导向策略在提升搜索效率方面表现尤为突出,有助于减少机器人完成任务所需的时间。本研究为解决室内复杂湍流环境下的气源定位问题提供了新思路和新方法。 展开更多
关键词 气源定位 深度强化学习 近端策略优化(ppo) 辅助价值网络 风导向策略
在线阅读 下载PDF
基于卷积金字塔网络的PPO算法求解作业车间调度问题 被引量:1
3
作者 徐帅 李艳武 +1 位作者 谢辉 牛晓伟 《现代制造工程》 北大核心 2025年第3期19-30,共12页
作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网... 作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网络(Convolutional Neural Network,CNN)的深度强化学习(Deep Reinforcement Learning,DRL)调度方法。设计了一种三通道状态表示方法,选取16种启发式调度规则作为动作空间,将奖励函数等价为最小化机器总空闲时间。为使训练得到的调度策略能够处理不同规模的调度算例,在卷积神经网络中使用空间金字塔池化(Spatial Pyramid Pooling,SPP),将不同维度的特征矩阵转化为固定长度的特征向量。在公开OR-Library的42个作业车间调度(Job-Shop Scheduling Problem,JSSP)算例上进行了计算实验。仿真实验结果表明,该算法优于单一启发式调度规则和遗传算法,在大部分算例中取得了比现有深度强化学习算法更好的结果,且平均完工时间最小。 展开更多
关键词 深度强化学习 作业车间调度 卷积神经网络 近端策略优化 空间金字塔池化
在线阅读 下载PDF
结合PPO和蒙特卡洛树搜索的斗地主博弈模型
4
作者 王世鹏 王亚杰 +2 位作者 吴燕燕 郭其龙 赵甜宇 《重庆理工大学学报(自然科学)》 北大核心 2025年第8期126-133,共8页
斗地主是一种典型的非完备信息博弈,由于具有多人博弈、动作空间庞大、合作与竞争并存等决策需求,单一的蒙特卡洛树搜索在应用时存在效率低的问题。为提升蒙特卡洛树搜索的策略效果和搜索效率,提出一种基于近端策略优化(proximal policy... 斗地主是一种典型的非完备信息博弈,由于具有多人博弈、动作空间庞大、合作与竞争并存等决策需求,单一的蒙特卡洛树搜索在应用时存在效率低的问题。为提升蒙特卡洛树搜索的策略效果和搜索效率,提出一种基于近端策略优化(proximal policy optimization,PPO)算法结合蒙特卡洛树搜索的斗地主博弈模型。利用PPO算法学习斗地主中的牌局和策略信息,训练出可根据当前局面提供动作概率的策略模型,为蒙特卡洛树搜索的选择和模拟阶段提供策略指导。在选择阶段,通过PPO策略模型输出的动作概率优化策略选择公式,指导高质量动作节点的选择。在模拟阶段,PPO替代了随机模拟过程,使模拟更加符合策略,减少低效路径的探索。实验结果表明:结合PPO优化后的蒙特卡洛树搜索不仅提高了决策的效率,还提升了模型的胜率,表现出较强的斗地主博弈决策优势。 展开更多
关键词 ppo算法 蒙特卡洛树搜索 斗地主 非完备信息博弈
在线阅读 下载PDF
基于深度强化学习PPO的车辆智能控制方法
5
作者 叶宝林 王欣 +1 位作者 李灵犀 吴维敏 《计算机工程》 北大核心 2025年第7期385-396,共12页
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制... 为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆选择具有更长优势距离的车道进行变道。基于定义的优势距离提出一种新的状态采集方法以减少数据处理量,加快深度强化学习模型的收敛速度。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计一个多目标奖励函数。最后在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中进行测试,对所提方法在不同目标速度下的表现进行分析和讨论。仿真测试结果表明,相比深度Q网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能使车辆安全平稳地完成驾驶任务。 展开更多
关键词 近端策略优化 车辆控制 分层控制框架 多目标奖励函数 深度Q网络
在线阅读 下载PDF
自适应奖励函数的PPO曲面覆盖方法
6
作者 李淑怡 阳波 +2 位作者 陈灵 沈玲 唐文胜 《计算机工程》 北大核心 2025年第3期86-94,共9页
针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面... 针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面模型;其次,以曲面局部点云的覆盖状态特征和曲率变化特征作为曲面模型观测值以构建状态模型,有利于机器人移动轨迹拟合曲面,提高机器人对曲面变化的适应能力;接着,基于曲面的全局覆盖率和与时间相关的指数模型构建一种自适应奖励函数,引导机器人向未覆盖区域移动,提高覆盖效率;最后,将曲面局部状态模型、奖励函数、PPO强化学习算法相融合,训练机器人完成曲面覆盖路径规划任务。在球形、马鞍形、立体心形等3种曲面模型上,以点云覆盖率与覆盖完成时间作为主要评价指标进行实验,结果表明,SC-SRPPO的平均覆盖率为90.72%,与NSGA Ⅱ、PPO、SAC这3种方法对比,覆盖率分别提升4.98%、14.56%、27.11%,覆盖完成时间分别缩短15.20%、67.18%、62.64%。SC-SRPPO能够在适应曲面变化的基础上使机器人更加高效地完成曲面覆盖任务。 展开更多
关键词 清洁机器人 曲面 覆盖路径规划 强化学习 近端策略优化
在线阅读 下载PDF
基于改进PPO的HCSY-MG并网系统分布式混合储能充放电优化控制
7
作者 李锦键 王兴贵 丁颖杰 《电源学报》 北大核心 2025年第4期255-264,共10页
为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy... 为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy optimization)的分布式混合储能系统HESS(hybrid energy storage system)充、放电优化控制策略。在考虑HCSY-MG系统并网电流与分布式HESS特性的条件下,确定影响并网电流的主要系统变量,以及HESS接入系统的最佳拓扑结构。然后结合串联系统的特点,将分布式HESS的充、放电问题转换为深度强化学习的Markov决策过程。同时针对PPO算法中熵损失权重难以确定的问题,提出1种改进的PPO算法,兼顾智能体的收敛性和探索性。最后以某新能源发电基地的典型运行数据为算例,验证所提控制策略的可行性和有效性。 展开更多
关键词 串联微电网 分布式混合储能系统 近端策略优化 充放电功率 深度强化学习
在线阅读 下载PDF
基于改进PPO的小天体飞越轨道修正机动规划算法
8
作者 扈航 张锦绣 王继河 《宇航学报》 北大核心 2025年第6期1111-1122,共12页
在考虑摄动的Lambert问题中,传统打靶法、进化算法和微分修正法等方法存在计算耗时且依赖于迭代初值、摄动模型等问题,而深度强化学习方法虽能快速生成转移策略,但策略网络无法充分利用已有动力学模型,导致精度受限。针对以上问题,面向... 在考虑摄动的Lambert问题中,传统打靶法、进化算法和微分修正法等方法存在计算耗时且依赖于迭代初值、摄动模型等问题,而深度强化学习方法虽能快速生成转移策略,但策略网络无法充分利用已有动力学模型,导致精度受限。针对以上问题,面向小天体飞越前的轨道修正机动场景,提出了一种基于改进近端策略优化(PPO)的可处理环境摄动的轨道修正机动规划算法。该算法以二体Lambert问题迭代解作为输出基础项,以PPO算法学习环境摄动影响后的决策结果为输出补偿项,兼顾了对环境摄动影响的补偿和计算耗时。仿真结果表明,在环境摄动被准确感知的情况下,所提算法得到的修正机动策略的终端位置精度优于二体Lambert问题迭代解、仅基于PPO算法学习所得结果,略低于微分修正法所得结果;在环境摄动感知存在偏差且机动点间隔时间较长的情况下,所提算法在Monte Carlo打靶实验中的终端位置精度优于微分修正法所得结果,具有更好的泛化能力和鲁棒性。且所提算法的实时性好,在计算资源受限的树莓派4B上测试时在所有场景的平均决策时间均优于0.6 s,具有搭载在探测器上进行实时规划的潜力。 展开更多
关键词 轨道修正机动 小天体飞越 不确定摄动 近端策略优化
在线阅读 下载PDF
美味牛肝菌PPO酶学特性及其抑制机理
9
作者 资璐熙 向仕聪 +3 位作者 徐柠檬 李为兰 秦粉 郭磊 《西北农业学报》 北大核心 2025年第2期290-299,共10页
以美味牛肝菌为原料,对PPO进行分离纯化后研究其酶学特性,在此基础上,采用动力学模型和Lineweaver-Burk作图法对PPO热失活动力学和抑制剂作用机理进行分析。结果表明:美味牛肝菌PPO酶促反应产物在407 nm处有最大吸收峰,与邻苯二酚亲和... 以美味牛肝菌为原料,对PPO进行分离纯化后研究其酶学特性,在此基础上,采用动力学模型和Lineweaver-Burk作图法对PPO热失活动力学和抑制剂作用机理进行分析。结果表明:美味牛肝菌PPO酶促反应产物在407 nm处有最大吸收峰,与邻苯二酚亲和力最强,酶促反应动力学参数K_(m)=9.41 mmol/L,V_(max)=196.08 U/min,PPO最适底物为50 mmol/L邻苯二酚,最适pH为6.8,最适反应温度和时间分别为45℃、7 min。PPO在90℃下酶失活最快,其动力学参数为k=2.5045 min^(-1)、D=0.9420 min、T_(1/2)=0.2768 min;70℃~90℃下美味牛肝菌PPO失活活化能E_(a)=130.283 kJ/mol。偏重亚硫酸钠的抑制类型属于非竞争性抑制,抗坏血酸和L-半胱氨酸的抑制类型属于竞争性抑制。热处理和添加抑制剂能有效抑制PPO酶活力,研究结果为美味牛肝菌采后储藏及加工过程中的品质控制提供了一定的参考依据。 展开更多
关键词 美味牛肝菌 多酚氧化酶 酶学特性 分子对接 热失活 抑制剂机理
在线阅读 下载PDF
基于PPO算法的CIES低碳优化调度方法 被引量:2
10
作者 陈凡 吴凌霄 +2 位作者 王曼 吕干云 张小莲 《电力工程技术》 北大核心 2024年第6期88-99,共12页
阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优... 阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。 展开更多
关键词 园区综合能源系统(CIES) 优化调度 近端策略优化(ppo)算法 阶梯式碳交易机制 惩罚系数 碳排放
在线阅读 下载PDF
基于PPO的自适应PID控制算法研究 被引量:5
11
作者 周志勇 莫非 +2 位作者 赵凯 郝云波 钱宇峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第6期1425-1432,共8页
采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多... 采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多智能体思想,根据PID三个参数对控制系统的不同影响及六轴机械臂的特性,将三个参数分别作为不同的智能个体进行训练,实现多智能体自适应调整参数的新型多智能体自适应PID算法。仿真结果表明:该算法的训练收敛性优于MA-DDPG与MA-SAC算法,与传统PID算法的控制效果相比,在遇到扰动及振荡的情况下,能够更有效地抑制振荡,并具有更低的超调量和调整时间,控制过程更为平缓,有效提高了机械臂的控制精度,证明了该算法的鲁棒性及有效性。 展开更多
关键词 强化学习 近端优化算法 自适应PID整定 机械臂 多智能体
在线阅读 下载PDF
基于一种改进PPO算法的无人机空战自主机动决策方法研究 被引量:1
12
作者 张欣 董文瀚 +3 位作者 尹晖 贺磊 张聘 李敦旺 《空军工程大学学报》 CSCD 北大核心 2024年第6期77-86,共10页
深度强化学习的应用为无人机自主机动决策提供了新的可能。提出一种基于态势评估模型重构与近端策略优化(PPO)算法相结合的无人机自主空战机动决策方法,为一对一近距空战提供了有效策略选择。首先,建立高保真六自由度无人机模型与近距... 深度强化学习的应用为无人机自主机动决策提供了新的可能。提出一种基于态势评估模型重构与近端策略优化(PPO)算法相结合的无人机自主空战机动决策方法,为一对一近距空战提供了有效策略选择。首先,建立高保真六自由度无人机模型与近距空战攻击模型;其次,基于空战状态划分重构角度、速度、距离和高度态势函数,提出一种描述机动潜力的新型态势评估指标;之后,基于态势函数设计塑形奖励,并与基于规则的稀疏奖励、基于状态转换的子目标奖励共同构成算法奖励函数,增强了强化学习算法的引导能力;最后,设计专家系统作为对手,在高保真空战仿真平台(JSBSim)中对本文工作进行了评估。仿真验证,应用本文方法的智能体在对抗固定机动对手与专家系统对手时算法收敛速度与胜率都得到了有效提升。 展开更多
关键词 ppo算法 机动潜力 六自由度飞机模型 态势函数 近距空战 专家系统
在线阅读 下载PDF
基于PPO的球形机器人目标跟随研究 被引量:1
13
作者 靳一聪 应展烽 +2 位作者 刘春政 葛昊 陈志华 《兵器装备工程学报》 CAS CSCD 北大核心 2024年第3期280-285,共6页
球形机器人由于其优异的运动性能、出色的地形适应能力和防侧翻的特性,被广泛应用于水下探测、岸滩巡检等需要适应复杂环境的场景。然而球形机器人系统模型具有欠驱动、非线性的特点,运动控制问题复杂,在复杂应用环境下难以可靠跟随目... 球形机器人由于其优异的运动性能、出色的地形适应能力和防侧翻的特性,被广泛应用于水下探测、岸滩巡检等需要适应复杂环境的场景。然而球形机器人系统模型具有欠驱动、非线性的特点,运动控制问题复杂,在复杂应用环境下难以可靠跟随目标。为此,提出了一种基于近端策略优化(PPO)算法的球形机器人目标跟随方法。该方法基于深度强化学习理论,在球形机器人动力学模型的基础上,设计了简单高效的动作空间和表征完善的状态空间。并且为提高目标跟随方法的鲁棒性,该方法在奖励函数中引入人工势场,以使目标始终保持在机器人视野中心。仿真结果表明,所提方法能够满足既定场景的跟随需求,球形机器人使用该方法可以对随机运动目标进行可靠跟随。 展开更多
关键词 球形机器人 目标跟随 强化学习 ppo算法 人工势场
在线阅读 下载PDF
PPO增韧生物基PA56合金的制备及性能
14
作者 庄肖 种云胜 +3 位作者 王立岩 别致 王子超 崔致博 《塑料》 CAS CSCD 北大核心 2024年第4期1-7,共7页
以有机刚性粒子PPO为增韧剂,采用熔融共混的方法对PA56进行增韧改性,制得PA56/PPO合金。研究结果表明,PA56/PPO合金样品断面形貌呈现典型的海-岛结构,PPO以球状颗粒的形态均匀地分布在PA56连续相中,相畴尺寸为100~300 nm。PA56/PPO合金... 以有机刚性粒子PPO为增韧剂,采用熔融共混的方法对PA56进行增韧改性,制得PA56/PPO合金。研究结果表明,PA56/PPO合金样品断面形貌呈现典型的海-岛结构,PPO以球状颗粒的形态均匀地分布在PA56连续相中,相畴尺寸为100~300 nm。PA56/PPO合金的力学性能测试表明,随着PPO含量的增加,简支梁缺口冲击强度增强,断裂伸长率提高,当PPO质量分数为30%时,PA56/PPO合金的冲击强度为9.4 kJ/m^(2),断裂伸长率为20.5%,与纯PA56相比,分别提高了303%和820%;但是,合金的拉伸强度变化较小。当PPO质量分数为30%,PA56/PPO合金吸水率为1.67%,与纯PA56相比降低了57.6%。随着体系中PPO含量的增加,合金材料的结晶温度和结晶度逐渐降低,热失重并未发生明显改变。 展开更多
关键词 生物基PA56 ppo 增韧 合金 性能
在线阅读 下载PDF
基于先验知识嵌入LSTM-PPO模型的智能干扰决策算法 被引量:1
15
作者 张静克 杨凯 +1 位作者 李超 王洪雁 《通信学报》 CSCD 北大核心 2024年第12期227-239,共13页
针对基于传统强化学习模型的多功能雷达(MFR)干扰决策算法决策效率及有效性低、策略不稳定的问题,提出基于先验知识嵌入长短期记忆(LSTM)网络-近端策略优化(PPO)模型的智能干扰决策算法。所提算法首先将MFR干扰决策问题定义为马尔可夫... 针对基于传统强化学习模型的多功能雷达(MFR)干扰决策算法决策效率及有效性低、策略不稳定的问题,提出基于先验知识嵌入长短期记忆(LSTM)网络-近端策略优化(PPO)模型的智能干扰决策算法。所提算法首先将MFR干扰决策问题定义为马尔可夫决策过程(MDP)。其次,基于收益塑造理论将干扰领域先验知识嵌入PPO模型的奖励函数,利用重塑所得奖励函数引导智能体快速收敛从而提升决策效率。而后,基于LSTM优异的时序特征抽取能力,捕捉回波数据的动态特征以有效刻画雷达工作状态。最后,将所抽取动态特征输入PPO模型,经由所嵌入先验知识的引导,从而可快速获得有效干扰决策。仿真实验表明,相较于传统深度干扰决策算法,所提算法具有较高的决策效率以及有效性,且可高效稳健地达成MFR干扰决策算法。 展开更多
关键词 干扰决策 多功能雷达 近端策略优化 长短期记忆网络 先验知识
在线阅读 下载PDF
基于PPO算法的不同驾驶风格跟车模型研究
16
作者 闫鑫 黄志球 +1 位作者 石帆 徐恒 《计算机科学》 CSCD 北大核心 2024年第9期223-232,共10页
自动驾驶对于减少交通堵塞、提高驾驶舒适性具有非常重要的作用,如何提高人们对自动驾驶技术的接受程度仍具有重要的研究意义。针对不同需求的人群定制不同的驾驶风格,可以帮助驾驶人理解自动驾驶行为,提高驾驶人的乘车体验,在一定程度... 自动驾驶对于减少交通堵塞、提高驾驶舒适性具有非常重要的作用,如何提高人们对自动驾驶技术的接受程度仍具有重要的研究意义。针对不同需求的人群定制不同的驾驶风格,可以帮助驾驶人理解自动驾驶行为,提高驾驶人的乘车体验,在一定程度上消除驾驶人对使用自动驾驶系统的心理抵抗性。通过分析自动驾驶场景下的跟车行为,提出基于PPO算法的不同驾驶风格的深度强化学习模型设计方案。首先分析德国高速公路车辆行驶数据集(HDD)中大量驾驶行为轨迹,根据跟车时距(THW)、跟车距离(DHW)、行车加速度以及跟车速度特征进行归类,提取激进型的驾驶风格和稳健型的驾驶风格的特征数据,以此为基础编码能够反映驾驶人风格的奖励函数,经过迭代学习生成不同驾驶风格的深度强化学习模型,并在highway env平台上进行道路模拟。实验结果表明,基于PPO算法的不同风格驾驶模型具有完成任务目标的能力,且与传统的智能驾驶模型(IDM)相比,能够在驾驶行为中准确反映出不同的驾驶风格。 展开更多
关键词 自动驾驶 智能驾驶模型 强化学习 ppo算法 主成分分析 K-MEANS
在线阅读 下载PDF
基于近端策略优化的两栖无人平台路径规划算法研究 被引量:1
17
作者 左哲 覃卫 +2 位作者 徐梓洋 李寓安 陈泰然 《北京理工大学学报》 EI CAS 北大核心 2025年第1期19-25,共7页
为解决水陆两栖无人平台在复杂环境中的路径规划问题,针对传统方法难以应对动态障碍物和多变环境的局限性,提出了一种基于近端策略优化(PPO)的路径规划算法,包含四种感知信息输入方案以及速度强化奖励函数,适应动态和静态环境.该算法通... 为解决水陆两栖无人平台在复杂环境中的路径规划问题,针对传统方法难以应对动态障碍物和多变环境的局限性,提出了一种基于近端策略优化(PPO)的路径规划算法,包含四种感知信息输入方案以及速度强化奖励函数,适应动态和静态环境.该算法通过批次函数正则化、策略熵引入和自适应裁剪因子,显著提升了算法的收敛速度和稳定性.研究中采用了ROS仿真平台,结合Flatland物理引擎和PedSim插件,模拟了包含动态障碍物的多种复杂场景.实验结果表明,采用BEV+V状态空间输入结构和离散动作空间的两栖无人平台,在路径规划中展现出高成功率和低超时率,优于传统方法和其他方案.仿真和对比实验显示采用鸟瞰图与速度组合的状态空间数据结构配合速度强化奖励函数算法提高了性能,收敛速度提高25.58%,路径规划成功率提升25.54%,超时率下降13.73%. 展开更多
关键词 路径规划 两栖 无人平台 近端策略优化(ppo)
在线阅读 下载PDF
计及气网延时的电-气综合能源系统近端策略优化双智能体安全校正方法 被引量:1
18
作者 彭寒梅 颜飞 +2 位作者 谭貌 苏永新 李辉 《电力自动化设备》 北大核心 2025年第2期51-60,共10页
电-气区域综合能源系统(EGRIES)中的电、气能源耦合且电力与天然气传输速率存在差异性,使得其安全校正的控制变量多且调整时间尺度不同。为此,提出一种基于双智能体深度强化学习的EGRIES多时间尺度安全校正控制方法。基于EGRIES多能流... 电-气区域综合能源系统(EGRIES)中的电、气能源耦合且电力与天然气传输速率存在差异性,使得其安全校正的控制变量多且调整时间尺度不同。为此,提出一种基于双智能体深度强化学习的EGRIES多时间尺度安全校正控制方法。基于EGRIES多能流模型和天然气网络调节较慢的特性,进行控制变量的调整时间尺度分类;构建基于双智能体强化学习的安全校正控制框架,采用合作型双智能体分别进行长时间和短时间尺度控制变量调整量的决策,设计基于近端策略优化(PPO)算法的智能体1和智能体2模型;在此基础上,离线训练PPO双智能体,当系统进入紧急状态时,双智能体相互合作在线产生可靠的安全校正控制策略,使系统恢复到正常状态。算例仿真结果验证了所提方法的有效性。 展开更多
关键词 电-气区域综合能源系统 安全校正控制 双智能体 ppo算法 调整时间尺度
在线阅读 下载PDF
数字孪生辅助强化学习的燃气站场巡检任务分配算法
19
作者 连远锋 田天 +1 位作者 陈晓禾 董绍华 《电子与信息学报》 北大核心 2025年第7期2285-2297,共13页
针对燃气站场机器人智能巡检过程中由于突发任务导致的巡检效率下降、任务延迟和能耗增加问题,该文提出基于数字孪生辅助强化学习的燃气站场巡检任务分配算法。首先基于多机器人、差异化任务的执行状况,建立面向能耗、任务延迟的多目标... 针对燃气站场机器人智能巡检过程中由于突发任务导致的巡检效率下降、任务延迟和能耗增加问题,该文提出基于数字孪生辅助强化学习的燃气站场巡检任务分配算法。首先基于多机器人、差异化任务的执行状况,建立面向能耗、任务延迟的多目标联合优化巡检任务分配模型;其次利用李雅普诺夫理论对时间-能耗耦合下的巡检目标进行解耦,简化多目标联合优化问题;最后通过结合数字孪生技术和PPO(Proximal Policy Optimization)算法,对解耦后的优化目标进行求解来构建多机器人巡检任务分配策略。仿真结果表明,与现有方法相比,所提方法具有较高的任务完成率,有效地提高了多机器人系统的巡检效率。 展开更多
关键词 燃气站场 数字孪生 任务分配 李雅普诺夫 ppo
在线阅读 下载PDF
阻燃型环氧树脂/低分子聚苯醚材料固化及热解动力学
20
作者 单雪影 张家傅 +3 位作者 黄其鑫 刁玉璇 李锦春 李玲玉 《中国安全科学学报》 北大核心 2025年第7期114-121,共8页
为提高环氧树脂(EP)在应用领域的安全性,使用苯二甲酸钙(CaT)这一有机金属框架化合物(MOF)材料,协同液体阻燃剂双酚A双(二苯基磷酸酯)(BDP)阻燃改性EP/低分子聚苯醚(PPO)体系,通过极限氧指数、垂直燃烧测试和锥形量热测试表征其阻燃性能... 为提高环氧树脂(EP)在应用领域的安全性,使用苯二甲酸钙(CaT)这一有机金属框架化合物(MOF)材料,协同液体阻燃剂双酚A双(二苯基磷酸酯)(BDP)阻燃改性EP/低分子聚苯醚(PPO)体系,通过极限氧指数、垂直燃烧测试和锥形量热测试表征其阻燃性能,并利用Kissinger、FWO和Crane方程研究改性EP/PPO体系的固化动力学及热解动力学。结果表明:当添加8%BDP和2%CaT至EP中,复合材料表现出良好的阻燃性能,极限氧指数达34.5%,垂直燃烧测试获V-0级别,且其峰值热释放速率和总热释放较纯EP分别降低76.6%及51.5%;CaT有利于固化反应;利用非等温差示扫描量热曲线外推法能够得到最佳固化温度为:初始100℃,后120℃,最后170℃;通过非等温热重分析及热解动力学分析可发现EP/PPO体系表现出更低的活化能。 展开更多
关键词 阻燃 环氧树脂(EP) 低分子聚苯醚(ppo) 固化动力学 热解动力学
在线阅读 下载PDF
上一页 1 2 44 下一页 到第
使用帮助 返回顶部