期刊文献+
共找到153篇文章
< 1 2 8 >
每页显示 20 50 100
面向匝道合流场景的多智能体强化学习SAG-MAPPO安全协同决策方法
1
作者 张树培 庞莹 +2 位作者 孙朋举 张玮 王玲德 《重庆理工大学学报(自然科学)》 北大核心 2025年第9期45-52,共8页
针对匝道合流场景中智能网联汽车(CAVs)与人类驾驶车辆(HDVs)在多车协同决策时,因局部可观测性以及动态环境不确定性导致的安全与效率问题,提出一种基于时序记忆和安全约束机制的多智能体近端策略优化(SAG-MAPPO)算法。建立匝道协同决... 针对匝道合流场景中智能网联汽车(CAVs)与人类驾驶车辆(HDVs)在多车协同决策时,因局部可观测性以及动态环境不确定性导致的安全与效率问题,提出一种基于时序记忆和安全约束机制的多智能体近端策略优化(SAG-MAPPO)算法。建立匝道协同决策场景的分布式部分可观测马尔可夫决策(Dec-POMDP)模型,通过引入门控循环单元(gated recurrent unit,GRU)处理车辆状态的历史信息,解决环境局部观测性导致的策略不稳定问题。在此基础上,设计包含硬性规则约束和动态行为预测的双层安全机制,实时屏蔽危险动作,确保决策输出的安全性。仿真结果表明,SAG-MAPPO在不同密度的匝道协同合流场景下均表现出更快的收敛速度、更高的策略累计奖励和平均速度,验证了其在复杂动态场景下的有效性。 展开更多
关键词 匝道合流 自动驾驶 深度强化学习 多智能体近端策略优化 决策
在线阅读 下载PDF
基于改进PPO算法的混合动力汽车能量管理策略
2
作者 马超 孙统 +2 位作者 曹磊 杨坤 胡文静 《河北科技大学学报》 北大核心 2025年第3期237-247,共11页
为了提高功率分流式混合动力汽车(hybrid electric vehicle, HEV)的经济性,建立了HEV整车的纵向动力学模型,并提出了一种基于策略熵优化的改进近端策略优化(proximal policy optimization, PPO)算法的能量管理策略(energy management st... 为了提高功率分流式混合动力汽车(hybrid electric vehicle, HEV)的经济性,建立了HEV整车的纵向动力学模型,并提出了一种基于策略熵优化的改进近端策略优化(proximal policy optimization, PPO)算法的能量管理策略(energy management strategy, EMS)。在一般PPO算法基础上,通过采用经验池机制简化算法框架,只使用1个深度神经网络进行交互训练和更新,以减少策略网络参数同步的复杂性;为了有效探索环境并学习更高效的策略,在损失函数中增加策略熵,以促进智能体在探索与利用之间达到平衡,避免策略过早收敛至局部最优解。结果表明,这种基于单策略网络改进PPO算法的EMS相比于基于双策略网络PPO的EMS,在UDDS工况和NEDC工况下,均能更好地维持电池的荷电状态(state of charge, SOC),同时等效燃油消耗分别降低了8.5%和1.4%,并取得了与基于动态规划(dynamic programming, DP)算法的EMS相近的节能效果。所提改进PPO算法能有效提高HEV的燃油经济性,可为HEV的EMS设计与开发提供参考。 展开更多
关键词 车辆工程 混合动力汽车 能量管理策略 深度强化学习 近端策略优化
在线阅读 下载PDF
基于卷积金字塔网络的PPO算法求解作业车间调度问题 被引量:1
3
作者 徐帅 李艳武 +1 位作者 谢辉 牛晓伟 《现代制造工程》 北大核心 2025年第3期19-30,共12页
作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网... 作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网络(Convolutional Neural Network,CNN)的深度强化学习(Deep Reinforcement Learning,DRL)调度方法。设计了一种三通道状态表示方法,选取16种启发式调度规则作为动作空间,将奖励函数等价为最小化机器总空闲时间。为使训练得到的调度策略能够处理不同规模的调度算例,在卷积神经网络中使用空间金字塔池化(Spatial Pyramid Pooling,SPP),将不同维度的特征矩阵转化为固定长度的特征向量。在公开OR-Library的42个作业车间调度(Job-Shop Scheduling Problem,JSSP)算例上进行了计算实验。仿真实验结果表明,该算法优于单一启发式调度规则和遗传算法,在大部分算例中取得了比现有深度强化学习算法更好的结果,且平均完工时间最小。 展开更多
关键词 深度强化学习 作业车间调度 卷积神经网络 近端策略优化 空间金字塔池化
在线阅读 下载PDF
局部风信息启发的AVW-PPO室内气源定位算法
4
作者 李世钰 袁杰 +2 位作者 谢霖伟 郭旭 张宁宁 《哈尔滨工业大学学报》 北大核心 2025年第8期57-68,共12页
为解决当前复杂、动态室内羽流环境中气源定位(OSL)效率低下和成功率不足的问题,尤其在湍流条件下机器人难以准确感知环境并实现有效导航的挑战,提出了一种基于深度强化学习的辅助价值与风导向的近端策略优化(AVW-PPO)算法。首先,在原始... 为解决当前复杂、动态室内羽流环境中气源定位(OSL)效率低下和成功率不足的问题,尤其在湍流条件下机器人难以准确感知环境并实现有效导航的挑战,提出了一种基于深度强化学习的辅助价值与风导向的近端策略优化(AVW-PPO)算法。首先,在原始PPO算法的基础上引入辅助价值网络,以减少单一值网络的估计偏差,从而提升策略更新的稳定性与预测精度。其次,设计了一种风导向策略,将局部环境风场信息融入强化学习框架中的状态空间与奖励函数,使机器人能够更敏锐地感知羽流环境的动态变化,优化其决策路径,从而有效提高气源定位的效率。最后,通过构建二维环境中的气体扩散模型,在3种不同的湍流条件下对所提算法进行了测试。结果表明:相同环境条件下,AVW-PPO算法在平均搜索步数和成功率两个指标上均优于其他同类算法,且定位成功率超过99%。其中,风导向策略在提升搜索效率方面表现尤为突出,有助于减少机器人完成任务所需的时间。本研究为解决室内复杂湍流环境下的气源定位问题提供了新思路和新方法。 展开更多
关键词 气源定位 深度强化学习 近端策略优化(ppo) 辅助价值网络 风导向策略
在线阅读 下载PDF
基于深度强化学习PPO的车辆智能控制方法
5
作者 叶宝林 王欣 +1 位作者 李灵犀 吴维敏 《计算机工程》 北大核心 2025年第7期385-396,共12页
为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制... 为提高高速公路上混合环境下车辆的行驶效率、减少交通事故的发生,提出一种基于近端策略优化(PPO)的车辆智能控制方法。首先构建一个融合深度强化学习和传统比例-积分-微分(PID)控制的分层控制框架,上层深度强化学习智能体负责确定控制策略,下层PID控制器负责执行控制策略。其次为了提升车辆的行驶效率,通过定义优势距离对观测到的环境状态矩阵进行数据筛选,帮助自主车辆选择具有更长优势距离的车道进行变道。基于定义的优势距离提出一种新的状态采集方法以减少数据处理量,加快深度强化学习模型的收敛速度。另外,为了兼顾车辆的安全性、行驶效率和稳定性,设计一个多目标奖励函数。最后在基于Gym搭建的车辆强化学习任务仿真环境Highway_env中进行测试,对所提方法在不同目标速度下的表现进行分析和讨论。仿真测试结果表明,相比深度Q网络(DQN)方法,所提方法具有更快的收敛速度,且在两种不同目标速度下均能使车辆安全平稳地完成驾驶任务。 展开更多
关键词 近端策略优化 车辆控制 分层控制框架 多目标奖励函数 深度Q网络
在线阅读 下载PDF
自适应奖励函数的PPO曲面覆盖方法
6
作者 李淑怡 阳波 +2 位作者 陈灵 沈玲 唐文胜 《计算机工程》 北大核心 2025年第3期86-94,共9页
针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面... 针对机器人清洁作业过程中现有曲面覆盖方法难以适应曲面变化且覆盖效率低的问题,提出一种自适应奖励函数的近端策略优化(PPO)曲面覆盖方法(SC-SRPPO)。首先,将目标曲面离散化,以球查询方式获得协方差矩阵,求解点云的法向量,建立3D曲面模型;其次,以曲面局部点云的覆盖状态特征和曲率变化特征作为曲面模型观测值以构建状态模型,有利于机器人移动轨迹拟合曲面,提高机器人对曲面变化的适应能力;接着,基于曲面的全局覆盖率和与时间相关的指数模型构建一种自适应奖励函数,引导机器人向未覆盖区域移动,提高覆盖效率;最后,将曲面局部状态模型、奖励函数、PPO强化学习算法相融合,训练机器人完成曲面覆盖路径规划任务。在球形、马鞍形、立体心形等3种曲面模型上,以点云覆盖率与覆盖完成时间作为主要评价指标进行实验,结果表明,SC-SRPPO的平均覆盖率为90.72%,与NSGA Ⅱ、PPO、SAC这3种方法对比,覆盖率分别提升4.98%、14.56%、27.11%,覆盖完成时间分别缩短15.20%、67.18%、62.64%。SC-SRPPO能够在适应曲面变化的基础上使机器人更加高效地完成曲面覆盖任务。 展开更多
关键词 清洁机器人 曲面 覆盖路径规划 强化学习 近端策略优化
在线阅读 下载PDF
基于改进PPO的HCSY-MG并网系统分布式混合储能充放电优化控制
7
作者 李锦键 王兴贵 丁颖杰 《电源学报》 北大核心 2025年第4期255-264,共10页
为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy... 为平抑微源半桥变流器串联星型结构微电网HCSY-MG(half-bridge converter series Y-connection micro-grids)并网系统中微源出力的波动,保证各相直流侧电压之和相等,与并网电流三相平衡,提出1种基于改进近端策略优化PPO(proximal policy optimization)的分布式混合储能系统HESS(hybrid energy storage system)充、放电优化控制策略。在考虑HCSY-MG系统并网电流与分布式HESS特性的条件下,确定影响并网电流的主要系统变量,以及HESS接入系统的最佳拓扑结构。然后结合串联系统的特点,将分布式HESS的充、放电问题转换为深度强化学习的Markov决策过程。同时针对PPO算法中熵损失权重难以确定的问题,提出1种改进的PPO算法,兼顾智能体的收敛性和探索性。最后以某新能源发电基地的典型运行数据为算例,验证所提控制策略的可行性和有效性。 展开更多
关键词 串联微电网 分布式混合储能系统 近端策略优化 充放电功率 深度强化学习
在线阅读 下载PDF
基于PPO的自适应杂交遗传算法求解旅行商问题
8
作者 黄傲 李敏 +3 位作者 曾祥光 潘云伟 张加衡 彭倍 《计算机科学》 北大核心 2025年第S1期212-217,共6页
旅行商问题(Traveling Salesman Problem,TSP)是一个经典的组合优化问题,求解难度较大。传统遗传算法在求解旅行商问题时,参数调节过分依赖经验,同时种群多样性过早减少会导致局部收敛,严重影响算法性能。为此,提出一种自适应杂交遗传算... 旅行商问题(Traveling Salesman Problem,TSP)是一个经典的组合优化问题,求解难度较大。传统遗传算法在求解旅行商问题时,参数调节过分依赖经验,同时种群多样性过早减少会导致局部收敛,严重影响算法性能。为此,提出一种自适应杂交遗传算法(Adaptive Hybrid Genetic Algorithm,AHGA),采用深度强化学习对遗传算法的关键参数进行自适应调整。首先,构建了以遗传算法为环境的自适应参数调节模型,采用近端策略优化(Proximal Policy Optimization,PPO)算法来生成控制种群进化的动作策略。其次,在传统遗传算法交叉、变异的基础上增加杂交算子,以提高迭代后期种群的多样性。最后,在不同的TSPLIB公共实例中验证算法的效果和性能。结果表明,该算法明显提高了遗传算法的求解质量和收敛速度,有效避免了遗传算法的局部收敛问题,在解决旅行商问题时优于同类算法。 展开更多
关键词 旅行商问题 遗传算法 近端策略优化 杂交算子 参数自适应
在线阅读 下载PDF
改进PPO算法求解柔性作业车间调度问题
9
作者 吴昊泽 李艳武 谢辉 《计算机集成制造系统》 北大核心 2025年第8期2894-2904,共11页
柔性作业车间需要提高调度效率,缩短生产周期。为此以最小化最大完工时间为目标,采用机器选择和工件工序调整两种调度策略,建立混合整数规划模型,并提出了一种基于策略和图神经网络的深度强化学习算法来求解。该算法利用图神经网络获取... 柔性作业车间需要提高调度效率,缩短生产周期。为此以最小化最大完工时间为目标,采用机器选择和工件工序调整两种调度策略,建立混合整数规划模型,并提出了一种基于策略和图神经网络的深度强化学习算法来求解。该算法利用图神经网络获取和分析析取图的信息,为强化学习提供决策依据;提出了使用多近端策略优化和多指针图网络学习作业操作动作策略和机器动作策略,设计两个编码器-解码器定义两个动作策略,并将图神经网络嵌入到局部状态,增强局部搜索能力。实验结果表明所提出的算法在求解性能和泛化能力方面显著优于对比算法。 展开更多
关键词 深度强化学习 柔性作业车间调度问题 析取图 图神经网络 多近端策略优化算法
在线阅读 下载PDF
基于改进PPO的小天体飞越轨道修正机动规划算法
10
作者 扈航 张锦绣 王继河 《宇航学报》 北大核心 2025年第6期1111-1122,共12页
在考虑摄动的Lambert问题中,传统打靶法、进化算法和微分修正法等方法存在计算耗时且依赖于迭代初值、摄动模型等问题,而深度强化学习方法虽能快速生成转移策略,但策略网络无法充分利用已有动力学模型,导致精度受限。针对以上问题,面向... 在考虑摄动的Lambert问题中,传统打靶法、进化算法和微分修正法等方法存在计算耗时且依赖于迭代初值、摄动模型等问题,而深度强化学习方法虽能快速生成转移策略,但策略网络无法充分利用已有动力学模型,导致精度受限。针对以上问题,面向小天体飞越前的轨道修正机动场景,提出了一种基于改进近端策略优化(PPO)的可处理环境摄动的轨道修正机动规划算法。该算法以二体Lambert问题迭代解作为输出基础项,以PPO算法学习环境摄动影响后的决策结果为输出补偿项,兼顾了对环境摄动影响的补偿和计算耗时。仿真结果表明,在环境摄动被准确感知的情况下,所提算法得到的修正机动策略的终端位置精度优于二体Lambert问题迭代解、仅基于PPO算法学习所得结果,略低于微分修正法所得结果;在环境摄动感知存在偏差且机动点间隔时间较长的情况下,所提算法在Monte Carlo打靶实验中的终端位置精度优于微分修正法所得结果,具有更好的泛化能力和鲁棒性。且所提算法的实时性好,在计算资源受限的树莓派4B上测试时在所有场景的平均决策时间均优于0.6 s,具有搭载在探测器上进行实时规划的潜力。 展开更多
关键词 轨道修正机动 小天体飞越 不确定摄动 近端策略优化
在线阅读 下载PDF
基于DRL-PPO求解柔性作业车间调度问题
11
作者 董海 鲁婷婷 《计算机应用研究》 北大核心 2025年第9期2722-2729,共8页
柔性作业车间动态调度问题因其动态性和复杂性成为智能制造领域的研究重点。针对柔性作业车间动态调度问题的复杂性与动态性,提出了一种基于深度强化学习和近端策略优化相结合的调度优化算法。该算法通过构建马尔可夫决策过程模型,定义... 柔性作业车间动态调度问题因其动态性和复杂性成为智能制造领域的研究重点。针对柔性作业车间动态调度问题的复杂性与动态性,提出了一种基于深度强化学习和近端策略优化相结合的调度优化算法。该算法通过构建马尔可夫决策过程模型,定义状态空间、动作空间及多目标奖励函数,设计了离线训练与在线应用相结合的两阶段动态调度框架,以提升调度策略的泛化能力和鲁棒性。实验在不同规模实例中验证了算法的性能,结果表明提出方法在不同规模场景下均优于传统启发式算法和现有学习算法,尤其在大规模实例中最大完工时间降低了23.6%、最优性偏差减少了7.5个百分点,展现了卓越的适应性与优化能力。 展开更多
关键词 柔性作业车间调度问题 深度强化学习 近端策略优化 智能制造
在线阅读 下载PDF
基于掩码式PPO算法的航空发动机维修决策研究
12
作者 陈保利 翟运开 +3 位作者 房晓敏 付捧枝 蔚陶 林志龙 《机械设计》 北大核心 2025年第6期101-106,共6页
航空发动机在服役期间的性能退化会增大运行风险,需要对其不同程度的退化状态开展视情维修策略研究。基于马尔可夫决策过程,研究了一种先进的深度强化学习算法——掩码式近端策略优化算法(proximal policy optimization,PPO),旨在为航... 航空发动机在服役期间的性能退化会增大运行风险,需要对其不同程度的退化状态开展视情维修策略研究。基于马尔可夫决策过程,研究了一种先进的深度强化学习算法——掩码式近端策略优化算法(proximal policy optimization,PPO),旨在为航空发动机视情维修策略的决策过程提供优化方案。通过构建航空发动机退化状态仿真模型,掩码式PPO算法根据航空发动机不同的退化程度自适应地确定最佳的维修策略。与传统PPO算法相比,掩码式PPO算法在训练过程中表现出更快的收敛速度,能够更有效地控制发动机整个服役周期内的维修成本,进一步验证了航空发动机视情维修策略与掩码式PPO算法结合是一种提升维修决策水平的有效方法。 展开更多
关键词 近端策略优化算法 马尔可夫决策过程 深度强化学习 视情维修策略
在线阅读 下载PDF
基于PPO算法的CIES低碳优化调度方法 被引量:2
13
作者 陈凡 吴凌霄 +2 位作者 王曼 吕干云 张小莲 《电力工程技术》 北大核心 2024年第6期88-99,共12页
阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优... 阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。 展开更多
关键词 园区综合能源系统(CIES) 优化调度 近端策略优化(ppo)算法 阶梯式碳交易机制 惩罚系数 碳排放
在线阅读 下载PDF
基于自注意力PPO算法的智能配电网多设备协同无功优化控制策略 被引量:3
14
作者 张黎元 宋兴旺 +3 位作者 李冰洁 梁睿 刘长德 彭奕洲 《智慧电力》 北大核心 2024年第10期40-48,共9页
针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近... 针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近端策略优化(PPO)算法对策略网络进行优化训练,算法采用多头自注意力网络获取配电网的实时状态特征,并通过剪切策略梯度法动态控制策略网络的更新幅度;最后,在改进IEEE69节点系统进行仿真验证。结果表明,所提算法的控制性能优于现有先进强化学习算法。 展开更多
关键词 配电网 分布式光伏 电压无功控制 多头自注意力 近端策略优化算法
在线阅读 下载PDF
基于PPO算法的电热氢耦合综合能源系统优化调度 被引量:3
15
作者 梁涛 张晓婵 +2 位作者 谭建鑫 井延伟 吕梁年 《太阳能学报》 EI CAS CSCD 北大核心 2024年第11期73-83,共11页
为改变“源随荷动”的传统运作模式并增加储能,实现能源网、负荷、储能等各环节协调互动,建立电热氢耦合综合能源系统(ETHC-IES)优化调度,其中应用氢储能实现安全稳定运行的“源-网-荷-储”的新型综合能源系统成为目前的研究热点。以降... 为改变“源随荷动”的传统运作模式并增加储能,实现能源网、负荷、储能等各环节协调互动,建立电热氢耦合综合能源系统(ETHC-IES)优化调度,其中应用氢储能实现安全稳定运行的“源-网-荷-储”的新型综合能源系统成为目前的研究热点。以降低综合能源系统运行成本并减少弃风弃光为目标,将ETHC-IES优化调度问题转换为马尔可夫决策过程(MDP),提出应用基于连续动作的近端策略优化算法(PPO)的综合能源系统优化调度方法。首先建立电热氢储能各部分的数学模型,综合考虑功率平衡,安全状态等约束条件,然后采用PPO算法对模型进行求解,以提高经济性和减少弃风弃光为优化目标,重新设计深度强化学习模型的动作空间、状态空间、奖励函数等,智能体通过训练学习实现ETHC-IES的动态调度优化决策。最后,通过仿真验证所提出模型和优化方法的有效性和优越性。 展开更多
关键词 强化学习 储能 可再生能源 近端策略优化 ETHC-IES
在线阅读 下载PDF
面向无人机集群察打场景的PPO算法设计 被引量:1
16
作者 李俊慧 张振华 +2 位作者 边疆 聂天常 车博山 《火力与指挥控制》 CSCD 北大核心 2024年第3期25-34,共10页
无人机集群决策问题是智能化战争的重要研究方向。以构建的典型无人机集群侦察打击的任务场景为例,研究复杂不确定条件下的无人机集群任务分配与运动规划问题。针对该问题,从战场环境模型参数化设计与典型集群侦察打击任务角度,阐述任... 无人机集群决策问题是智能化战争的重要研究方向。以构建的典型无人机集群侦察打击的任务场景为例,研究复杂不确定条件下的无人机集群任务分配与运动规划问题。针对该问题,从战场环境模型参数化设计与典型集群侦察打击任务角度,阐述任务决策的复杂性与战场环境不确定性。设计通用性较强的状态空间、奖励函数、动作空间和策略网络,其中,为捕捉多元态势信息,设计并处理了多种类型特征作为状态空间,同时设计与察打任务紧密相关的多种类型奖励;动作策略输出采取主谓宾的形式,更好表达复杂操作;策略网络设计了编码器-时序聚合-注意力机制-解码器结构,充分融合特征信息,促进了训练效果。基于近端策略优化算法(proximal policy optimization,PPO)的深度强化学习(deep reinforcement learning,DRL)进行求解。最后,通过仿真环境实验验证了无人机集群在复杂不确定条件下实现察打任务决策的可行性和有效性,展现了集群任务分配与运动规划的智能性。 展开更多
关键词 近端策略优化算法设计 任务分配 运动规划 侦察打击 决策
在线阅读 下载PDF
基于PPO的异构UUV集群任务分配算法 被引量:2
17
作者 董经纬 姚尧 +2 位作者 冯景祥 李亚哲 尤岳 《舰船科学技术》 北大核心 2024年第12期84-89,共6页
无人水下航行器(Unmanned Underwater Vehicle,UUV)集群的任务分配问题是UUV集群形成水下功能的重要问题之一,但是,受限于通信以及探测能力,UUV在水下只能获取有限的信息,不能得到很好的应用。提出一种基于深度强化学习的任务分配算法,... 无人水下航行器(Unmanned Underwater Vehicle,UUV)集群的任务分配问题是UUV集群形成水下功能的重要问题之一,但是,受限于通信以及探测能力,UUV在水下只能获取有限的信息,不能得到很好的应用。提出一种基于深度强化学习的任务分配算法,针对水下信息缺失、奖励稀少的问题,在近端策略优化算法的基础上加入Curiosity模块,给智能体一种减小环境中不确定性的期望,鼓励UUV探索环境中不可预测的部分,实现UUV集群的最优任务分配。最后的仿真实验表明,相较于传统智能算法,该方法收敛更快,可靠性更强。 展开更多
关键词 任务分配 近端策略优化算法 集群
在线阅读 下载PDF
异构群智感知PPO多目标任务指派方法
18
作者 杨潇 郭一楠 +1 位作者 吉建娇 刘旭 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第6期1056-1066,共11页
现有移动群智感知系统的任务指派主要面向单一类型移动用户展开,对于存在多种类型移动用户的异构群智感知任务指派研究相对缺乏.为此,本文针对异质移动用户,定义其区域可达性,并给出感知子区域类型划分.进而,兼顾感知任务数量和移动用... 现有移动群智感知系统的任务指派主要面向单一类型移动用户展开,对于存在多种类型移动用户的异构群智感知任务指派研究相对缺乏.为此,本文针对异质移动用户,定义其区域可达性,并给出感知子区域类型划分.进而,兼顾感知任务数量和移动用户规模的时变性,构建了动态异构群智感知系统任务指派的多目标约束优化模型.模型以最大化感知质量和最小化感知成本为目标,综合考虑用户的最大任务执行数量、无人机的受限工作时间等约束.为解决该优化问题,本文提出一种基于近端策略优化的多目标进化优化算法.采用近端策略优化,根据种群的当前进化状态,选取具有最高奖励值的进化算子,生成子代种群.面向不同异构群智感知实例,与多种算法的对比实验结果表明,所提算法获得的Pareto最优解集具有最佳的收敛性和分布性,进化算子选择策略可以有效提升对时变因素的适应能力,改善算法性能. 展开更多
关键词 异构群智感知 多目标优化 强化学习 近端策略优化
在线阅读 下载PDF
基于PPO算法的不同驾驶风格跟车模型研究
19
作者 闫鑫 黄志球 +1 位作者 石帆 徐恒 《计算机科学》 CSCD 北大核心 2024年第9期223-232,共10页
自动驾驶对于减少交通堵塞、提高驾驶舒适性具有非常重要的作用,如何提高人们对自动驾驶技术的接受程度仍具有重要的研究意义。针对不同需求的人群定制不同的驾驶风格,可以帮助驾驶人理解自动驾驶行为,提高驾驶人的乘车体验,在一定程度... 自动驾驶对于减少交通堵塞、提高驾驶舒适性具有非常重要的作用,如何提高人们对自动驾驶技术的接受程度仍具有重要的研究意义。针对不同需求的人群定制不同的驾驶风格,可以帮助驾驶人理解自动驾驶行为,提高驾驶人的乘车体验,在一定程度上消除驾驶人对使用自动驾驶系统的心理抵抗性。通过分析自动驾驶场景下的跟车行为,提出基于PPO算法的不同驾驶风格的深度强化学习模型设计方案。首先分析德国高速公路车辆行驶数据集(HDD)中大量驾驶行为轨迹,根据跟车时距(THW)、跟车距离(DHW)、行车加速度以及跟车速度特征进行归类,提取激进型的驾驶风格和稳健型的驾驶风格的特征数据,以此为基础编码能够反映驾驶人风格的奖励函数,经过迭代学习生成不同驾驶风格的深度强化学习模型,并在highway env平台上进行道路模拟。实验结果表明,基于PPO算法的不同风格驾驶模型具有完成任务目标的能力,且与传统的智能驾驶模型(IDM)相比,能够在驾驶行为中准确反映出不同的驾驶风格。 展开更多
关键词 自动驾驶 智能驾驶模型 强化学习 ppo算法 主成分分析 K-MEANS
在线阅读 下载PDF
基于近端策略优化的两栖无人平台路径规划算法研究 被引量:1
20
作者 左哲 覃卫 +2 位作者 徐梓洋 李寓安 陈泰然 《北京理工大学学报》 EI CAS 北大核心 2025年第1期19-25,共7页
为解决水陆两栖无人平台在复杂环境中的路径规划问题,针对传统方法难以应对动态障碍物和多变环境的局限性,提出了一种基于近端策略优化(PPO)的路径规划算法,包含四种感知信息输入方案以及速度强化奖励函数,适应动态和静态环境.该算法通... 为解决水陆两栖无人平台在复杂环境中的路径规划问题,针对传统方法难以应对动态障碍物和多变环境的局限性,提出了一种基于近端策略优化(PPO)的路径规划算法,包含四种感知信息输入方案以及速度强化奖励函数,适应动态和静态环境.该算法通过批次函数正则化、策略熵引入和自适应裁剪因子,显著提升了算法的收敛速度和稳定性.研究中采用了ROS仿真平台,结合Flatland物理引擎和PedSim插件,模拟了包含动态障碍物的多种复杂场景.实验结果表明,采用BEV+V状态空间输入结构和离散动作空间的两栖无人平台,在路径规划中展现出高成功率和低超时率,优于传统方法和其他方案.仿真和对比实验显示采用鸟瞰图与速度组合的状态空间数据结构配合速度强化奖励函数算法提高了性能,收敛速度提高25.58%,路径规划成功率提升25.54%,超时率下降13.73%. 展开更多
关键词 路径规划 两栖 无人平台 近端策略优化(ppo)
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部