期刊文献+
共找到267篇文章
< 1 2 14 >
每页显示 20 50 100
基于改进近端策略优化算法的AGV路径规划与任务调度 被引量:2
1
作者 祁璇 周通 +2 位作者 王村松 彭孝天 彭浩 《计算机集成制造系统》 北大核心 2025年第3期955-964,共10页
自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(... 自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(PPO)。首先,采用多步长动作选择策略增加AGV移动步长,将AGV动作集由原来的4个方向基础上增加了8个方向,优化最优路径;其次,改进动态奖励值函数,根据AGV当前状态实时调整奖励值大小,提高其学习能力;然后,基于不同改进方法比较其奖励值曲线图,验证算法收敛效率与最优路径距离;最后,采用多任务调度优化算法,设计了一种单AGV多任务调度优化算法,提高运输效率。结果表明:改进后的算法最优路径缩短了28.6%,改进后的算法相比于PPO算法收敛效率提升了78.5%,在处理更为复杂、需要高水平策略的任务时表现更佳,具有更强的泛化能力;将改进后的算法与Q学习、深度Q学习(DQN)算法、软演员-评论家(SAC)算法进行比较,算法效率分别提升了84.4%、83.7%、77.9%;单AGV多任务调度优化后,平均路径缩短了47.6%。 展开更多
关键词 自动导引小车 路径规划 任务调度 策略优化算法 强化学习
在线阅读 下载PDF
基于改进近端策略优化算法的移动机械臂抓取实验设计
2
作者 王永华 钟欣见 李明 《实验技术与管理》 CAS 北大核心 2024年第4期73-80,共8页
针对在训练移动机械臂时,近端策略优化算法的学习困难和易陷入局部最优问题,引入了6种可行的改进方法,包括优势值标准化、状态标准化、奖励缩放、策略熵、梯度裁剪和标准差限制,并且使用这些方法在数据采集和训练的各个阶段对近端策略... 针对在训练移动机械臂时,近端策略优化算法的学习困难和易陷入局部最优问题,引入了6种可行的改进方法,包括优势值标准化、状态标准化、奖励缩放、策略熵、梯度裁剪和标准差限制,并且使用这些方法在数据采集和训练的各个阶段对近端策略优化算法的步骤进行了调整,完成了对算法稳定性和学习效率的优化,并针对每个改进点设计了相关的实验。实验结果表明,在训练移动机械臂夹取物体的任务上,6个改进方法对近端策略优化算法均有不同程度的提升。改进后的PPO算法使移动机械臂的奖励曲线获得很大改善,能够迅速收敛到理想的结果。 展开更多
关键词 策略优化 移动机械臂 深度强化学习
在线阅读 下载PDF
基于改进近端策略优化算法的智能渗透路径研究
3
作者 王紫阳 王佳 +1 位作者 熊明亮 王文涛 《计算机科学》 CSCD 北大核心 2024年第S02期851-856,共6页
渗透路径规划是渗透测试的首要步骤,对实现渗透测试的自动化有重大意义。现有渗透路径规划研究多将渗透测试建模为完全可观测的理想过程,难以准确反映部分可观测性的实际渗透测试过程。鉴于强化学习在渗透测试领域的广泛应用,将渗透测... 渗透路径规划是渗透测试的首要步骤,对实现渗透测试的自动化有重大意义。现有渗透路径规划研究多将渗透测试建模为完全可观测的理想过程,难以准确反映部分可观测性的实际渗透测试过程。鉴于强化学习在渗透测试领域的广泛应用,将渗透测试过程建模为部分可观测的马尔可夫决策过程,从而更准确地模拟实际渗透测试过程。在此基础上,针对PPO算法使用全连接层拟合策略函数和价值函数无法提取部分可观测空间有效特征的问题,提出一种改进的PPO算法RPPO,其中策略网络和评估网络均融合全连接层和LSTM网络结构以提升其在未知环境提取特征的能力。同时,给出一种新的目标函数更新方法,以增强算法的鲁棒性和收敛性。实验结果表明,在不同网络场景中,相较于现有A2C,PPO和NDSPI-DQN算法,RPPO算法收敛轮次分别缩短了21.21%,28.64%,22.85%,获得累计奖励分别提升了66.01%,58.61%,132.64%,更适用于超过50台主机的较大规模网络环境。 展开更多
关键词 渗透测试 渗透路径规划 强化学习 策略优化 长短期记忆网络
在线阅读 下载PDF
基于近端策略优化的两栖无人平台路径规划算法研究 被引量:1
4
作者 左哲 覃卫 +2 位作者 徐梓洋 李寓安 陈泰然 《北京理工大学学报》 EI CAS 北大核心 2025年第1期19-25,共7页
为解决水陆两栖无人平台在复杂环境中的路径规划问题,针对传统方法难以应对动态障碍物和多变环境的局限性,提出了一种基于近端策略优化(PPO)的路径规划算法,包含四种感知信息输入方案以及速度强化奖励函数,适应动态和静态环境.该算法通... 为解决水陆两栖无人平台在复杂环境中的路径规划问题,针对传统方法难以应对动态障碍物和多变环境的局限性,提出了一种基于近端策略优化(PPO)的路径规划算法,包含四种感知信息输入方案以及速度强化奖励函数,适应动态和静态环境.该算法通过批次函数正则化、策略熵引入和自适应裁剪因子,显著提升了算法的收敛速度和稳定性.研究中采用了ROS仿真平台,结合Flatland物理引擎和PedSim插件,模拟了包含动态障碍物的多种复杂场景.实验结果表明,采用BEV+V状态空间输入结构和离散动作空间的两栖无人平台,在路径规划中展现出高成功率和低超时率,优于传统方法和其他方案.仿真和对比实验显示采用鸟瞰图与速度组合的状态空间数据结构配合速度强化奖励函数算法提高了性能,收敛速度提高25.58%,路径规划成功率提升25.54%,超时率下降13.73%. 展开更多
关键词 路径规划 两栖 无人平台 策略优化(PPO)
在线阅读 下载PDF
基于近端策略优化的数据中心任务调度算法
5
作者 徐涛 常怡明 刘才华 《计算机工程与设计》 北大核心 2025年第3期712-718,共7页
针对调度算法无法动态适应数据中心状态动态变化和用户需求多样化的问题,提出一种基于近端策略优化的数据中心两阶段任务调度算法。通过设计优先级函数为任务提供优先级,采用近端策略优化方法适应数据中心状态动态变化和用户需求的多样... 针对调度算法无法动态适应数据中心状态动态变化和用户需求多样化的问题,提出一种基于近端策略优化的数据中心两阶段任务调度算法。通过设计优先级函数为任务提供优先级,采用近端策略优化方法适应数据中心状态动态变化和用户需求的多样化。在任务选择阶段通过计算任务的优先级,优先调度高优先级任务;在物理服务器选择阶段,智能体根据实时的数据中心状态和用户需求,灵活地调整任务调度决策,实现资源的高效分配。实验结果表明,该算法性能优于现有的启发式算法以及常用强化学习算法。 展开更多
关键词 调度算法 数据中心 任务调度 强化学习 策略优化 优先级 两阶段
在线阅读 下载PDF
基于改进近端策略优化的无人艇自主避障方法
6
作者 孔超 王维 +2 位作者 皇苏斌 张义 孟丹 《计算机科学》 北大核心 2025年第4期40-48,共9页
无人艇自主避障已成为其拓展应用场景的一项关键挑战。传统方法下无人艇避障主要依赖于对环境的精细建模,然而,复杂海洋环境下无人艇难以获取完整的感知状态,导致模型精度不足。针对上述问题,提出了一种改进近端策略优化的无人艇自主避... 无人艇自主避障已成为其拓展应用场景的一项关键挑战。传统方法下无人艇避障主要依赖于对环境的精细建模,然而,复杂海洋环境下无人艇难以获取完整的感知状态,导致模型精度不足。针对上述问题,提出了一种改进近端策略优化的无人艇自主避障方法。首先,构建了基于马尔可夫决策过程的无人艇自主避障决策框架;然后,在近端策略优化算法中融合了循环神经网络的感知表征增强模块,提高无人艇对时序环境感知的记忆能力;最后,结合奖励重塑机制设计一套自主避障奖励函数,提升无人艇避障策略的优化速度。为了验证算法的有效性,在三维仿真平台下构建了典型无人艇自主避障算法的验证场景。实验结果表明,基于改进近端策略优化方法能够实现无人艇无碰撞自主航行,在模型收敛速度、碰撞率与超时率上均优于传统近端策略算法。 展开更多
关键词 无人艇 自主避障 策略优化 时序决策 奖励重塑
在线阅读 下载PDF
多智能体近端策略优化的动态武器目标分配
7
作者 宫华 王智昕 +1 位作者 许可 张勇 《兵器装备工程学报》 北大核心 2025年第7期93-104,共12页
针对地对空防御作战中武器与目标之间的动态关系,以及多类型武器协同作战的复杂性,研究了动态武器目标分配问题。考虑防护效能与成本之间的冲突关系,以最大化资产生存概率和最小化武器消耗成本为目标,结合武器制导能力、软杀伤武器充能... 针对地对空防御作战中武器与目标之间的动态关系,以及多类型武器协同作战的复杂性,研究了动态武器目标分配问题。考虑防护效能与成本之间的冲突关系,以最大化资产生存概率和最小化武器消耗成本为目标,结合武器制导能力、软杀伤武器充能特性、时间窗等关键约束,建立了多作战单元协同的动态武器目标分配优化模型。基于策略熵和随机噪声策略设计了改进的多智能体近端策略优化算法进行求解。实验仿真验证了所提出算法的有效性。 展开更多
关键词 地对空防御 动态武器目标分配 多智能体强化学习 策略优化 策略 随机噪声
在线阅读 下载PDF
基于多策略改进灰狼优化算法优化CNN-LSTM的IGBT寿命预测 被引量:2
8
作者 付聪 吴松荣 +2 位作者 柳博 张驰 王少惟 《半导体技术》 北大核心 2025年第2期161-169,共9页
针对绝缘栅双极型晶体管(IGBT)长期工作出现的老化失效问题,提出一种多策略改进灰狼优化算法优化卷积神经网络(CNN)和长短期记忆(LSTM)网络组合模型的IGBT寿命预测方法。分析IGBT的失效机理并建立CNN-LSTM组合预测模型。利用灰狼优化算... 针对绝缘栅双极型晶体管(IGBT)长期工作出现的老化失效问题,提出一种多策略改进灰狼优化算法优化卷积神经网络(CNN)和长短期记忆(LSTM)网络组合模型的IGBT寿命预测方法。分析IGBT的失效机理并建立CNN-LSTM组合预测模型。利用灰狼优化算法优化CNN-LSTM模型中的初始学习率等参数,为解决传统灰狼优化算法容易陷入局部最优解的问题,从最优解扰动、参数调整和搜索机制方面引入三种策略进行改进。最后,基于NASA研究中心提供的IGBT老化数据集对改进模型进行性能验证。仿真结果表明:对比LSTM、CNN-LSTM等模型,多策略改进灰狼优化算法优化的CNN-LSTM模型的均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)三个评价指标均为最优,可以有效应用于IGBT寿命预测。 展开更多
关键词 IGBT 长短期记忆网络 改进灰狼优化算法 莱维飞行策略 寿命预测
在线阅读 下载PDF
基于近端策略优化算法的燃料电池混合动力系统综合价值损耗最小能量管理方法 被引量:5
9
作者 李奇 刘鑫 +4 位作者 孟翔 谭逸 杨明泽 张世聪 陈维荣 《中国电机工程学报》 EI CSCD 北大核心 2024年第12期4788-4798,I0015,共12页
为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的... 为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的综合价值损耗最小为优化目标设置奖励函数,采用一种收敛速度较快的深度强化学习算法—近端策略优化算法求解,实现负载功率在燃料电池和锂电池间的合理有效分配,最后,采用市域动车组实际运行工况进行实验验证。实验结果表明,在训练工况下,所提方法相较基于等效氢耗最小能量管理方法和基于Q-learning能量管理方法,综合价值损耗分别降低19.71%和5.87%;在未知工况下,综合价值损耗分别降低18.05%和13.52%。结果表明,所提方法能够有效降低综合价值损耗,并具有较好的工况适应性。 展开更多
关键词 燃料电池混合动力系统 深度强化学习 综合价值损耗 策略优化算法 能量管理
在线阅读 下载PDF
近端策略优化的城市环境多智能体协作对抗方法
10
作者 米广铭 张辉 +1 位作者 张菁 卓力 《通信学报》 北大核心 2025年第3期94-108,共15页
城市环境由于其地理空间的复杂性及动态变化性,往往会令指挥系统变得低效且短视。针对该问题,提出了一种近端策略优化城市环境的多智能体协作对抗方法。首先,在建立完善的城市对抗环境的基础上,使用近端策略优化的演员-评论员网络算法... 城市环境由于其地理空间的复杂性及动态变化性,往往会令指挥系统变得低效且短视。针对该问题,提出了一种近端策略优化城市环境的多智能体协作对抗方法。首先,在建立完善的城市对抗环境的基础上,使用近端策略优化的演员-评论员网络算法进行求解;其次,针对多对一的评论网络采用嵌入方法来解决空间维度不同的异构智能体决策评价问题;再次,在近端策略优化的基础上,增加了自适应采样来辅助策略的更新;最后,对演员网络进行权重继承操作以帮助智能体迅速接管相应的任务。实验结果表明,相较于其他方法,所提方法的奖励回报提高了22.67%,收敛速度加快了8.14%,不仅可以满足城市环境下多个智能体协作对抗的决策,还能够兼容多异构智能体的协作对抗。 展开更多
关键词 深度强化学习 多智能体 协作对抗 策略优化 城市环境
在线阅读 下载PDF
基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度 被引量:3
11
作者 王桂兰 张海晓 +1 位作者 刘宏 曾康为 《计算机应用研究》 CSCD 北大核心 2024年第5期1508-1514,共7页
为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添... 为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添加碳捕集装置,解决了碳捕集装置耗电和捕碳需求之间的矛盾,进而实现了PIES的低碳化运行;通过采用近端策略优化算法对PIES进行动态调度,解决了源荷的不确定性,平衡了各种能源的供给需求,进而降低了系统的运行成本。实验结果表明:该方法实现了不确定性源荷的实时响应,并相比于DDPG(deep deterministic policy gradient)和DQN(deep Q network)方法在低碳化经济运行方面具有有效性及先进性。 展开更多
关键词 园区综合能源系统 碳捕集 不确定性 低碳经济调度 策略优化算法
在线阅读 下载PDF
基于多智能体近端策略网络的数据中心双层优化调度 被引量:1
12
作者 杨秀 张相寅 +3 位作者 黄海涛 余文昶 陈永刚 曹俊波 《南方电网技术》 北大核心 2025年第4期107-121,131,共16页
随着新一代信息通信技术,如5G、云计算和人工智能的不断演进,世界正迅速迈入数字经济的快车道。针对数据中心中可再生能源和工作负载预测的不确定性,提出了一种基于多智能体近端策略网络的数据中心双层优化调度方法。首先,建立了数据中... 随着新一代信息通信技术,如5G、云计算和人工智能的不断演进,世界正迅速迈入数字经济的快车道。针对数据中心中可再生能源和工作负载预测的不确定性,提出了一种基于多智能体近端策略网络的数据中心双层优化调度方法。首先,建立了数据中心双层时空优化调度框架,对数据中心工作负载、IT设备、空调设备进行详细建模;在此基础上,提出数据中心的双层优化调度模型,上层以互联网数据中心(Internet data center,IDC)运营管理商总运营成本最小为目标进行时间维度调度,下层以各IDC运行成本最低为目标进行空间维度调度;然后,介绍多智能体近端策略网络算法原理,设计数据中心双层优化调度模型的状态空间、动作空间和奖励函数。最后,针对算例进行离线训练和在线调度决策,仿真结果表明,所提模型和方法能够有效降低系统成本和能耗,实现工作负载的最佳分配,具有较好的经济性和鲁棒性。 展开更多
关键词 多智能体 数据中心 策略优化 时空调度 工作负载分配
在线阅读 下载PDF
多策略改进蜣螂优化算法的无人机航迹规划
13
作者 梅雨琳 曲良东 饶爽 《电子测量技术》 北大核心 2025年第11期67-77,共11页
针对蜣螂优化算法存在陷入局部最优、全局搜索能力不足致使无人机三维航迹规划效果不佳的问题,设计了一种多策略改进的蜣螂优化算法。通过构建三维空间模型,结合路径长度、威胁、高度和平滑度等因素,构建了综合评价函数。首先,采用混合... 针对蜣螂优化算法存在陷入局部最优、全局搜索能力不足致使无人机三维航迹规划效果不佳的问题,设计了一种多策略改进的蜣螂优化算法。通过构建三维空间模型,结合路径长度、威胁、高度和平滑度等因素,构建了综合评价函数。首先,采用混合混沌序列提升初始种群多样性;其次,在蜣螂滚球阶段引入“差分变异”算子以提升算法的局部搜索能力,并结合改进的正弦算法,通过概率切换机制进行个体更新,进一步提升算法的全局搜索性能;最后,在繁殖阶段引入了改进的螺旋搜索策略,增强算法跳出局部最优的能力。通过对6个基准函数的优化对比分析并展示粒子在搜索空间中的运动轨迹,结果表明改进后的算法在收敛速度、精确度和鲁棒性方面表现更优。将算法应用于三维无人机路径规划中,路径长度的最优值、平均值和最差值分别提升了0.41%、5.67%和18.03%,进一步验证了改进策略的有效性以及该算法在处理实际工程应用中的优越性。 展开更多
关键词 蜣螂优化算法 混合混沌映射 策略引导机制 改进螺旋搜索策略 三维无人机路径规划
在线阅读 下载PDF
基于近端策略优化的无人机辅助移动边缘计算
14
作者 胡静 李君 +2 位作者 李正权 徐钰龙 张圣 《计算机工程与设计》 北大核心 2025年第4期974-982,共9页
为更高效利用移动边缘计算(MEC)系统中的有限资源,提出一种基于近端策略优化(PPO)的无人机(UAV)辅助边缘卸载优化算法。通过联合优化任务卸载率、用户通信资源分配、无人机飞行角度和飞行速度,结合状态归一化算法,以最小化最大处理延迟... 为更高效利用移动边缘计算(MEC)系统中的有限资源,提出一种基于近端策略优化(PPO)的无人机(UAV)辅助边缘卸载优化算法。通过联合优化任务卸载率、用户通信资源分配、无人机飞行角度和飞行速度,结合状态归一化算法,以最小化最大处理延迟为目标。实验结果表明,所提算法能够快速收敛到最优且稳定性较强。与基线算法深度确定性策略梯度(DDPG)和Actor-critic(AC)相比,PPO算法在处理延迟方面较DDPG提升22%,较AC提升近48%。 展开更多
关键词 移动边缘计算 无人机 策略优化 计算卸载 深度强化学习 资源分配 状态归一化
在线阅读 下载PDF
基于近端策略优化的智能抗干扰决策算法 被引量:1
15
作者 马松 李黎 +2 位作者 黎伟 黄巍 王军 《通信学报》 EI CSCD 北大核心 2024年第8期249-257,共9页
针对现有基于深度强化学习的智能抗干扰方法应用于天地测控通信链路时,用于决策的深度神经网络结构复杂,卫星等飞行器资源受限,难以在有限的复杂度约束下独立完成复杂神经网络的及时训练,抗干扰决策无法收敛的问题,提出了一种基于近端... 针对现有基于深度强化学习的智能抗干扰方法应用于天地测控通信链路时,用于决策的深度神经网络结构复杂,卫星等飞行器资源受限,难以在有限的复杂度约束下独立完成复杂神经网络的及时训练,抗干扰决策无法收敛的问题,提出了一种基于近端策略优化的智能抗干扰决策算法。分别在飞行器和地面站部署决策神经网络和训练神经网络,地面站根据飞行器反馈的经验信息进行最优化离线训练,辅助决策神经网络进行参数更新,在满足飞行器资源约束的同时实现有效的抗干扰策略选择。仿真结果表明,与基于策略梯度和基于深度Q学习的决策算法相比,所提算法收敛速度提升37%,收敛后的系统容量提升25%。 展开更多
关键词 策略优化 深度强化学习 智能抗干扰 抗干扰决策
在线阅读 下载PDF
一种基于近端策略优化的服务功能链部署算法 被引量:1
16
作者 颜志 禹怀龙 +1 位作者 欧阳博 王耀南 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2869-2878,共10页
针对网络功能虚拟化(NFV)环境下高维度服务功能链(SFC)部署的高可靠低成本问题,该文提出了一种基于近端策略优化的服务功能链部署算法(PPO-ISRC)。首先综合考虑底层物理服务器特征和服务功能链特征,将服务功能链部署建模为马尔可夫决策... 针对网络功能虚拟化(NFV)环境下高维度服务功能链(SFC)部署的高可靠低成本问题,该文提出了一种基于近端策略优化的服务功能链部署算法(PPO-ISRC)。首先综合考虑底层物理服务器特征和服务功能链特征,将服务功能链部署建模为马尔可夫决策过程,然后,以最大化服务率和最小化资源消耗为优化目标设置奖励函数,最后,采用近端策略优化方法对服务功能链部署策略求解。仿真实验结果表明,与启发式算法(FFD)和深度确定性策略梯度算法(DDPG)相比,所提算法具有收敛速度快,稳定性高的特点。在满足服务质量的要求下,降低了部署成本,并提高了网络服务可靠性。 展开更多
关键词 网络功能虚拟化 服务功能链 深度强化学习 策略优化
在线阅读 下载PDF
基于裁剪近端策略优化算法的软机械臂不规则物体抓取 被引量:2
17
作者 余家宸 杨晔 《计算机应用》 CSCD 北大核心 2024年第11期3629-3638,共10页
为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(... 为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(PPO)算法的性能,提升了它在高维状态空间的稳定性和学习效率。首先定义了软体机械臂的状态空间和动作空间,并设计了模仿八爪鱼触手的软体机械臂模型;其次利用Matlab的SoRoSim(Soft Robot Simulation)工具箱进行建模,同时定义了结合连续和稀疏函数的环境奖励函数;最后构建了基于Matlab的仿真平台,通过Python脚本和滤波器对不规则物体图像进行预处理,并利用Redis缓存高效传输处理后的轮廓数据至仿真平台。与TRPO(Trust Region Policy Optimization)和SAC(Soft Actor-Critic)算法的对比实验结果表明,CPPO算法在软体机械臂抓取不规则物体任务中达到了86.3%的成功率,比TRPO算法高出了3.6个百分点。这说明CPPO算法可以应用于软体机械臂控制,可在非结构化环境下为软体机械臂在复杂抓取任务中的应用提供重要参考。 展开更多
关键词 深度强化学习 策略优化算法 不规则物体检测 软体机械臂 机械臂抓取
在线阅读 下载PDF
无人机辅助MEC车辆任务卸载与功率控制近端策略优化算法 被引量:2
18
作者 谭国平 易文雄 +1 位作者 周思源 胡鹤轩 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第6期2361-2371,共11页
无人机(UAVs)辅助移动边缘计算(MEC)架构是灵活处理车载计算密集、时延敏感型任务的有效模式。但是,如何在处理任务时延与能耗之间达到最佳均衡,一直是此类车联网应用中长期存在的挑战性问题。为了解决该问题,该文基于无人机辅助移动边... 无人机(UAVs)辅助移动边缘计算(MEC)架构是灵活处理车载计算密集、时延敏感型任务的有效模式。但是,如何在处理任务时延与能耗之间达到最佳均衡,一直是此类车联网应用中长期存在的挑战性问题。为了解决该问题,该文基于无人机辅助移动边缘计算架构,考虑无线信道时变特性及车辆高移动性等动态变化特征,构建出基于非正交多址(NOMA)的车载任务卸载与功率控制优化问题模型,然后将该问题建模成马尔可夫决策过程,并提出一种基于近端策略优化(PPO)的分布式深度强化学习算法,使得车辆只需根据自身获取局部信息,自主决策任务卸载量及相关发射功率,从而达到时延与能耗的最佳均衡性能。仿真结果表明,与现有方法相比较,本文所提任务卸载与功率控制近端策略优化方案不仅能够显著获得更优的时延与能耗性能,所提方案平均系统代价性能提升至少13%以上,而且提供一种性能均衡优化方法,能够通过调节用户偏好权重因子,达到系统时延与能耗水平之间的最佳均衡。 展开更多
关键词 无人机辅助计算 移动边缘计算 策略优化 深度强化学习 功率控制和任务卸载
在线阅读 下载PDF
基于改进PPO算法的混合动力汽车能量管理策略
19
作者 马超 孙统 +2 位作者 曹磊 杨坤 胡文静 《河北科技大学学报》 北大核心 2025年第3期237-247,共11页
为了提高功率分流式混合动力汽车(hybrid electric vehicle, HEV)的经济性,建立了HEV整车的纵向动力学模型,并提出了一种基于策略熵优化的改进近端策略优化(proximal policy optimization, PPO)算法的能量管理策略(energy management st... 为了提高功率分流式混合动力汽车(hybrid electric vehicle, HEV)的经济性,建立了HEV整车的纵向动力学模型,并提出了一种基于策略熵优化的改进近端策略优化(proximal policy optimization, PPO)算法的能量管理策略(energy management strategy, EMS)。在一般PPO算法基础上,通过采用经验池机制简化算法框架,只使用1个深度神经网络进行交互训练和更新,以减少策略网络参数同步的复杂性;为了有效探索环境并学习更高效的策略,在损失函数中增加策略熵,以促进智能体在探索与利用之间达到平衡,避免策略过早收敛至局部最优解。结果表明,这种基于单策略网络改进PPO算法的EMS相比于基于双策略网络PPO的EMS,在UDDS工况和NEDC工况下,均能更好地维持电池的荷电状态(state of charge, SOC),同时等效燃油消耗分别降低了8.5%和1.4%,并取得了与基于动态规划(dynamic programming, DP)算法的EMS相近的节能效果。所提改进PPO算法能有效提高HEV的燃油经济性,可为HEV的EMS设计与开发提供参考。 展开更多
关键词 车辆工程 混合动力汽车 能量管理策略 深度强化学习 策略优化
在线阅读 下载PDF
基于近端策略优化算法和Mask-TIT网络的多功能雷达干扰决策方法
20
作者 娄雨璇 孙闽红 尹帅 《数据采集与处理》 CSCD 北大核心 2024年第6期1355-1369,共15页
为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask?TIT(Mask?Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对... 为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask?TIT(Mask?Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对抗场景建模为部分可观察马尔可夫决策过程(Partially observable Markov decision process,POMDP),根据雷达工作原理设计了新的状态转移函数和奖励函数,并根据多功能雷达层级模型设计了观测空间。其次,利用Transformer对序列数据的表征能力和雷达干扰样式的特点设计了一种Mask?TIT网络结构,用于构建更强大的Actor?Critic网络架构。最后,使用近端策略优化算法进行优化学习。实验结果表明,该算法较现有方法收敛所需交互数据平均减少25.6%,并且收敛后的方差显著降低。 展开更多
关键词 雷达干扰决策 部分可观察马尔可夫决策过程 强化学习 TRANSFORMER 策略优化
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部