期刊文献+
共找到146篇文章
< 1 2 8 >
每页显示 20 50 100
基于近端策略优化的两栖无人平台路径规划算法研究 被引量:1
1
作者 左哲 覃卫 +2 位作者 徐梓洋 李寓安 陈泰然 《北京理工大学学报》 EI CAS 北大核心 2025年第1期19-25,共7页
为解决水陆两栖无人平台在复杂环境中的路径规划问题,针对传统方法难以应对动态障碍物和多变环境的局限性,提出了一种基于近端策略优化(PPO)的路径规划算法,包含四种感知信息输入方案以及速度强化奖励函数,适应动态和静态环境.该算法通... 为解决水陆两栖无人平台在复杂环境中的路径规划问题,针对传统方法难以应对动态障碍物和多变环境的局限性,提出了一种基于近端策略优化(PPO)的路径规划算法,包含四种感知信息输入方案以及速度强化奖励函数,适应动态和静态环境.该算法通过批次函数正则化、策略熵引入和自适应裁剪因子,显著提升了算法的收敛速度和稳定性.研究中采用了ROS仿真平台,结合Flatland物理引擎和PedSim插件,模拟了包含动态障碍物的多种复杂场景.实验结果表明,采用BEV+V状态空间输入结构和离散动作空间的两栖无人平台,在路径规划中展现出高成功率和低超时率,优于传统方法和其他方案.仿真和对比实验显示采用鸟瞰图与速度组合的状态空间数据结构配合速度强化奖励函数算法提高了性能,收敛速度提高25.58%,路径规划成功率提升25.54%,超时率下降13.73%. 展开更多
关键词 路径规划 两栖 无人平台 策略优化(ppo)
在线阅读 下载PDF
基于近端策略优化算法的电力系统多类型储能爬坡功率分配策略
2
作者 王杰 苗世洪 +3 位作者 王廷涛 姚福星 励刚 汤伟 《高电压技术》 北大核心 2025年第9期4796-4806,I0020-I0025,共17页
随着新能源发电比例不断提高,由此引发的短时大规模功率爬坡事件愈加频繁,因此研究多类型储能爬坡功率分配策略对防范极端爬坡风险、保障系统稳定运行具有重要意义。该文提出一种面向紧急爬坡需求的多类型储能功率优化分配策略,引入深... 随着新能源发电比例不断提高,由此引发的短时大规模功率爬坡事件愈加频繁,因此研究多类型储能爬坡功率分配策略对防范极端爬坡风险、保障系统稳定运行具有重要意义。该文提出一种面向紧急爬坡需求的多类型储能功率优化分配策略,引入深度强化学习(deep reinforcement learning,DRL)方法以兼顾功率分配的准确性与时效性。首先,以绝热压缩空气储能(adiabatic compressed air energy storage,A-CAES)、风电联合储能、火电联合飞轮储能为代表,分析多类型储能的爬坡互补特性,重点研究A-CAES的非线性热动-气动耦合特征及风储系统的风机转子动能瞬态响应行为,并据此构建多类型储能爬坡功率响应模型;其次,将功率优化分配问题转化为适合DRL的马尔可夫决策过程,并引入学习率动态衰减、策略熵以及状态归一化等训练机制,提出基于近端策略优化算法的电力系统多类型储能爬坡功率分配策略;最后,在多种爬坡场景下开展算例分析。结果表明,所提分配策略能够充分发挥各类储能的调控优势,提高爬坡功率分配的灵活性、精准性、时效性。 展开更多
关键词 策略优化算法 多类型储能 功率优化分配 爬坡场景 深度强化学习 绝热压缩空气储能
在线阅读 下载PDF
基于近端策略优化的数据中心任务调度算法
3
作者 徐涛 常怡明 刘才华 《计算机工程与设计》 北大核心 2025年第3期712-718,共7页
针对调度算法无法动态适应数据中心状态动态变化和用户需求多样化的问题,提出一种基于近端策略优化的数据中心两阶段任务调度算法。通过设计优先级函数为任务提供优先级,采用近端策略优化方法适应数据中心状态动态变化和用户需求的多样... 针对调度算法无法动态适应数据中心状态动态变化和用户需求多样化的问题,提出一种基于近端策略优化的数据中心两阶段任务调度算法。通过设计优先级函数为任务提供优先级,采用近端策略优化方法适应数据中心状态动态变化和用户需求的多样化。在任务选择阶段通过计算任务的优先级,优先调度高优先级任务;在物理服务器选择阶段,智能体根据实时的数据中心状态和用户需求,灵活地调整任务调度决策,实现资源的高效分配。实验结果表明,该算法性能优于现有的启发式算法以及常用强化学习算法。 展开更多
关键词 调度算法 数据中心 任务调度 强化学习 策略优化 优先级 两阶段
在线阅读 下载PDF
基于改进近端策略优化算法的AGV路径规划与任务调度 被引量:2
4
作者 祁璇 周通 +2 位作者 王村松 彭孝天 彭浩 《计算机集成制造系统》 北大核心 2025年第3期955-964,共10页
自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(... 自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(PPO)。首先,采用多步长动作选择策略增加AGV移动步长,将AGV动作集由原来的4个方向基础上增加了8个方向,优化最优路径;其次,改进动态奖励值函数,根据AGV当前状态实时调整奖励值大小,提高其学习能力;然后,基于不同改进方法比较其奖励值曲线图,验证算法收敛效率与最优路径距离;最后,采用多任务调度优化算法,设计了一种单AGV多任务调度优化算法,提高运输效率。结果表明:改进后的算法最优路径缩短了28.6%,改进后的算法相比于PPO算法收敛效率提升了78.5%,在处理更为复杂、需要高水平策略的任务时表现更佳,具有更强的泛化能力;将改进后的算法与Q学习、深度Q学习(DQN)算法、软演员-评论家(SAC)算法进行比较,算法效率分别提升了84.4%、83.7%、77.9%;单AGV多任务调度优化后,平均路径缩短了47.6%。 展开更多
关键词 自动导引小车 路径规划 任务调度 策略优化算法 强化学习
在线阅读 下载PDF
基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略
5
作者 卢昱宏 范培潇 +1 位作者 杨军 李蕊 《电力自动化设备》 北大核心 2025年第10期135-143,共9页
随着电动汽车数量的快速增长,其作为有限挂网储能设备参与电网调控的潜力备受关注,但用户行为的随机性与时空移动性给车网互动带来了挑战。为此,提出一种基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略。构建包含广义聚... 随着电动汽车数量的快速增长,其作为有限挂网储能设备参与电网调控的潜力备受关注,但用户行为的随机性与时空移动性给车网互动带来了挑战。为此,提出一种基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略。构建包含广义聚合电动汽车充电站的微电网负荷频率控制框架;基于闵可夫斯基求和方式,提出两阶段电动汽车充电站的可调控裕度计算方法;通过重要性采样比率剪切、多步经验回放、小批量优化等方式提升算法训练效率,并通过设计状态与动作空间、奖励函数以及选取合适超参数完成频率控制器的构建。仿真结果表明,所设计的控制器在训练时间和控制效果方面显著优于传统频率控制方法,为微电网的稳定运行提供了有力的技术支持。 展开更多
关键词 电动汽车 孤岛微电网 频率控制 策略优化算法 闵可夫斯基求和
在线阅读 下载PDF
基于近端策略优化算法的船舶横摇运动控制系统与试验研究
6
作者 邹远停 徐文华 焦甲龙 《振动与冲击》 北大核心 2025年第18期140-145,179,共7页
为了实现船舶在零航速下的减摇效果,提出了一种基于近端策略优化算法的减摇鳍控制策略,并在拖曳水池中开展了船模零航速减摇试验。首先,建立了S175船模装置及减摇测试系统,制定了基于强迫横摇装置及水池造波模型的横摇运动控制试验方案... 为了实现船舶在零航速下的减摇效果,提出了一种基于近端策略优化算法的减摇鳍控制策略,并在拖曳水池中开展了船模零航速减摇试验。首先,建立了S175船模装置及减摇测试系统,制定了基于强迫横摇装置及水池造波模型的横摇运动控制试验方案;然后,通过近端策略优化算法对船舶减摇运动进行学习训练,根据训练得到的决策奖励值实时生成减摇鳍最优拍动角度方案;最后,基于所建立的船舶横摇运动控制的软硬件测试系统,在水池中开展了规则波和不规则波下的船模横摇减摇试验。结果表明,所建立的减摇系统能够使船舶在各类海况下均具有较好的减摇效果。 展开更多
关键词 船舶横摇 零航速 减摇鳍 减摇试验 策略优化算法
在线阅读 下载PDF
多智能体近端策略优化的动态武器目标分配
7
作者 宫华 王智昕 +1 位作者 许可 张勇 《兵器装备工程学报》 北大核心 2025年第7期93-104,共12页
针对地对空防御作战中武器与目标之间的动态关系,以及多类型武器协同作战的复杂性,研究了动态武器目标分配问题。考虑防护效能与成本之间的冲突关系,以最大化资产生存概率和最小化武器消耗成本为目标,结合武器制导能力、软杀伤武器充能... 针对地对空防御作战中武器与目标之间的动态关系,以及多类型武器协同作战的复杂性,研究了动态武器目标分配问题。考虑防护效能与成本之间的冲突关系,以最大化资产生存概率和最小化武器消耗成本为目标,结合武器制导能力、软杀伤武器充能特性、时间窗等关键约束,建立了多作战单元协同的动态武器目标分配优化模型。基于策略熵和随机噪声策略设计了改进的多智能体近端策略优化算法进行求解。实验仿真验证了所提出算法的有效性。 展开更多
关键词 地对空防御 动态武器目标分配 多智能体强化学习 策略优化 策略 随机噪声
在线阅读 下载PDF
基于近端策略优化的Leader-Follower无人机编队控制
8
作者 霍琳 高永霖 +1 位作者 赵锐 李泽铎 《兵器装备工程学报》 北大核心 2025年第S1期180-187,共8页
针对多无人机编队系统中如何实现高效率自主飞行、提高编队飞行控制精度的问题,提出了一种基于近端策略优化(PPO)与领导-跟随(leader-follower)策略结合的无人机编队飞行控制方法。通过定义状态空间、动作空间建立无人机的观测模型和控... 针对多无人机编队系统中如何实现高效率自主飞行、提高编队飞行控制精度的问题,提出了一种基于近端策略优化(PPO)与领导-跟随(leader-follower)策略结合的无人机编队飞行控制方法。通过定义状态空间、动作空间建立无人机的观测模型和控制模型;设计MLP-GRU-ACTLayer的策略网络架构,对观测数据进行特征提取及动作输出,并在训练过程中通过分布熵和动作评估方法对策略进行优化;设计奖惩机制引导无人机学习航向、高度和速度的控制策略,实现编队飞行的稳定性和适应性;同时将基于三变量(航向、高度、速度)的领导-跟随策略应用到编队飞行中,实现整体编队飞行控制。仿真结果表明,该方法能够高效实现无人机编队飞行控制,较传统方法将高度最大差值减少了7 m,速度最大差值减少了5 m/s。 展开更多
关键词 无人机编队 策略优化 领导-跟随策略 三变量 编队保持
在线阅读 下载PDF
基于近端策略优化算法的燃料电池混合动力系统综合价值损耗最小能量管理方法 被引量:7
9
作者 李奇 刘鑫 +4 位作者 孟翔 谭逸 杨明泽 张世聪 陈维荣 《中国电机工程学报》 EI CSCD 北大核心 2024年第12期4788-4798,I0015,共12页
为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的... 为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的综合价值损耗最小为优化目标设置奖励函数,采用一种收敛速度较快的深度强化学习算法—近端策略优化算法求解,实现负载功率在燃料电池和锂电池间的合理有效分配,最后,采用市域动车组实际运行工况进行实验验证。实验结果表明,在训练工况下,所提方法相较基于等效氢耗最小能量管理方法和基于Q-learning能量管理方法,综合价值损耗分别降低19.71%和5.87%;在未知工况下,综合价值损耗分别降低18.05%和13.52%。结果表明,所提方法能够有效降低综合价值损耗,并具有较好的工况适应性。 展开更多
关键词 燃料电池混合动力系统 深度强化学习 综合价值损耗 策略优化算法 能量管理
在线阅读 下载PDF
近端策略优化的城市环境多智能体协作对抗方法
10
作者 米广铭 张辉 +1 位作者 张菁 卓力 《通信学报》 北大核心 2025年第3期94-108,共15页
城市环境由于其地理空间的复杂性及动态变化性,往往会令指挥系统变得低效且短视。针对该问题,提出了一种近端策略优化城市环境的多智能体协作对抗方法。首先,在建立完善的城市对抗环境的基础上,使用近端策略优化的演员-评论员网络算法... 城市环境由于其地理空间的复杂性及动态变化性,往往会令指挥系统变得低效且短视。针对该问题,提出了一种近端策略优化城市环境的多智能体协作对抗方法。首先,在建立完善的城市对抗环境的基础上,使用近端策略优化的演员-评论员网络算法进行求解;其次,针对多对一的评论网络采用嵌入方法来解决空间维度不同的异构智能体决策评价问题;再次,在近端策略优化的基础上,增加了自适应采样来辅助策略的更新;最后,对演员网络进行权重继承操作以帮助智能体迅速接管相应的任务。实验结果表明,相较于其他方法,所提方法的奖励回报提高了22.67%,收敛速度加快了8.14%,不仅可以满足城市环境下多个智能体协作对抗的决策,还能够兼容多异构智能体的协作对抗。 展开更多
关键词 深度强化学习 多智能体 协作对抗 策略优化 城市环境
在线阅读 下载PDF
基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度 被引量:3
11
作者 王桂兰 张海晓 +1 位作者 刘宏 曾康为 《计算机应用研究》 CSCD 北大核心 2024年第5期1508-1514,共7页
为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添... 为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添加碳捕集装置,解决了碳捕集装置耗电和捕碳需求之间的矛盾,进而实现了PIES的低碳化运行;通过采用近端策略优化算法对PIES进行动态调度,解决了源荷的不确定性,平衡了各种能源的供给需求,进而降低了系统的运行成本。实验结果表明:该方法实现了不确定性源荷的实时响应,并相比于DDPG(deep deterministic policy gradient)和DQN(deep Q network)方法在低碳化经济运行方面具有有效性及先进性。 展开更多
关键词 园区综合能源系统 碳捕集 不确定性 低碳经济调度 策略优化算法
在线阅读 下载PDF
基于多智能体近端策略网络的数据中心双层优化调度 被引量:1
12
作者 杨秀 张相寅 +3 位作者 黄海涛 余文昶 陈永刚 曹俊波 《南方电网技术》 北大核心 2025年第4期107-121,131,共16页
随着新一代信息通信技术,如5G、云计算和人工智能的不断演进,世界正迅速迈入数字经济的快车道。针对数据中心中可再生能源和工作负载预测的不确定性,提出了一种基于多智能体近端策略网络的数据中心双层优化调度方法。首先,建立了数据中... 随着新一代信息通信技术,如5G、云计算和人工智能的不断演进,世界正迅速迈入数字经济的快车道。针对数据中心中可再生能源和工作负载预测的不确定性,提出了一种基于多智能体近端策略网络的数据中心双层优化调度方法。首先,建立了数据中心双层时空优化调度框架,对数据中心工作负载、IT设备、空调设备进行详细建模;在此基础上,提出数据中心的双层优化调度模型,上层以互联网数据中心(Internet data center,IDC)运营管理商总运营成本最小为目标进行时间维度调度,下层以各IDC运行成本最低为目标进行空间维度调度;然后,介绍多智能体近端策略网络算法原理,设计数据中心双层优化调度模型的状态空间、动作空间和奖励函数。最后,针对算例进行离线训练和在线调度决策,仿真结果表明,所提模型和方法能够有效降低系统成本和能耗,实现工作负载的最佳分配,具有较好的经济性和鲁棒性。 展开更多
关键词 多智能体 数据中心 策略优化 时空调度 工作负载分配
在线阅读 下载PDF
基于改进近端策略优化算法的移动机械臂抓取实验设计
13
作者 王永华 钟欣见 李明 《实验技术与管理》 CAS 北大核心 2024年第4期73-80,共8页
针对在训练移动机械臂时,近端策略优化算法的学习困难和易陷入局部最优问题,引入了6种可行的改进方法,包括优势值标准化、状态标准化、奖励缩放、策略熵、梯度裁剪和标准差限制,并且使用这些方法在数据采集和训练的各个阶段对近端策略... 针对在训练移动机械臂时,近端策略优化算法的学习困难和易陷入局部最优问题,引入了6种可行的改进方法,包括优势值标准化、状态标准化、奖励缩放、策略熵、梯度裁剪和标准差限制,并且使用这些方法在数据采集和训练的各个阶段对近端策略优化算法的步骤进行了调整,完成了对算法稳定性和学习效率的优化,并针对每个改进点设计了相关的实验。实验结果表明,在训练移动机械臂夹取物体的任务上,6个改进方法对近端策略优化算法均有不同程度的提升。改进后的PPO算法使移动机械臂的奖励曲线获得很大改善,能够迅速收敛到理想的结果。 展开更多
关键词 策略优化 移动机械臂 深度强化学习
在线阅读 下载PDF
基于改进近端策略优化的无人艇自主避障方法
14
作者 孔超 王维 +2 位作者 皇苏斌 张义 孟丹 《计算机科学》 北大核心 2025年第4期40-48,共9页
无人艇自主避障已成为其拓展应用场景的一项关键挑战。传统方法下无人艇避障主要依赖于对环境的精细建模,然而,复杂海洋环境下无人艇难以获取完整的感知状态,导致模型精度不足。针对上述问题,提出了一种改进近端策略优化的无人艇自主避... 无人艇自主避障已成为其拓展应用场景的一项关键挑战。传统方法下无人艇避障主要依赖于对环境的精细建模,然而,复杂海洋环境下无人艇难以获取完整的感知状态,导致模型精度不足。针对上述问题,提出了一种改进近端策略优化的无人艇自主避障方法。首先,构建了基于马尔可夫决策过程的无人艇自主避障决策框架;然后,在近端策略优化算法中融合了循环神经网络的感知表征增强模块,提高无人艇对时序环境感知的记忆能力;最后,结合奖励重塑机制设计一套自主避障奖励函数,提升无人艇避障策略的优化速度。为了验证算法的有效性,在三维仿真平台下构建了典型无人艇自主避障算法的验证场景。实验结果表明,基于改进近端策略优化方法能够实现无人艇无碰撞自主航行,在模型收敛速度、碰撞率与超时率上均优于传统近端策略算法。 展开更多
关键词 无人艇 自主避障 策略优化 时序决策 奖励重塑
在线阅读 下载PDF
考虑虚拟储能系统的建筑能源系统近端策略优化控制方法
15
作者 庄重 段梅梅 +3 位作者 黄艺璇 方凯杰 武泽清 徐延泽 《电力系统及其自动化学报》 北大核心 2025年第8期69-75,86,共8页
深度强化学习是实现建筑能源系统(building energy system,BES)优化控制的有效方法,但其实际应用面临模型训练收敛效率低和室温约束越限的挑战。为解决这一难题,提出一种考虑虚拟储能系统(virtual energy storage system,VESS)的BES近... 深度强化学习是实现建筑能源系统(building energy system,BES)优化控制的有效方法,但其实际应用面临模型训练收敛效率低和室温约束越限的挑战。为解决这一难题,提出一种考虑虚拟储能系统(virtual energy storage system,VESS)的BES近端策略优化(proximal policy optimization,PPO)控制方法。首先,基于建筑围护结构的热惰性特性,构建了建筑VESS模型,并提出了虚拟功率、虚拟容量和虚拟荷电状态3个VESS参数,用以量化热惰性提供的BES可调潜力;在此基础上,将包含VESS的BES模型转化为马尔可夫决策过程,并定义了相应的状态变量、控制动作、奖励函数和转移函数;最后,采用PPO算法对BES进行优化控制。算例结果表明,所提方法有效降低了BES运行成本和室温越限比例,同时显著提升了优化控制策略的生成速度。 展开更多
关键词 策略优化 马尔可夫决策过程 虚拟储能系统 建筑能源系统 优化控制
在线阅读 下载PDF
基于近端策略优化的无人机辅助移动边缘计算
16
作者 胡静 李君 +2 位作者 李正权 徐钰龙 张圣 《计算机工程与设计》 北大核心 2025年第4期974-982,共9页
为更高效利用移动边缘计算(MEC)系统中的有限资源,提出一种基于近端策略优化(PPO)的无人机(UAV)辅助边缘卸载优化算法。通过联合优化任务卸载率、用户通信资源分配、无人机飞行角度和飞行速度,结合状态归一化算法,以最小化最大处理延迟... 为更高效利用移动边缘计算(MEC)系统中的有限资源,提出一种基于近端策略优化(PPO)的无人机(UAV)辅助边缘卸载优化算法。通过联合优化任务卸载率、用户通信资源分配、无人机飞行角度和飞行速度,结合状态归一化算法,以最小化最大处理延迟为目标。实验结果表明,所提算法能够快速收敛到最优且稳定性较强。与基线算法深度确定性策略梯度(DDPG)和Actor-critic(AC)相比,PPO算法在处理延迟方面较DDPG提升22%,较AC提升近48%。 展开更多
关键词 移动边缘计算 无人机 策略优化 计算卸载 深度强化学习 资源分配 状态归一化
在线阅读 下载PDF
基于近端策略优化的智能抗干扰决策算法 被引量:1
17
作者 马松 李黎 +2 位作者 黎伟 黄巍 王军 《通信学报》 EI CSCD 北大核心 2024年第8期249-257,共9页
针对现有基于深度强化学习的智能抗干扰方法应用于天地测控通信链路时,用于决策的深度神经网络结构复杂,卫星等飞行器资源受限,难以在有限的复杂度约束下独立完成复杂神经网络的及时训练,抗干扰决策无法收敛的问题,提出了一种基于近端... 针对现有基于深度强化学习的智能抗干扰方法应用于天地测控通信链路时,用于决策的深度神经网络结构复杂,卫星等飞行器资源受限,难以在有限的复杂度约束下独立完成复杂神经网络的及时训练,抗干扰决策无法收敛的问题,提出了一种基于近端策略优化的智能抗干扰决策算法。分别在飞行器和地面站部署决策神经网络和训练神经网络,地面站根据飞行器反馈的经验信息进行最优化离线训练,辅助决策神经网络进行参数更新,在满足飞行器资源约束的同时实现有效的抗干扰策略选择。仿真结果表明,与基于策略梯度和基于深度Q学习的决策算法相比,所提算法收敛速度提升37%,收敛后的系统容量提升25%。 展开更多
关键词 策略优化 深度强化学习 智能抗干扰 抗干扰决策
在线阅读 下载PDF
一种基于近端策略优化的服务功能链部署算法 被引量:1
18
作者 颜志 禹怀龙 +1 位作者 欧阳博 王耀南 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2869-2878,共10页
针对网络功能虚拟化(NFV)环境下高维度服务功能链(SFC)部署的高可靠低成本问题,该文提出了一种基于近端策略优化的服务功能链部署算法(PPO-ISRC)。首先综合考虑底层物理服务器特征和服务功能链特征,将服务功能链部署建模为马尔可夫决策... 针对网络功能虚拟化(NFV)环境下高维度服务功能链(SFC)部署的高可靠低成本问题,该文提出了一种基于近端策略优化的服务功能链部署算法(PPO-ISRC)。首先综合考虑底层物理服务器特征和服务功能链特征,将服务功能链部署建模为马尔可夫决策过程,然后,以最大化服务率和最小化资源消耗为优化目标设置奖励函数,最后,采用近端策略优化方法对服务功能链部署策略求解。仿真实验结果表明,与启发式算法(FFD)和深度确定性策略梯度算法(DDPG)相比,所提算法具有收敛速度快,稳定性高的特点。在满足服务质量的要求下,降低了部署成本,并提高了网络服务可靠性。 展开更多
关键词 网络功能虚拟化 服务功能链 深度强化学习 策略优化
在线阅读 下载PDF
基于裁剪近端策略优化算法的软机械臂不规则物体抓取 被引量:2
19
作者 余家宸 杨晔 《计算机应用》 CSCD 北大核心 2024年第11期3629-3638,共10页
为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(... 为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(PPO)算法的性能,提升了它在高维状态空间的稳定性和学习效率。首先定义了软体机械臂的状态空间和动作空间,并设计了模仿八爪鱼触手的软体机械臂模型;其次利用Matlab的SoRoSim(Soft Robot Simulation)工具箱进行建模,同时定义了结合连续和稀疏函数的环境奖励函数;最后构建了基于Matlab的仿真平台,通过Python脚本和滤波器对不规则物体图像进行预处理,并利用Redis缓存高效传输处理后的轮廓数据至仿真平台。与TRPO(Trust Region Policy Optimization)和SAC(Soft Actor-Critic)算法的对比实验结果表明,CPPO算法在软体机械臂抓取不规则物体任务中达到了86.3%的成功率,比TRPO算法高出了3.6个百分点。这说明CPPO算法可以应用于软体机械臂控制,可在非结构化环境下为软体机械臂在复杂抓取任务中的应用提供重要参考。 展开更多
关键词 深度强化学习 策略优化算法 不规则物体检测 软体机械臂 机械臂抓取
在线阅读 下载PDF
无人机辅助MEC车辆任务卸载与功率控制近端策略优化算法 被引量:4
20
作者 谭国平 易文雄 +1 位作者 周思源 胡鹤轩 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第6期2361-2371,共11页
无人机(UAVs)辅助移动边缘计算(MEC)架构是灵活处理车载计算密集、时延敏感型任务的有效模式。但是,如何在处理任务时延与能耗之间达到最佳均衡,一直是此类车联网应用中长期存在的挑战性问题。为了解决该问题,该文基于无人机辅助移动边... 无人机(UAVs)辅助移动边缘计算(MEC)架构是灵活处理车载计算密集、时延敏感型任务的有效模式。但是,如何在处理任务时延与能耗之间达到最佳均衡,一直是此类车联网应用中长期存在的挑战性问题。为了解决该问题,该文基于无人机辅助移动边缘计算架构,考虑无线信道时变特性及车辆高移动性等动态变化特征,构建出基于非正交多址(NOMA)的车载任务卸载与功率控制优化问题模型,然后将该问题建模成马尔可夫决策过程,并提出一种基于近端策略优化(PPO)的分布式深度强化学习算法,使得车辆只需根据自身获取局部信息,自主决策任务卸载量及相关发射功率,从而达到时延与能耗的最佳均衡性能。仿真结果表明,与现有方法相比较,本文所提任务卸载与功率控制近端策略优化方案不仅能够显著获得更优的时延与能耗性能,所提方案平均系统代价性能提升至少13%以上,而且提供一种性能均衡优化方法,能够通过调节用户偏好权重因子,达到系统时延与能耗水平之间的最佳均衡。 展开更多
关键词 无人机辅助计算 移动边缘计算 策略优化 深度强化学习 功率控制和任务卸载
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部