期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
混合动作空间下的多设备边缘计算卸载方法
1
作者 张冀 齐国梁 +1 位作者 朵春红 龚雯雯 《计算机工程与应用》 CSCD 北大核心 2024年第10期301-310,共10页
为降低多设备多边缘服务器场景中设备层级的总成本,并解决现有深度强化学习(deep reinforcement learning,DRL)只支持单一动作空间的算法局限性,提出基于混合决策的多智能体深度确定性策略梯度方法(hybrid-based multi-agent deep deter... 为降低多设备多边缘服务器场景中设备层级的总成本,并解决现有深度强化学习(deep reinforcement learning,DRL)只支持单一动作空间的算法局限性,提出基于混合决策的多智能体深度确定性策略梯度方法(hybrid-based multi-agent deep determination policy gradient,H-MADDPG)。首先考虑物联网设备/服务器计算能力随负载的动态变化、时变的无线传输信道增益、能量收集的未知性、任务量不确定性多种复杂的环境条件,建立MEC系统模型;其次以一段连续时隙内综合时延、能耗的总成本最小作为优化目标建立问题模型;最后将问题以马尔科夫决策过程(Markov decision procession,MDP)的形式交付给H-MADDPG,在价值网络的辅助下训练并行的两个策略网络,为设备输出离散的服务器选择及连续的任务卸载率。实验结果表明,H-MADDPG方法具有良好的收敛性和稳定性,从计算任务是否密集、延迟是否敏感等不同角度进行观察,H-MADDPG系统整体回报优于Local、OffLoad和DDPG,在计算密集型的任务需求下也能保持更大的系统吞吐量。 展开更多
关键词 物联网(IoT) 边缘计算卸载 多智能体深度确定性策略梯度(MADDPG) 混合动作空间
在线阅读 下载PDF
面向狭窄环境的安全泊车路径规划算法研究
2
作者 管家意 李斌 +3 位作者 周傲 赵治国 林巧 陈广 《汽车工程》 北大核心 2025年第5期797-808,共12页
针对自动泊车系统中路径规划的安全性、实时性和可行性问题,本文提出一种基于混合动作空间约束强化学习的泊车路径规划算法。具体地,该算法利用混合动作空间强化学习框架将离散动作和连续参数相结合实现参数化轨迹规划,提高了规划路径... 针对自动泊车系统中路径规划的安全性、实时性和可行性问题,本文提出一种基于混合动作空间约束强化学习的泊车路径规划算法。具体地,该算法利用混合动作空间强化学习框架将离散动作和连续参数相结合实现参数化轨迹规划,提高了规划路径的可执行性;在此基础上设计一种混合动作空间的约束强化学习算法实现安全策略优化,确保了泊车路径的安全性。此外,在模型训练过程中引入课程学习机制逐步引导策略探索,增强了模型训练稳定性和收敛速度。最后,在垂直车位和平行车位进行广泛的对比和消融实验,实验结果表明所提出的泊车路径规划算法在成功率、安全性和实时性等指标上均表现出色,且综合性能明显优于现有基线算法。 展开更多
关键词 自动泊车 混合动作空间强化学习 路径规划 安全约束
在线阅读 下载PDF
基于混合近端策略优化的交叉口信号相位与配时优化方法 被引量:11
3
作者 陈喜群 朱奕璋 吕朝锋 《交通运输系统工程与信息》 EI CSCD 北大核心 2023年第1期106-113,共8页
交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相... 交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相冲突。为此,本文提出基于混合近端策略优化(Hybrid Proximal Policy Optimization,HPPO)的交叉口信号相位与配时优化方法。首先在考虑相位时间实际应用边界条件约束下,将信号控制动作定义为参数化动作;然后通过提取交通流状态信息并输入到双策略网络,自适应生成下一相位及其相位持续时间,并通过执行动作后的交通状态变化,评估获得奖励值,学习相位和相位时间之间的内在联系。搭建仿真平台,以真实交通流数据为输入对新方法进行测试与算法对比。结果表明:新方法与离散控制相比具有更低的决策频率和更优的控制效果,车辆平均行程时间和车道平均排队长度分别降低了27.65%和23.65%。 展开更多
关键词 智能交通 混合动作空间 深度强化学习 混合近端策略优化 智能体设计
在线阅读 下载PDF
基于强化学习的灾区应急无人机网络服务公平性最大化方案
4
作者 李槐城 彭舰 +2 位作者 黄文 沈群力 廖思睿 《计算机应用研究》 北大核心 2025年第8期2452-2459,共8页
现有研究无人机灾区应急通信服务的方法在全局环境信息下优化网络性能,存在组网效率低和资源分配不均衡的问题,在灾区环境下难以维持平衡的通信服务,导致部分用户无法被及时救援。针对上述不足,提出并解决了无人机通信质量最大化问题:... 现有研究无人机灾区应急通信服务的方法在全局环境信息下优化网络性能,存在组网效率低和资源分配不均衡的问题,在灾区环境下难以维持平衡的通信服务,导致部分用户无法被及时救援。针对上述不足,提出并解决了无人机通信质量最大化问题:将问题建模为部分观测马尔可夫决策过程(partially observable Markov decision process,POMDP),设计基于深度强化学习的路径规划和资源分配方法,建立以网络吞吐量为服务质量指标,Jain’s公平性指数为均衡性准则的评估体系。设计基于目标解耦的奖励函数机制,构建参数化深度图强化学习网络,实现无人机轨迹规划与资源分配的联合优化。在16种不同条件的仿真环境下进行对比实验,该方法的性能优于其他四种方法,在公平性指标上较现有方法提升9.6%,并在不同指标上均验证了方法的有效性。 展开更多
关键词 无人机通信控制 公平性指数 深度强化学习 混合动作空间
在线阅读 下载PDF
基于深度强化学习的含储能船舶的海岛-海上渔排能源运输策略研究
5
作者 朱振山 陈豪 +1 位作者 陈炜龙 黄缨惠 《中国电机工程学报》 北大核心 2025年第7期2486-2499,I0004,共15页
针对海上渔排与风光资源富余岛屿能源交互问题,该文提出含全电力船舶(all-electricship,AES)的岛屿-海上渔排-海岸能源运输策略,利用能够很好处理海面风光不确定性问题以及适应较大规模能源转移模型的深度强化学习方法对上述能源运输模... 针对海上渔排与风光资源富余岛屿能源交互问题,该文提出含全电力船舶(all-electricship,AES)的岛屿-海上渔排-海岸能源运输策略,利用能够很好处理海面风光不确定性问题以及适应较大规模能源转移模型的深度强化学习方法对上述能源运输模型进行求解。首先,将移动式储能电池组细化为满充电池、空载电池以及不完全充电电池;其次,将上述能源运输问题建模为含混合动作空间的马尔可夫决策过程;考虑到针对混合动作空间问题,提出一种适用于混合动作空间的基于多批次前向传播的参数化双深度Q网络,该方法通过多步前向传递策略对不相关离散与连续动作进行解耦,减少了智能体训练过程中的波动性并能够收敛于更优的解;最后,通过算例仿真可知,所提策略能够有效实现各地点间能量转移,所提算法相较于传统适用于离散动作空间的深度强化学习方法更加灵活,在目标场景下能够实现更优运行。此外,在模型逐渐扩大的情况下,将该文方法与传统方法求解效果进行对比,验证所提方法在解决大规模能源运输问题的优势。 展开更多
关键词 深度强化学习 全电力船舶 移动式储能电池 混合动作空间
在线阅读 下载PDF
混合动作表示强化学习下的城市交叉口智慧信控方法
6
作者 王庞伟 王思淼 +3 位作者 雷方舒 徐京辉 王子鹏 王力 《交通运输系统工程与信息》 2025年第4期73-83,共11页
针对城市交叉口环境下单一离散或连续信号控制动作难以充分应对交通流量时空变化,以及现有强化学习方法无法同时解决混合动作空间中的可扩展性和动作依赖性问题,本文提出一种基于混合动作表示强化学习的城市交叉口智慧信控方法。首先,... 针对城市交叉口环境下单一离散或连续信号控制动作难以充分应对交通流量时空变化,以及现有强化学习方法无法同时解决混合动作空间中的可扩展性和动作依赖性问题,本文提出一种基于混合动作表示强化学习的城市交叉口智慧信控方法。首先,将交叉口智能体的动作空间设置为离散化信号相位选择及其相对应的连续性绿灯持续时间,并进行状态空间与奖励函数的一致性设计;其次,应用离散动作嵌入表和条件变分自编码器构建连续可解码的表示空间,将原始混合动作策略学习问题转化为隐式动作表示空间中的连续策略学习问题;再次,使用近端策略优化方法进行隐式动作表示空间策略训练,并通过解码器将输出动作解码为原始混合动作,与环境进行实时交互;最后,基于北京市高级别自动驾驶示范区实际数据开展测试验证。通过不同时段对比测试结果表明,本文所提方法相比于最优基准模型平均延误时间、平均排队长度和平均停车次数分别降低了2.57%~14.84%,4.00%~9.15%和7.25%~20.69%,达到了良好的城市交叉口信控优化效果。 展开更多
关键词 智能交通 交通信号控制 表示学习 混合动作空间 近端策略优化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部