检索结果-维普期刊中文期刊服务平台

混合动作空间下的多设备边缘计算卸载方法: 1; 作者张冀齐国梁 +1 位作者朵春红龚雯雯《计算机工程与应用》 CSCD 北大核心 2024年第10期301-310,共10页; 为降低多设备多边缘服务器场景中设备层级的总成本,并解决现有深度强化学习(deep reinforcement learning,DRL)只支持单一动作空间的算法局限性,提出基于混合决策的多智能体深度确定性策略梯度方法(hybrid-based multi-agent deep deter... 展开更多; 关键词物联网(IoT) 边缘计算卸载多智能体深度确定性策略梯度(MADDPG) 混合动作空间; 在线阅读下载PDF 职称材料

面向狭窄环境的安全泊车路径规划算法研究: 2; 作者管家意李斌 +3 位作者周傲赵治国林巧陈广《汽车工程》北大核心 2025年第5期797-808,共12页; 针对自动泊车系统中路径规划的安全性、实时性和可行性问题,本文提出一种基于混合动作空间约束强化学习的泊车路径规划算法。具体地,该算法利用混合动作空间强化学习框架将离散动作和连续参数相结合实现参数化轨迹规划,提高了规划路径... 展开更多; 关键词自动泊车混合动作空间强化学习路径规划安全约束; 在线阅读下载PDF 职称材料

基于混合近端策略优化的交叉口信号相位与配时优化方法被引量：11: 3; 作者陈喜群朱奕璋吕朝锋《交通运输系统工程与信息》 EI CSCD 北大核心 2023年第1期106-113,共8页; 交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相... 展开更多; 关键词智能交通混合动作空间深度强化学习混合近端策略优化智能体设计; 在线阅读下载PDF 职称材料

基于强化学习的灾区应急无人机网络服务公平性最大化方案: 4; 作者李槐城彭舰 +2 位作者黄文沈群力廖思睿《计算机应用研究》北大核心 2025年第8期2452-2459,共8页; 现有研究无人机灾区应急通信服务的方法在全局环境信息下优化网络性能,存在组网效率低和资源分配不均衡的问题,在灾区环境下难以维持平衡的通信服务,导致部分用户无法被及时救援。针对上述不足,提出并解决了无人机通信质量最大化问题:... 展开更多; 关键词无人机通信控制公平性指数深度强化学习混合动作空间; 在线阅读下载PDF 职称材料

基于深度强化学习的含储能船舶的海岛-海上渔排能源运输策略研究: 5; 作者朱振山陈豪 +1 位作者陈炜龙黄缨惠《中国电机工程学报》北大核心 2025年第7期2486-2499,I0004,共15页; 针对海上渔排与风光资源富余岛屿能源交互问题,该文提出含全电力船舶(all-electricship,AES)的岛屿-海上渔排-海岸能源运输策略,利用能够很好处理海面风光不确定性问题以及适应较大规模能源转移模型的深度强化学习方法对上述能源运输模... 展开更多; 关键词深度强化学习全电力船舶移动式储能电池混合动作空间; 在线阅读下载PDF 职称材料

混合动作表示强化学习下的城市交叉口智慧信控方法: 6; 作者王庞伟王思淼 +3 位作者雷方舒徐京辉王子鹏王力《交通运输系统工程与信息》 2025年第4期73-83,共11页; 针对城市交叉口环境下单一离散或连续信号控制动作难以充分应对交通流量时空变化,以及现有强化学习方法无法同时解决混合动作空间中的可扩展性和动作依赖性问题,本文提出一种基于混合动作表示强化学习的城市交叉口智慧信控方法。首先,... 展开更多; 关键词智能交通交通信号控制表示学习混合动作空间近端策略优化; 在线阅读下载PDF 职称材料

题名混合动作空间下的多设备边缘计算卸载方法: 1; 作者张冀齐国梁朵春红龚雯雯; 机构华北电力大学(保定)计算机系河北省能源电力知识计算重点实验室; 出处《计算机工程与应用》 CSCD 北大核心 2024年第10期301-310,共10页; 基金国家自然科学基金(61971190) 河北省省级科技计划(22310302D) 中央高校基本科研业务费专项资金(2021MS086)。; 文摘为降低多设备多边缘服务器场景中设备层级的总成本,并解决现有深度强化学习(deep reinforcement learning,DRL)只支持单一动作空间的算法局限性,提出基于混合决策的多智能体深度确定性策略梯度方法(hybrid-based multi-agent deep determination policy gradient,H-MADDPG)。首先考虑物联网设备/服务器计算能力随负载的动态变化、时变的无线传输信道增益、能量收集的未知性、任务量不确定性多种复杂的环境条件,建立MEC系统模型;其次以一段连续时隙内综合时延、能耗的总成本最小作为优化目标建立问题模型;最后将问题以马尔科夫决策过程(Markov decision procession,MDP)的形式交付给H-MADDPG,在价值网络的辅助下训练并行的两个策略网络,为设备输出离散的服务器选择及连续的任务卸载率。实验结果表明,H-MADDPG方法具有良好的收敛性和稳定性,从计算任务是否密集、延迟是否敏感等不同角度进行观察,H-MADDPG系统整体回报优于Local、OffLoad和DDPG,在计算密集型的任务需求下也能保持更大的系统吞吐量。; 关键词物联网(IoT) 边缘计算卸载多智能体深度确定性策略梯度(MADDPG) 混合动作空间; Keywords Internet of things(IoT) mobile edge computing multi-agent deep determination policy gradient(MADDPG) hybrid action space; 分类号 TP301.6 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

题名面向狭窄环境的安全泊车路径规划算法研究: 2; 作者管家意李斌周傲赵治国林巧陈广; 机构同济大学易控智驾科技有限公司; 出处《汽车工程》北大核心 2025年第5期797-808,共12页; 基金国家重点研发计划项目(2024YFE0211000) 国家自然科学基金面上项目(62372329) +1 种基金同济大学-Qomolo商用车自动驾驶联合实验室和小米青年学者基金资助。; 文摘针对自动泊车系统中路径规划的安全性、实时性和可行性问题,本文提出一种基于混合动作空间约束强化学习的泊车路径规划算法。具体地,该算法利用混合动作空间强化学习框架将离散动作和连续参数相结合实现参数化轨迹规划,提高了规划路径的可执行性;在此基础上设计一种混合动作空间的约束强化学习算法实现安全策略优化,确保了泊车路径的安全性。此外,在模型训练过程中引入课程学习机制逐步引导策略探索,增强了模型训练稳定性和收敛速度。最后,在垂直车位和平行车位进行广泛的对比和消融实验,实验结果表明所提出的泊车路径规划算法在成功率、安全性和实时性等指标上均表现出色,且综合性能明显优于现有基线算法。; 关键词自动泊车混合动作空间强化学习路径规划安全约束; Keywords autonomous parking hybrid-action reinforcement learning motion-planning constraint optimization; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于混合近端策略优化的交叉口信号相位与配时优化方法被引量：11: 3; 作者陈喜群朱奕璋吕朝锋; 机构浙江大学建筑工程学院浙江大学工程师学院浙江大学建筑工程学院; 出处《交通运输系统工程与信息》 EI CSCD 北大核心 2023年第1期106-113,共8页; 基金国家自然科学基金(72171210) 浙江省自然科学基金重点项目(LZ23E080002)。; 文摘交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相冲突。为此,本文提出基于混合近端策略优化(Hybrid Proximal Policy Optimization,HPPO)的交叉口信号相位与配时优化方法。首先在考虑相位时间实际应用边界条件约束下,将信号控制动作定义为参数化动作;然后通过提取交通流状态信息并输入到双策略网络,自适应生成下一相位及其相位持续时间,并通过执行动作后的交通状态变化,评估获得奖励值,学习相位和相位时间之间的内在联系。搭建仿真平台,以真实交通流数据为输入对新方法进行测试与算法对比。结果表明:新方法与离散控制相比具有更低的决策频率和更优的控制效果,车辆平均行程时间和车道平均排队长度分别降低了27.65%和23.65%。; 关键词智能交通混合动作空间深度强化学习混合近端策略优化智能体设计; Keywords intelligent transportation hybrid action space deep reinforcement learning hybrid proximal policy optimization agent design; 分类号 U491 [交通运输工程—交通运输规划与管理]; 在线阅读下载PDF 职称材料

题名基于强化学习的灾区应急无人机网络服务公平性最大化方案: 4; 作者李槐城彭舰黄文沈群力廖思睿; 机构四川大学计算机学院; 出处《计算机应用研究》北大核心 2025年第8期2452-2459,共8页; 基金国家自然科学基金资助项目(82474394) 四川省重点研发计划资助项目(2023YFG0112,2023YFG0115) +1 种基金四川大学自贡市合作项目(2022CDZG-6)。; 文摘现有研究无人机灾区应急通信服务的方法在全局环境信息下优化网络性能,存在组网效率低和资源分配不均衡的问题,在灾区环境下难以维持平衡的通信服务,导致部分用户无法被及时救援。针对上述不足,提出并解决了无人机通信质量最大化问题:将问题建模为部分观测马尔可夫决策过程(partially observable Markov decision process,POMDP),设计基于深度强化学习的路径规划和资源分配方法,建立以网络吞吐量为服务质量指标,Jain’s公平性指数为均衡性准则的评估体系。设计基于目标解耦的奖励函数机制,构建参数化深度图强化学习网络,实现无人机轨迹规划与资源分配的联合优化。在16种不同条件的仿真环境下进行对比实验,该方法的性能优于其他四种方法,在公平性指标上较现有方法提升9.6%,并在不同指标上均验证了方法的有效性。; 关键词无人机通信控制公平性指数深度强化学习混合动作空间; Keywords UAV communication control fairness index deep reinforcement learning hybrid action space; 分类号 TP183 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于深度强化学习的含储能船舶的海岛-海上渔排能源运输策略研究: 5; 作者朱振山陈豪陈炜龙黄缨惠; 机构福州大学电气工程与自动化学院; 出处《中国电机工程学报》北大核心 2025年第7期2486-2499,I0004,共15页; 基金福建省科技创新战略联合研究项目(2023R0153)。; 文摘针对海上渔排与风光资源富余岛屿能源交互问题,该文提出含全电力船舶(all-electricship,AES)的岛屿-海上渔排-海岸能源运输策略,利用能够很好处理海面风光不确定性问题以及适应较大规模能源转移模型的深度强化学习方法对上述能源运输模型进行求解。首先,将移动式储能电池组细化为满充电池、空载电池以及不完全充电电池;其次,将上述能源运输问题建模为含混合动作空间的马尔可夫决策过程;考虑到针对混合动作空间问题,提出一种适用于混合动作空间的基于多批次前向传播的参数化双深度Q网络,该方法通过多步前向传递策略对不相关离散与连续动作进行解耦,减少了智能体训练过程中的波动性并能够收敛于更优的解;最后,通过算例仿真可知,所提策略能够有效实现各地点间能量转移,所提算法相较于传统适用于离散动作空间的深度强化学习方法更加灵活,在目标场景下能够实现更优运行。此外,在模型逐渐扩大的情况下,将该文方法与传统方法求解效果进行对比,验证所提方法在解决大规模能源运输问题的优势。; 关键词深度强化学习全电力船舶移动式储能电池混合动作空间; Keywords deep reinforcement learning all-electric ship(AES) mobile energy storage battery hybrid action space; 分类号 TM71 [电气工程—电力系统及自动化]; 在线阅读下载PDF 职称材料

题名混合动作表示强化学习下的城市交叉口智慧信控方法: 6; 作者王庞伟王思淼雷方舒徐京辉王子鹏王力; 机构北方工业大学; 出处《交通运输系统工程与信息》 2025年第4期73-83,共11页; 基金车路一体智能交通全国重点实验室开放基金课题(2024-A001) 科技部雄安新区科技创新专项课题(2022XAGG0126)。; 文摘针对城市交叉口环境下单一离散或连续信号控制动作难以充分应对交通流量时空变化,以及现有强化学习方法无法同时解决混合动作空间中的可扩展性和动作依赖性问题,本文提出一种基于混合动作表示强化学习的城市交叉口智慧信控方法。首先,将交叉口智能体的动作空间设置为离散化信号相位选择及其相对应的连续性绿灯持续时间,并进行状态空间与奖励函数的一致性设计;其次,应用离散动作嵌入表和条件变分自编码器构建连续可解码的表示空间,将原始混合动作策略学习问题转化为隐式动作表示空间中的连续策略学习问题;再次,使用近端策略优化方法进行隐式动作表示空间策略训练,并通过解码器将输出动作解码为原始混合动作,与环境进行实时交互;最后,基于北京市高级别自动驾驶示范区实际数据开展测试验证。通过不同时段对比测试结果表明,本文所提方法相比于最优基准模型平均延误时间、平均排队长度和平均停车次数分别降低了2.57%~14.84%,4.00%~9.15%和7.25%~20.69%,达到了良好的城市交叉口信控优化效果。; 关键词智能交通交通信号控制表示学习混合动作空间近端策略优化; Keywords intelligent transportation traffic signal control representation learning hybrid action space proximal policy optimization; 分类号 U491 [交通运输工程]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	混合动作空间下的多设备边缘计算卸载方法	张冀齐国梁朵春红龚雯雯	《计算机工程与应用》 CSCD 北大核心	2024	0	在线阅读下载PDF 职称材料
2	面向狭窄环境的安全泊车路径规划算法研究	管家意李斌周傲赵治国林巧陈广	《汽车工程》北大核心	2025	0	在线阅读下载PDF 职称材料
3	基于混合近端策略优化的交叉口信号相位与配时优化方法	陈喜群朱奕璋吕朝锋	《交通运输系统工程与信息》 EI CSCD 北大核心	2023	11	在线阅读下载PDF 职称材料
4	基于强化学习的灾区应急无人机网络服务公平性最大化方案	李槐城彭舰黄文沈群力廖思睿	《计算机应用研究》北大核心	2025	0	在线阅读下载PDF 职称材料
5	基于深度强化学习的含储能船舶的海岛-海上渔排能源运输策略研究	朱振山陈豪陈炜龙黄缨惠	《中国电机工程学报》北大核心	2025	0	在线阅读下载PDF 职称材料
6	混合动作表示强化学习下的城市交叉口智慧信控方法	王庞伟王思淼雷方舒徐京辉王子鹏王力	《交通运输系统工程与信息》	2025		在线阅读下载PDF 职称材料