期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
基于动作空间扩展与奖励塑造的强化学习知识推理
1
作者 李鸿鹏 赵刚 《计算机工程与设计》 北大核心 2025年第7期1898-1904,共7页
为缓解知识图谱中数据稀疏导致推理路径缺失的问题,提出一种基于动作空间扩展和奖励塑造的强化学习知识推理方法。在知识表示模块,将知识图谱中的实体和关系映射到含有三元组语义和结构信息的向量空间中,建立强化学习环境;在强化学习模... 为缓解知识图谱中数据稀疏导致推理路径缺失的问题,提出一种基于动作空间扩展和奖励塑造的强化学习知识推理方法。在知识表示模块,将知识图谱中的实体和关系映射到含有三元组语义和结构信息的向量空间中,建立强化学习环境;在强化学习模块,提出一种动作空间扩展方法,通过引入先验知识,考虑实体间语义信息,寻找关联度最高的关系-实体作为头实体的扩充动作空间,提高路径的连通性。提出奖励塑造方法,设计路径长度奖励和路径重复负向奖励,鼓励智能体选择更加可靠和多样化的关系路径,进一步提升模型效果。实验结果表明,该模型在知识推理的链接预测和事实预测任务中,性能优于大部分现有模型。 展开更多
关键词 知识图谱 知识图谱推理 强化学习 知识表示 动作空间扩展 奖励塑造 K近邻算法
在线阅读 下载PDF
基于混合动作强化学习的电动汽车聚合商决策优化算法
2
作者 孔月萍 杨世海 +2 位作者 段梅梅 丁泽诚 方凯杰 《计算机工程》 CAS CSCD 北大核心 2024年第10期418-428,共11页
电动汽车可以在聚合商的集中式管理下形成规模化灵活可调资源,从而在能源市场上套利并为电网提供辅助服务。为此,提出一种基于混合动作强化学习的电动汽车聚合商决策优化算法。该算法利用连续动作优化市场投标决策,根据离散动作控制不... 电动汽车可以在聚合商的集中式管理下形成规模化灵活可调资源,从而在能源市场上套利并为电网提供辅助服务。为此,提出一种基于混合动作强化学习的电动汽车聚合商决策优化算法。该算法利用连续动作优化市场投标决策,根据离散动作控制不同功率分解策略的动态切换,从而实现市场投标与功率分解决策的联合优化。此外,还提出了一种考虑单位灵活性价值的电动汽车聚合灵活性建模方法,在最大化日总灵活性价值的同时确保每台汽车的充电需求得到满足。仿真实验结果表明,动态策略切换能够充分利用优先级分解策略和比例分解策略在延缓电池衰减、维持电池双向调节灵活性方面的各自优势,与仅考虑投标决策优化的算法相比,所提算法可以进一步提升电动汽车充电站的运行经济性。 展开更多
关键词 强化学习 混合动作输出 电动汽车聚合商 功率分解 市场投标
在线阅读 下载PDF
基于混合强化学习的主动配电网故障恢复方法 被引量:2
3
作者 徐岩 陈嘉岳 马天祥 《电力系统及其自动化学报》 CSCD 北大核心 2024年第4期50-58,共9页
针对高比例新能源接入的配电网故障恢复问题,提出一种基于混合强化学习的主动配电网故障恢复方法。首先,以故障损失最小为恢复目标、配电网安全运行要求为约束条件,构造主动配电网的故障恢复模型;其次,建立用于故障恢复的强化学习环境,... 针对高比例新能源接入的配电网故障恢复问题,提出一种基于混合强化学习的主动配电网故障恢复方法。首先,以故障损失最小为恢复目标、配电网安全运行要求为约束条件,构造主动配电网的故障恢复模型;其次,建立用于故障恢复的强化学习环境,根据状态空间和动作空间特点,提出一种混合强化学习方法,该方法使用竞争架构双深度Q网络算法处理离散动作空间,进行开关动作;然后,使用深度确定性策略梯度算法处理连续动作空间,调节电源出力;最后,通过IEEE33节点系统仿真实验验证所提方法的可行性和优越性。 展开更多
关键词 主动配电网 故障恢复 混合强化学习 状态空间 动作空间
在线阅读 下载PDF
潜在空间中的策略搜索强化学习方法
4
作者 赵婷婷 王莹 +3 位作者 孙威 陈亚瑞 王嫄 杨巨成 《计算机科学与探索》 CSCD 北大核心 2024年第4期1032-1046,共15页
策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的... 策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的变化。为了解决上述问题,提出了一种基于潜在空间的策略搜索强化学习方法。将学习状态表示的思想拓展到动作表示上,即在动作表示的潜在空间中学习策略,再将动作表示映射到真实动作空间中。通过表示学习模型的引入,摒弃端到端的训练方式,将整个强化学习任务划分成大规模的表示模型部分和小规模的策略模型部分,使用无监督的学习方法来学习表示模型,使用策略搜索强化学习方法学习小规模的策略模型。大规模的表示模型能保留应有的泛化性和表达能力,小规模的策略模型有助于减轻策略学习的负担,从而在一定程度上缓解深度强化学习领域中样本利用率低、学习效率低和动作选择泛化性弱的问题。最后,在智能控制任务CarRacing和Cheetah中验证了引入潜在空间中的状态表示和动作表示的有效性。 展开更多
关键词 无模型强化学习 策略模型 状态表示 动作表示 连续动作空间 策略搜索强化学习方法
在线阅读 下载PDF
面向参数化动作空间的多智能体中心化策略梯度分解及其应用 被引量:1
5
作者 田树聪 谢愈 +2 位作者 张远龙 周正春 高阳 《软件学报》 北大核心 2025年第2期590-607,共18页
近年来,多智能体强化学习方法凭借AlphaStar、AlphaDogFight、AlphaMosaic等成功案例展示出卓越的决策能力以及广泛的应用前景.在真实环境的多智能体决策系统中,其任务的决策空间往往是同时具有离散型动作变量和连续型动作变量的参数化... 近年来,多智能体强化学习方法凭借AlphaStar、AlphaDogFight、AlphaMosaic等成功案例展示出卓越的决策能力以及广泛的应用前景.在真实环境的多智能体决策系统中,其任务的决策空间往往是同时具有离散型动作变量和连续型动作变量的参数化动作空间.这类动作空间的复杂性结构使得传统单一针对离散型或连续型的多智能体强化学习算法不在适用,因此研究能用于参数化动作空间的多智能体强化学习算法具有重要的现实意义.提出一种面向参数化动作空间的多智能体中心化策略梯度分解算法,利用中心化策略梯度分解算法保证多智能体的有效协同,结合参数化深度确定性策略梯度算法中双头策略输出实现对参数化动作空间的有效耦合.通过在Hybrid Predator-Prey场景中不同参数设置下的实验结果表明该算法在经典的多智能体参数化动作空间协作任务上具有良好的性能.此外,在多巡航导弹协同突防场景中进行算法效能验证,实验结果表明该算法在多巡航导弹突防这类具有高动态、行为复杂化的协同任务中有效性和可行性. 展开更多
关键词 参数化动作空间 多智能体强化学习 中心化策略梯度分解 多巡航导弹突防
在线阅读 下载PDF
基于强化学习的灾区应急无人机网络服务公平性最大化方案
6
作者 李槐城 彭舰 +2 位作者 黄文 沈群力 廖思睿 《计算机应用研究》 北大核心 2025年第8期2452-2459,共8页
现有研究无人机灾区应急通信服务的方法在全局环境信息下优化网络性能,存在组网效率低和资源分配不均衡的问题,在灾区环境下难以维持平衡的通信服务,导致部分用户无法被及时救援。针对上述不足,提出并解决了无人机通信质量最大化问题:... 现有研究无人机灾区应急通信服务的方法在全局环境信息下优化网络性能,存在组网效率低和资源分配不均衡的问题,在灾区环境下难以维持平衡的通信服务,导致部分用户无法被及时救援。针对上述不足,提出并解决了无人机通信质量最大化问题:将问题建模为部分观测马尔可夫决策过程(partially observable Markov decision process,POMDP),设计基于深度强化学习的路径规划和资源分配方法,建立以网络吞吐量为服务质量指标,Jain’s公平性指数为均衡性准则的评估体系。设计基于目标解耦的奖励函数机制,构建参数化深度图强化学习网络,实现无人机轨迹规划与资源分配的联合优化。在16种不同条件的仿真环境下进行对比实验,该方法的性能优于其他四种方法,在公平性指标上较现有方法提升9.6%,并在不同指标上均验证了方法的有效性。 展开更多
关键词 无人机通信控制 公平性指数 深度强化学习 混合动作空间
在线阅读 下载PDF
基于深度强化学习的含储能船舶的海岛-海上渔排能源运输策略研究
7
作者 朱振山 陈豪 +1 位作者 陈炜龙 黄缨惠 《中国电机工程学报》 北大核心 2025年第7期2486-2499,I0004,共15页
针对海上渔排与风光资源富余岛屿能源交互问题,该文提出含全电力船舶(all-electricship,AES)的岛屿-海上渔排-海岸能源运输策略,利用能够很好处理海面风光不确定性问题以及适应较大规模能源转移模型的深度强化学习方法对上述能源运输模... 针对海上渔排与风光资源富余岛屿能源交互问题,该文提出含全电力船舶(all-electricship,AES)的岛屿-海上渔排-海岸能源运输策略,利用能够很好处理海面风光不确定性问题以及适应较大规模能源转移模型的深度强化学习方法对上述能源运输模型进行求解。首先,将移动式储能电池组细化为满充电池、空载电池以及不完全充电电池;其次,将上述能源运输问题建模为含混合动作空间的马尔可夫决策过程;考虑到针对混合动作空间问题,提出一种适用于混合动作空间的基于多批次前向传播的参数化双深度Q网络,该方法通过多步前向传递策略对不相关离散与连续动作进行解耦,减少了智能体训练过程中的波动性并能够收敛于更优的解;最后,通过算例仿真可知,所提策略能够有效实现各地点间能量转移,所提算法相较于传统适用于离散动作空间的深度强化学习方法更加灵活,在目标场景下能够实现更优运行。此外,在模型逐渐扩大的情况下,将该文方法与传统方法求解效果进行对比,验证所提方法在解决大规模能源运输问题的优势。 展开更多
关键词 深度强化学习 全电力船舶 移动式储能电池 混合动作空间
在线阅读 下载PDF
潜在空间中深度强化学习方法研究综述
8
作者 赵婷婷 孙威 +2 位作者 陈亚瑞 王嫄 杨巨成 《计算机科学与探索》 CSCD 北大核心 2023年第9期2047-2074,共28页
深度强化学习(DRL)是实现通用人工智能的一种有效学习范式,已在一系列实际应用中取得了显著成果。然而,DRL存在泛化性能差、样本效率低等问题。基于深度神经网络的表示学习通过学习环境的底层结构,能够有效缓解上述问题。因此,基于潜在... 深度强化学习(DRL)是实现通用人工智能的一种有效学习范式,已在一系列实际应用中取得了显著成果。然而,DRL存在泛化性能差、样本效率低等问题。基于深度神经网络的表示学习通过学习环境的底层结构,能够有效缓解上述问题。因此,基于潜在空间的深度强化学习成为该领域的主流方法。系统地综述了基于潜在空间的表示学习在深度强化学习中的研究进展,分析并总结了现有基于潜在空间的深度强化学习的方法,将其分为潜在空间中的状态表示、动作表示以及动力学模型进行详细阐述。其中,潜在空间中的状态表示又被分为基于重构方式的状态表示方法、基于互模拟等价的状态表示方法及其他状态表示方法。最后,列举了现有基于潜在空间的强化学习在游戏领域、智能控制领域、推荐领域及其他领域的成功应用,并浅谈了该领域的未来发展趋势。 展开更多
关键词 强化学习 深度学习 潜在空间 状态表示 动作表示
在线阅读 下载PDF
基于贝叶斯网络强化学习的复杂装备维修排故策略生成 被引量:1
9
作者 刘宝鼎 于劲松 +2 位作者 韩丹阳 唐荻音 李鑫 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第4期1354-1364,共11页
为解决传统启发式维修排故决策方法决策时间长、生成策略总成本高的问题,提出一种基于贝叶斯网络(BN)结合强化学习(RL)进行复杂装备维修排故策略生成方法。为更好地利用复杂装备模型知识,使用BN进行维修排故知识表述,并且为更加贴近复... 为解决传统启发式维修排故决策方法决策时间长、生成策略总成本高的问题,提出一种基于贝叶斯网络(BN)结合强化学习(RL)进行复杂装备维修排故策略生成方法。为更好地利用复杂装备模型知识,使用BN进行维修排故知识表述,并且为更加贴近复杂装备实际情况,依据故障模式、影响和危害性分析(FMECA)的故障概率,经合理转化后作为BN的先验概率;为使用RL的决策过程生成维修排故策略,提出一种维修排故决策问题转化为RL问题的方法;为更好地求解转化得到的强化学习问题,引入观测-修复动作对(O-A)以减小问题规模,并设置动作掩码处理动态动作空间。仿真结果表明:在统一的性能指标下,所提BN-RL方法较传统方法获得更高的指标值,证明该方法的有效性和优越性。 展开更多
关键词 强化学习 贝叶斯网络 维修排故策略生成 复杂装备 动态动作空间
在线阅读 下载PDF
基于轨迹预测的安全强化学习自动变道决策方法
10
作者 肖海林 黄天义 +2 位作者 代秋香 张跃军 张中山 《计算机应用》 CSCD 北大核心 2024年第9期2958-2963,共6页
深度强化学习在自动变道决策问题中由于它的试错学习的特性,易在训练过程中导致不安全的行为。为此,提出一种基于轨迹预测的安全强化学习自动变道决策方法。首先,通过最大似然估计的概率建模并预测车辆的未来行驶轨迹;其次,利用得到的... 深度强化学习在自动变道决策问题中由于它的试错学习的特性,易在训练过程中导致不安全的行为。为此,提出一种基于轨迹预测的安全强化学习自动变道决策方法。首先,通过最大似然估计的概率建模并预测车辆的未来行驶轨迹;其次,利用得到的预测轨迹和安全距离指标进行驾驶风险评估,并且根据驾驶风险评估结果进行安全动作约束,将动作空间裁剪为安全动作空间,指导智能车辆避免危险动作。在仿真平台的高速公路场景中,将所提方法与深度Q网络(DQN)及其改进方法进行测试比较。实验结果表明,在智能车辆训练过程中,所提方法在保证快速收敛的同时,使碰撞发生的次数相较于对比方法降低了47%~57%,有效提高了训练过程中的安全性。 展开更多
关键词 安全强化学习 自动变道决策 轨迹预测 风险评估 动作空间裁剪
在线阅读 下载PDF
一种用于连续动作空间的最小二乘行动者-评论家方法 被引量:9
11
作者 朱斐 刘全 +1 位作者 傅启明 伏玉琛 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期548-558,共11页
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信... 解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将LSAC算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Cacla(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能. 展开更多
关键词 强化学习 行动者-评论家算法 连续动作空间 最小二乘法 小车平衡杆问题 MOUNTAIN car问题
在线阅读 下载PDF
混合动作表示强化学习下的城市交叉口智慧信控方法
12
作者 王庞伟 王思淼 +3 位作者 雷方舒 徐京辉 王子鹏 王力 《交通运输系统工程与信息》 2025年第4期73-83,共11页
针对城市交叉口环境下单一离散或连续信号控制动作难以充分应对交通流量时空变化,以及现有强化学习方法无法同时解决混合动作空间中的可扩展性和动作依赖性问题,本文提出一种基于混合动作表示强化学习的城市交叉口智慧信控方法。首先,... 针对城市交叉口环境下单一离散或连续信号控制动作难以充分应对交通流量时空变化,以及现有强化学习方法无法同时解决混合动作空间中的可扩展性和动作依赖性问题,本文提出一种基于混合动作表示强化学习的城市交叉口智慧信控方法。首先,将交叉口智能体的动作空间设置为离散化信号相位选择及其相对应的连续性绿灯持续时间,并进行状态空间与奖励函数的一致性设计;其次,应用离散动作嵌入表和条件变分自编码器构建连续可解码的表示空间,将原始混合动作策略学习问题转化为隐式动作表示空间中的连续策略学习问题;再次,使用近端策略优化方法进行隐式动作表示空间策略训练,并通过解码器将输出动作解码为原始混合动作,与环境进行实时交互;最后,基于北京市高级别自动驾驶示范区实际数据开展测试验证。通过不同时段对比测试结果表明,本文所提方法相比于最优基准模型平均延误时间、平均排队长度和平均停车次数分别降低了2.57%~14.84%,4.00%~9.15%和7.25%~20.69%,达到了良好的城市交叉口信控优化效果。 展开更多
关键词 智能交通 交通信号控制 表示学习 混合动作空间 近端策略优化
在线阅读 下载PDF
基于深度强化学习的居民实时自治最优能量管理策略 被引量:8
13
作者 叶宇剑 王卉宇 +1 位作者 汤奕 Goran STRBAC 《电力系统自动化》 EI CSCD 北大核心 2022年第1期110-119,共10页
随着居民分布式资源的普及,如何考虑用户多类型设备的运行特性,满足实时自治能量管理需求以达到用户侧经济性最优成为亟待解决的课题。传统基于模型的最优化方法在模型精准构建和应对多重不确定性等方面存在局限性,为此提出一种无模型... 随着居民分布式资源的普及,如何考虑用户多类型设备的运行特性,满足实时自治能量管理需求以达到用户侧经济性最优成为亟待解决的课题。传统基于模型的最优化方法在模型精准构建和应对多重不确定性等方面存在局限性,为此提出一种无模型的基于深度强化学习的实时自治能量管理优化方法。首先,对用户设备进行分类,采用统一的三元组描述其运行特性,并确定相应的能量管理动作;接着,采用长短期记忆神经网络提取环境状态中多源时序数据的未来走势;进而,基于近端策略优化算法,赋能在多维连续-离散混合的动作空间中高效学习最优能量管理策略,在最小化用电成本的同时提升策略对不确定性的适应性;最后,通过实际情境对比现有方法的优化决策效果,验证所提方法的有效性。 展开更多
关键词 实时自治能量管理优化 不确定性 连续-离散混合动作 长短期记忆神经网络 深度强化学习
在线阅读 下载PDF
基于随机加权三重Q学习的异策略最大熵强化学习算法 被引量:2
14
作者 范静宇 刘全 《计算机科学》 CSCD 北大核心 2022年第6期335-341,共7页
强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家... 强化学习是机器学习中一个重要的分支,随着深度学习的发展,深度强化学习逐渐发展为强化学习研究的重点。因应用广泛且实用性较强,面向连续控制问题的无模型异策略深度强化学习算法备受关注。同基于离散动作的Q学习一样,类行动者-评论家算法会受到动作值高估问题的影响。在类行动者-评论家算法的学习过程中,剪切双Q学习可以在一定程度上解决动作值高估的问题,但同时也引入了一定程度的低估问题。为了进一步解决类行动者-评论家算法中的高低估问题,提出了一种新的随机加权三重Q学习方法。该方法可以更好地解决类行动者-评论家算法中的高低估问题。此外,将这种新的方法与软行动者-评论家算法结合,提出了一种新的基于随机加权三重Q学习的软行动者-评论家算法,该算法在限制Q估计值在真实Q值附近的同时,通过随机加权方法增加Q估计值的随机性,从而有效解决了学习过程中对动作值的高低估问题。实验结果表明,相比SAC算法、DDPG算法、PPO算法与TD3算法等深度强化学习算法,SAC-RWTQ算法可以在gym仿真平台中的多个Mujoco任务上获得更好的表现。 展开更多
关键词 Q学习 深度学习 异策略强化学习 连续动作空间 最大熵 软行动者—评论家算法
在线阅读 下载PDF
一种面向宽带跳频双动作的智能抗干扰决策算法
15
作者 夏重阳 吴晓富 靳越 《电讯技术》 北大核心 2024年第9期1467-1473,共7页
宽带跳频与深度强化学习结合的智能跳频通信模式能有效提高通信抗干扰能力。针对同时调整信号频点和功率的双动作空间智能决策由于频点离散但功率非离散使得决策依赖的深度强化学习算法难以设计的问题,基于离散型深度确定性策略梯度算法... 宽带跳频与深度强化学习结合的智能跳频通信模式能有效提高通信抗干扰能力。针对同时调整信号频点和功率的双动作空间智能决策由于频点离散但功率非离散使得决策依赖的深度强化学习算法难以设计的问题,基于离散型深度确定性策略梯度算法(Wolpertinger Deep Deterministic Policy Gradient,W-DDPG),提出了一种适于宽带跳频通信且具有发射频率和功率组成的双动作空间智能抗干扰决策方法。该决策方法面向频率/功率双动作空间,在频率空间中使用Wolpertinger架构处理频率动作,并与功率动作组成联合动作,然后使用DDPG算法进行训练,使该算法能够适用于宽带跳频双动作空间的抗干扰场景,在复杂的电磁环境下能够快速作出决策。仿真结果表明,该方法在宽带跳频双动作空间干扰模式下的收敛速度及抗干扰性能较传统抗干扰算法提升了大约25%。 展开更多
关键词 通信抗干扰 深度强化学习 动作空间 智能决策
在线阅读 下载PDF
基于作战过程的岛礁兵力配置强化学习算法
16
作者 肖凡 乔勇军 《兵工自动化》 2022年第5期39-47,共9页
针对岛礁守备作战过程中涉及的对海、对陆、对空3类武器,根据岛礁守备作战过程建立模型,提出一种动态动作空间方法。设置敌方武器装备、预设阵地、防守要地3类影响因素,利用不同的基于值函数的强化学习算法进行测试,通过测试能得到各武... 针对岛礁守备作战过程中涉及的对海、对陆、对空3类武器,根据岛礁守备作战过程建立模型,提出一种动态动作空间方法。设置敌方武器装备、预设阵地、防守要地3类影响因素,利用不同的基于值函数的强化学习算法进行测试,通过测试能得到各武器装备最佳位置并判断预设阵地是否合理,通过比较可看出算法间各有优劣,适合的环境各不相同。结果表明:该方法能够运用于不同的环境,减少时空开销,提高岛礁守备决策的效率,有助于策略改进。 展开更多
关键词 强化学习 值函数 岛礁守备 动态动作空间
在线阅读 下载PDF
面向狭窄环境的安全泊车路径规划算法研究
17
作者 管家意 李斌 +3 位作者 周傲 赵治国 林巧 陈广 《汽车工程》 北大核心 2025年第5期797-808,共12页
针对自动泊车系统中路径规划的安全性、实时性和可行性问题,本文提出一种基于混合动作空间约束强化学习的泊车路径规划算法。具体地,该算法利用混合动作空间强化学习框架将离散动作和连续参数相结合实现参数化轨迹规划,提高了规划路径... 针对自动泊车系统中路径规划的安全性、实时性和可行性问题,本文提出一种基于混合动作空间约束强化学习的泊车路径规划算法。具体地,该算法利用混合动作空间强化学习框架将离散动作和连续参数相结合实现参数化轨迹规划,提高了规划路径的可执行性;在此基础上设计一种混合动作空间的约束强化学习算法实现安全策略优化,确保了泊车路径的安全性。此外,在模型训练过程中引入课程学习机制逐步引导策略探索,增强了模型训练稳定性和收敛速度。最后,在垂直车位和平行车位进行广泛的对比和消融实验,实验结果表明所提出的泊车路径规划算法在成功率、安全性和实时性等指标上均表现出色,且综合性能明显优于现有基线算法。 展开更多
关键词 自动泊车 混合动作空间强化学习 路径规划 安全约束
在线阅读 下载PDF
异步移动边缘计算网络中的联合任务调度与计算资源分配优化策略
18
作者 王汝言 杨安琪 +2 位作者 吴大鹏 唐桐 祝志远 《电子与信息学报》 北大核心 2025年第2期470-479,共10页
移动边缘计算(MEC)通过将密集型任务从传感器卸载到附近边缘服务器,来增强本地的计算能力,延长其电池寿命。然而,在面向无线传感器网等时变环境中,任务之间的异构性可能会导致通信低效率、高时延等问题。为此,该文提出一种异步移动边缘... 移动边缘计算(MEC)通过将密集型任务从传感器卸载到附近边缘服务器,来增强本地的计算能力,延长其电池寿命。然而,在面向无线传感器网等时变环境中,任务之间的异构性可能会导致通信低效率、高时延等问题。为此,该文提出一种异步移动边缘计算网络中的联合任务调度与计算资源分配优化策略,该策略实时感知任务信息年龄和能耗,将异步边缘卸载问题数学建模为NP难(NP-hard problem)的混合整数规划问题,并提出基于混合动作优势演员-评论家(HA2C)强化学习算法的任务调度和计算资源分配方案解决该问题。仿真结果表明,该文方法能显著降低异步卸载网络的平均信息年龄和能耗,满足无线传感器网络对任务时效性的要求。 展开更多
关键词 异步移动边缘计算 无线传感器网络 平均信息年龄 平均能耗 混合动作强化学习
在线阅读 下载PDF
多Agent Q学习几点问题的研究及改进 被引量:5
19
作者 孟祥萍 王圣镔 王欣欣 《计算机工程与设计》 CSCD 北大核心 2009年第9期2274-2276,共3页
提出了一种新颖的基于Q-学习,蚁群算法和轮盘赌算法的多Agent强化学习。在强化学习算法中,当Agent数量增加到足够大时,就会出现动作空间灾难性问题,即:其交互困难,学习速度骤然下降。另外,由于Agent是利用Q值来选择下一步动作的,因此,... 提出了一种新颖的基于Q-学习,蚁群算法和轮盘赌算法的多Agent强化学习。在强化学习算法中,当Agent数量增加到足够大时,就会出现动作空间灾难性问题,即:其交互困难,学习速度骤然下降。另外,由于Agent是利用Q值来选择下一步动作的,因此,在学习早期,动作的选择严重束缚于高Q值。在这里,把蚁群算法,轮盘赌算法和强化学习三者结合起来,期望解决上述提出的问题。最后,对新算法的理论分析和实验结果都证明了改进的Q学习是可行的,并且可以有效的提高学习效率。 展开更多
关键词 多Agent强化学习算法 蚁群算法 轮盘赌算法 Q值 动作空间灾难
在线阅读 下载PDF
基于混合近端策略优化的交叉口信号相位与配时优化方法 被引量:11
20
作者 陈喜群 朱奕璋 吕朝锋 《交通运输系统工程与信息》 EI CSCD 北大核心 2023年第1期106-113,共8页
交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相... 交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相冲突。为此,本文提出基于混合近端策略优化(Hybrid Proximal Policy Optimization,HPPO)的交叉口信号相位与配时优化方法。首先在考虑相位时间实际应用边界条件约束下,将信号控制动作定义为参数化动作;然后通过提取交通流状态信息并输入到双策略网络,自适应生成下一相位及其相位持续时间,并通过执行动作后的交通状态变化,评估获得奖励值,学习相位和相位时间之间的内在联系。搭建仿真平台,以真实交通流数据为输入对新方法进行测试与算法对比。结果表明:新方法与离散控制相比具有更低的决策频率和更优的控制效果,车辆平均行程时间和车道平均排队长度分别降低了27.65%和23.65%。 展开更多
关键词 智能交通 混合动作空间 深度强化学习 混合近端策略优化 智能体设计
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部