期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
潜在空间中的策略搜索强化学习方法
1
作者 赵婷婷 王莹 +3 位作者 孙威 陈亚瑞 王嫄 杨巨成 《计算机科学与探索》 CSCD 北大核心 2024年第4期1032-1046,共15页
策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的... 策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的变化。为了解决上述问题,提出了一种基于潜在空间的策略搜索强化学习方法。将学习状态表示的思想拓展到动作表示上,即在动作表示的潜在空间中学习策略,再将动作表示映射到真实动作空间中。通过表示学习模型的引入,摒弃端到端的训练方式,将整个强化学习任务划分成大规模的表示模型部分和小规模的策略模型部分,使用无监督的学习方法来学习表示模型,使用策略搜索强化学习方法学习小规模的策略模型。大规模的表示模型能保留应有的泛化性和表达能力,小规模的策略模型有助于减轻策略学习的负担,从而在一定程度上缓解深度强化学习领域中样本利用率低、学习效率低和动作选择泛化性弱的问题。最后,在智能控制任务CarRacing和Cheetah中验证了引入潜在空间中的状态表示和动作表示的有效性。 展开更多
关键词 无模型强化学习 策略模型 状态表示 动作表示 连续动作空间 策略搜索强化学习方法
在线阅读 下载PDF
基于强化学习-蒙特卡洛树搜索的铁路线路优化
2
作者 王光辉 蒲浩 +3 位作者 宋陶然 李伟 张洪 胡光常 《铁道学报》 北大核心 2025年第5期102-110,共9页
铁路线路智能搜索方法是实现高效线路优化的关键。现有铁路线路优化方法强于局部计算,缺乏对后续未知及全局态势的感知能力,导致线路智能搜索算法出现“智能”不智的现象。为解决上述问题,提出一种用于铁路线路优化的强化学习-蒙特卡洛... 铁路线路智能搜索方法是实现高效线路优化的关键。现有铁路线路优化方法强于局部计算,缺乏对后续未知及全局态势的感知能力,导致线路智能搜索算法出现“智能”不智的现象。为解决上述问题,提出一种用于铁路线路优化的强化学习-蒙特卡洛树搜索(RL-MCTS)融合方法,构建一种蒙特卡洛树搜索线路优化框架,提出先广度优先-后深度优先的选择方法以权衡线路的全局与局部利益;为准确评估线路的全局利益,定制一种强化学习模拟方法,为RL-MCTS提供线路优化的大局观。将该方法应用于实际的铁路案例,相较于人工方案,RL-MCTS生成的优化线路方案工程造价降低8.2%,验证了本文提出方法的有效性。 展开更多
关键词 铁路线路优化 强化学习 蒙特卡洛树搜索 时变选择方法 全局奖励评估
在线阅读 下载PDF
基于强化学习冲突消解的大规模无人机集群航迹规划方法
3
作者 周桢林 龙腾 +3 位作者 刘大卫 孙景亮 钟建鑫 李俊志 《兵工学报》 北大核心 2025年第5期223-234,共12页
面向大规模无人机集群协同作业场景,针对航迹冲突频繁导致集群航迹规划高耗时的问题,开展基于强化学习冲突消解的大规模无人机集群航迹规划方法研究。构建“顶层冲突消解-底层航迹规划”的双层规划架构,降低航迹冲突的时空维度。在顶层... 面向大规模无人机集群协同作业场景,针对航迹冲突频繁导致集群航迹规划高耗时的问题,开展基于强化学习冲突消解的大规模无人机集群航迹规划方法研究。构建“顶层冲突消解-底层航迹规划”的双层规划架构,降低航迹冲突的时空维度。在顶层冲突消解层,设计基于Rainbow DQN (Deep Q-Networks algorithm)训练框架的冲突消解策略网络,将每个航迹冲突的消解过程转换为二叉树拓展左、右树节点的动作选择过程,实现不同冲突消解顺序与冲突消解结果的映射,减少树节点的遍历,提高冲突消解效率;在底层航迹规划层,将时间维度引入空间避碰策略,提出基于节点重扩展机制的跳点搜索法(Re-planning Jump Point Search, ReJPS),增加规划可行域,提升航迹冲突的消解能力。仿真结果表明:相比基于CBS (Conflict Based Search)+A~*方法与CBS+ReJPS航迹规划方法,新方法在最优性相当的前提下,平均规划耗时分别降低了86.64%和19.65%。 展开更多
关键词 无人机集群 航迹规划 深度强化学习 冲突搜索方法 冲突消解
在线阅读 下载PDF
融合先验知识与引导策略搜索的机器人轴孔装配方法
4
作者 陈豪杰 董青卫 +1 位作者 刘锐楷 曾鹏 《计算机应用研究》 北大核心 2025年第4期1018-1024,共7页
在现代工业自动化领域,机器人执行复杂装配任务的能力至关重要。尽管强化学习为机器人策略学习提供了一种有效途径,但在装配任务的策略训练初始阶段存在采样效率低和样本质量差的问题,导致算法收敛速度慢,容易陷入局部最优解。针对上述... 在现代工业自动化领域,机器人执行复杂装配任务的能力至关重要。尽管强化学习为机器人策略学习提供了一种有效途径,但在装配任务的策略训练初始阶段存在采样效率低和样本质量差的问题,导致算法收敛速度慢,容易陷入局部最优解。针对上述问题,提出了一种融合先验知识与引导策略搜索算法的机器人轨迹规划方法。该方法首先利用人类专家演示和历史任务数据的先验知识来构建初始策略,并将先验知识保留在经验池中,以提高学习效率;随后,通过引导策略搜索算法对初始策略进行在线优化,逐步提升策略的精确度和适应性;最后,通过机器人轴孔装配任务进行实验验证,该方法显著提高了策略学习效率,减少了训练时间和试错次数。研究表明,融合先验知识的方法可以有效提高强化学习学习效率,使机器人快速得到能够完成装配任务的策略。 展开更多
关键词 强化学习 先验知识 引导策略搜索 策略优化 轴孔装配任务
在线阅读 下载PDF
基于深度强化学习的多区域通风系统风量控制方法研究
5
作者 李春晓 崔璨 黎明 《控制工程》 北大核心 2025年第2期265-272,共8页
通风系统在实际运行时,其风量负荷动态变化,且各区域风量之间存在强耦合,导致其风量调节的难度高、调节时间长。针对此问题,提出一种基于深度确定性策略梯度的多区域通风系统风量控制方法,实现对各区域风量的快速、准确控制。此外,提出... 通风系统在实际运行时,其风量负荷动态变化,且各区域风量之间存在强耦合,导致其风量调节的难度高、调节时间长。针对此问题,提出一种基于深度确定性策略梯度的多区域通风系统风量控制方法,实现对各区域风量的快速、准确控制。此外,提出一种动态目标训练机制,有效提高强化学习训练的效率。最后,建立通风系统仿真环境,验证所提控制方法的性能。仿真结果表明,所提控制方法能够快速实现对风量的准确控制,能够抵抗一定程度的系统噪声,并且适用于不同拓扑结构的通风系统。 展开更多
关键词 风量控制方法 深度强化学习 深度确定性策略梯度 动态目标 多区域通风系统
在线阅读 下载PDF
面向策略探索的强化学习与进化计算方法综述 被引量:3
6
作者 王尧 罗俊仁 +2 位作者 周棪忠 谷学强 张万鹏 《计算机科学》 CSCD 北大核心 2024年第3期183-197,共15页
强化学习与进化计算作为两类自然启发的学习范式,是当前求解策略探索问题的主流方法,两类方法的融合为策略探索问题的求解提供了通用解决方案。通过对比强化学习与进化计算,从强化学习与进化计算的基本方法、策略探索的基础方法分析、... 强化学习与进化计算作为两类自然启发的学习范式,是当前求解策略探索问题的主流方法,两类方法的融合为策略探索问题的求解提供了通用解决方案。通过对比强化学习与进化计算,从强化学习与进化计算的基本方法、策略探索的基础方法分析、策略探索的融合式方法分析以及前沿挑战4个方面全面分析了策略探索问题的方法,以期能够为该领域的交叉融合研究带来启发。 展开更多
关键词 马尔可夫决策过程 强化学习 进化计算 策略搜索 学习
在线阅读 下载PDF
基于粒子群优化和深度强化学习的策略搜索方法 被引量:3
7
作者 彭坤彦 尹翔 +1 位作者 刘笑竹 李恒宇 《计算机工程与科学》 CSCD 北大核心 2023年第4期718-725,共8页
深度强化学习DRL算法是一种常用的策略搜索方法,已成功应用于一系列具有挑战性的控制任务。但是,由于DRL难以应对奖励稀疏问题,缺乏有效的探索以及对超参数具有极其敏感的脆弱收敛性,使其难以应用于大规模实际问题。粒子群优化算法PSO... 深度强化学习DRL算法是一种常用的策略搜索方法,已成功应用于一系列具有挑战性的控制任务。但是,由于DRL难以应对奖励稀疏问题,缺乏有效的探索以及对超参数具有极其敏感的脆弱收敛性,使其难以应用于大规模实际问题。粒子群优化算法PSO是一种进化优化算法,它使用整个episode的累积回报作为适应性值,对奖励稀疏的环境不敏感,且该算法也具有基于种群的多样化探索以及稳定的收敛性,但样本效率低。因此,提出了PSO-RL算法,结合PSO和基于策略梯度的离策略DRL算法,DRL通过PSO种群提供的多种数据来训练种群中累积奖励最低的几个策略,并且每次都将训练后累积奖励得到提升的策略插入PSO种群,增强DRL与PSO之间的信息交流。PSO-RL算法能够提升PSO的样本效率,而且能够改善DRL算法的性能和稳定性。在pybullet模块具有挑战性的连续控制任务中的实验结果表明,PSO-RL的性能不仅优于DRL的,且优于进化强化学习算法的。 展开更多
关键词 粒子群优化 策略搜索 深度强化学习 策略梯度 强化学习
在线阅读 下载PDF
集成深度强化学习在股票指数投资组合优化中的应用分析 被引量:1
8
作者 冀中 张文嘉 《计算机科学与探索》 北大核心 2025年第1期237-244,共8页
基于集成深度强化学习的投资组合选择是当前量化金融领域的关键技术之一。然而,目前采用上一窗口阶段最优指标决定下一阶段代理的集成滚动窗口方法存在一定的滞后性。为了有效应对这一不足,提出了双层嵌套集成深度强化学习方法。该方法... 基于集成深度强化学习的投资组合选择是当前量化金融领域的关键技术之一。然而,目前采用上一窗口阶段最优指标决定下一阶段代理的集成滚动窗口方法存在一定的滞后性。为了有效应对这一不足,提出了双层嵌套集成深度强化学习方法。该方法对三种代理(优势演员-评论员、深度确定性策略梯度和近端策略优化)进行两层嵌套模式,第一层集成通过最优化夏普比率进行阶段模型选择,第二层通过加权投票的方法集成三种深度强化学习算法,从单次训练中收集多个模型快照,在训练期间利用这些模型进行集成预测。分别对上证50投资指数和道琼斯指数及其包含的股票进行了投资组合研究,将持有指数被动策略和均值方差投资组合策略作为基线策略。实验采用了投资组合价值、年化回报率、年化波动率、最大回撤和夏普比率等指标作为对比指标。结果表明,所提出的集成方法在实用性和有效性上表现出较好的性能。 展开更多
关键词 股票投资组合 交易策略 深度强化学习 双层嵌套集成深度强化学习方法 集成学习
在线阅读 下载PDF
融合深度学习与搜索的实时策略游戏微操方法
9
作者 陈鹏 王子磊 《计算机工程》 CAS CSCD 北大核心 2020年第6期50-59,共10页
实时策略游戏的微操是指操纵多个作战单元以赢得胜利,针对传统搜索方法在面对大规模战斗场景时存在的搜索效率低下、搜索空间有限等问题,提出深度学习与在线搜索相结合的方法,以实现学习模型对搜索过程的引导。给出一种基于编码-解码卷... 实时策略游戏的微操是指操纵多个作战单元以赢得胜利,针对传统搜索方法在面对大规模战斗场景时存在的搜索效率低下、搜索空间有限等问题,提出深度学习与在线搜索相结合的方法,以实现学习模型对搜索过程的引导。给出一种基于编码-解码卷积架构的联合策略网络,将其嵌入到PGS、POE和SSS+3种经典搜索方法中,实现多智能体联合动作的端到端学习。实验结果表明,该方法可以适应复杂的作战场景,在StarCraft:BroodWar的2个基准场景中能够击败内置人工智能方法,胜率分别达到95%、99%,接近当前最好的基准方法。 展开更多
关键词 实时策略游戏 微操 深度学习 联合策略网络 搜索方法
在线阅读 下载PDF
一种不稳定环境下的策略搜索及迁移方法 被引量:3
10
作者 朱斐 刘全 +3 位作者 傅启明 陈冬火 王辉 伏玉琛 《电子学报》 EI CAS CSCD 北大核心 2017年第2期257-266,共10页
强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策... 强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策略求解问题.针对不稳定环境下的策略求解问题,利用MDP分布对不稳定环境进行建模,提出一种基于公式集的策略搜索算法——FSPS.FSPS算法在学习过程中搜集所获得的历史样本信息,并对其进行特征信息的提取,利用这些特征信息来构造不同的用于动作选择的公式,采取策略搜索算法求解最优公式.在此基础之上,给出所求解策略的最优性边界,并从理论上证明了迁移到新MDP分布中策略的最优性主要依赖于MDP分布之间的距离以及所求解策略在原始MDP分布中的性能.最后,将FSPS算法用于经典的Markov Chain问题,实验结果表明,所求解的策略具有较好的性能. 展开更多
关键词 强化学习 策略搜索 策略迁移 不稳定环境 公式集
在线阅读 下载PDF
基于强化学习的离散层级萤火虫算法检测蛋白质复合物
11
作者 张其文 郭欣欣 《计算机应用研究》 CSCD 北大核心 2024年第7期1977-1982,共6页
蛋白质复合物的检测有助于从分子水平上理解生命的活动过程。针对群智能算法检测蛋白质复合物时假阳/阴性率高、准确率低、种群多样性下降等问题,提出了基于强化学习的离散层级萤火虫算法检测蛋白质复合物(reinforcement learning-based... 蛋白质复合物的检测有助于从分子水平上理解生命的活动过程。针对群智能算法检测蛋白质复合物时假阳/阴性率高、准确率低、种群多样性下降等问题,提出了基于强化学习的离散层级萤火虫算法检测蛋白质复合物(reinforcement learning-based discrete level firefly algorithm for detecting protein complexes,RLDLFA-DPC)。引入强化学习思想提出一种自适应层级划分策略,动态调整层级结构,能有效解决迭代后期种群多样性下降的问题。在层级学习策略中个体向两个优秀层级学习,避免算法陷入局部最优。为了提高蛋白质复合物检测的精度,结合个体环境信息提出自适应搜索半径的局部搜索策略。最后,在酵母蛋白质的4个数据集上,与8种经典的蛋白质复合物检测方法进行对比,验证了该方法的有效性。 展开更多
关键词 蛋白质复合物 萤火虫算法 强化学习 层级学习策略 局部搜索策略
在线阅读 下载PDF
基于序贯博弈多智能体强化学习的综合模块化航空电子系统重构方法 被引量:7
12
作者 张涛 张文涛 +3 位作者 代凌 陈婧怡 王丽 魏倩茹 《电子学报》 EI CAS CSCD 北大核心 2022年第4期954-966,共13页
动态重构是一种有效的综合模块化航空电子系统故障容错方法.重构蓝图定义了系统故障环境下的应用迁移与资源重配置方案,是以最小代价重构恢复系统功能的关键.在复杂多级关联故障模式下,如何快速自动生成有效重构蓝图是其难点.针对该问题... 动态重构是一种有效的综合模块化航空电子系统故障容错方法.重构蓝图定义了系统故障环境下的应用迁移与资源重配置方案,是以最小代价重构恢复系统功能的关键.在复杂多级关联故障模式下,如何快速自动生成有效重构蓝图是其难点.针对该问题,本文提出一种基于序贯博弈多智能体强化学习的综合模块化航空电子系统重构方法.该方法引入序贯博弈模型,将因受故障影响而需要迁移重构的应用软件定义为博弈中的智能体,根据应用软件优先级确定序贯博弈的顺序.针对序贯博弈过程中多智能体间竞争与合作的问题,算法使用强化学习中的策略梯度,通过控制与环境交互中的动作选择概率来优化重构效果.应用基于有偏估计的策略梯度蒙特卡洛树搜索算法更新博弈策略,解决了传统策略梯度算法震荡难收敛、计算耗时长问题.实验结果表明,与差分进化、Q学习等方法相比,所提算法的优化性能和稳定性均具有显著优势. 展开更多
关键词 综合模块化航空电子系统 序贯博弈 策略梯度 多智能体强化学习 蒙特卡洛树搜索 重构
在线阅读 下载PDF
基于强化麻雀搜索神经网络的空战机动决策方法
13
作者 刘庆利 乔晨昊 +1 位作者 杨国强 张振亚 《火力与指挥控制》 CSCD 北大核心 2023年第1期84-91,98,共9页
针对空战中机动决策速度慢、准确性低问题,提出基于强化麻雀搜索神经网络的空战机动决策方法,该方法分别考虑角度、距离、高度等因素构造相应的态势函数,将几种态势函数结合起来并加权得到态势评估函数,利用神经网络的黑盒部分计算各个... 针对空战中机动决策速度慢、准确性低问题,提出基于强化麻雀搜索神经网络的空战机动决策方法,该方法分别考虑角度、距离、高度等因素构造相应的态势函数,将几种态势函数结合起来并加权得到态势评估函数,利用神经网络的黑盒部分计算各个态势函数的权值,利用混沌初始化和小孔成像反向学习策略强化麻雀搜索算法,再利用其特性去优化神经网络,将麻雀的适应度函数与神经网络的权值和阈值建立直接的映射关系,从而获得准确的态势评估函数,再将得到的态势评估函数结合博弈论模型得到博弈态势值,并由此来进行空战机动决策。仿真表明,该方法在与粒子群和遗传算法优化的神经网络模型相比之下,决策速度更快、准确性高,从而能获得空战优势,以获得最终的空战胜利。 展开更多
关键词 空战 神经网络 强化麻雀搜索算法 机动决策 反向学习策略
在线阅读 下载PDF
基于强化学习的时间触发通信调度方法 被引量:10
14
作者 李浩若 何锋 +2 位作者 郑重 李二帅 熊华钢 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2019年第9期1894-1901,共8页
未来航空电子系统中将会更广泛地选择基于时间触发的通信机制进行信息传输,以保证信息交互的确定性。如何合理地进行时间触发通信调度设计是时间触发应用于航空电子互连系统的关键。针对时间触发调度的周期性任务,提出了一种基于强化学... 未来航空电子系统中将会更广泛地选择基于时间触发的通信机制进行信息传输,以保证信息交互的确定性。如何合理地进行时间触发通信调度设计是时间触发应用于航空电子互连系统的关键。针对时间触发调度的周期性任务,提出了一种基于强化学习的周期调度时刻表生成方法。首先,将流量调度任务转换为树搜索问题,使之具有强化学习所需要的马尔可夫特性;随后,利用基于神经网络的强化学习算法对调度表进行探索,不断缩短延迟时间以优化调度表,且在训练完成后,可以直接使用到消息分布相近的任务中。与使用Yices等可满足模理论(SMT)形式化求解时间触发调度表方法相比,所提方法不会出现无法判定的问题,能够保证时间触发调度设计结果的正确性和优化性。对于包含1 000条消息的大型网络,所提方法的计算速度为SMT方法的数十倍以上,并且调度生成消息的端到端延迟在SMT方法的1%以下,大大提高了消息传输的及时性。 展开更多
关键词 时间触发 调度方法 强化学习 搜索 偏置时间
在线阅读 下载PDF
基于多智能体强化学习的无人艇集群集结方法 被引量:3
15
作者 夏家伟 刘志坤 +1 位作者 朱旭芳 刘忠 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第12期3365-3376,共12页
为解决数量不定的同构水面无人艇(USV)集群以期望队形协同集结的问题,提出一种基于多智能体强化学习(MARL)的分布式集群集结控制方法。针对USV通信感知能力约束,建立集群的动态交互图,通过引入二维网格状态特征编码的方法,构建维度不变... 为解决数量不定的同构水面无人艇(USV)集群以期望队形协同集结的问题,提出一种基于多智能体强化学习(MARL)的分布式集群集结控制方法。针对USV通信感知能力约束,建立集群的动态交互图,通过引入二维网格状态特征编码的方法,构建维度不变的智能体观测空间;采用集中式训练和分布式执行的多智能体近端策略优化(MAPPO)强化学习架构,分别设计策略网络和价值网络的状态空间和动作空间,定义收益函数;构建编队集结仿真环境,经过训练,所提方法能有效收敛。仿真结果表明:所提方法在不同期望队形、不同集群数量和部分智能体失效等场景中,均能成功实现快速集结,其灵活性和鲁棒性得到验证。 展开更多
关键词 无人艇 集群系统 多智能体强化学习 深度强化学习 集结方法 近端策略优化
在线阅读 下载PDF
多约束复杂环境下UAV航迹规划策略自学习方法 被引量:7
16
作者 邱月 郑柏通 蔡超 《计算机工程》 CAS CSCD 北大核心 2021年第5期44-51,共8页
在多约束复杂环境下,多数无人飞行器(UAV)航迹规划方法无法从历史经验中获得先验知识,导致对多变的环境适应性较差。提出一种基于深度强化学习的航迹规划策略自学习方法,利用飞行约束条件设计UAV的状态及动作模式,从搜索宽度和深度2个... 在多约束复杂环境下,多数无人飞行器(UAV)航迹规划方法无法从历史经验中获得先验知识,导致对多变的环境适应性较差。提出一种基于深度强化学习的航迹规划策略自学习方法,利用飞行约束条件设计UAV的状态及动作模式,从搜索宽度和深度2个方面降低航迹规划搜索规模,基于航迹优化目标设计奖惩函数,利用由卷积神经网络引导的蒙特卡洛树搜索(MCTS)算法学习得到航迹规划策略。仿真结果表明,该方法自学习得到的航迹规划策略具有泛化能力,相对未迭代训练的网络,该策略仅需17%的NN-MCTS仿真次数就可引导UAV在未知飞行环境中满足约束条件并安全无碰撞地到达目的地。 展开更多
关键词 深度强化学习 蒙特卡洛树搜索 航迹规划策略 策略学习 多约束 复杂环境
在线阅读 下载PDF
基于样本效率优化的深度强化学习方法综述 被引量:13
17
作者 张峻伟 吕帅 +2 位作者 张正昊 于佳玉 龚晓宇 《软件学报》 EI CSCD 北大核心 2022年第11期4217-4238,共22页
深度强化学习将深度学习的表示能力和强化学习的决策能力结合,因在复杂控制任务中效果显著而掀起研究热潮.以是否用Bellman方程为基准,将无模型深度强化学习方法分为Q值函数方法和策略梯度方法,并从模型构建方式、优化历程和方法评估等... 深度强化学习将深度学习的表示能力和强化学习的决策能力结合,因在复杂控制任务中效果显著而掀起研究热潮.以是否用Bellman方程为基准,将无模型深度强化学习方法分为Q值函数方法和策略梯度方法,并从模型构建方式、优化历程和方法评估等方面对两类方法分别进行了介绍.针对深度强化学习方法中样本效率低的问题进行讨论,根据两类方法的模型特性,说明了Q值函数方法过高估计问题和策略梯度方法采样无偏性约束分别是两类方法样本效率受限的主要原因.从增强探索效率和提高样本利用率两个角度,根据近年来的研究热点和趋势归纳出各类可行的优化方法,分析相关方法的优势和仍存在的问题,并对比其适用范围和优化效果.最后提出增强样本效率优化方法的通用性、探究两类方法间优化机制的迁移和提高理论完备性作为未来的研究方向. 展开更多
关键词 深度强化学习 Q值函数方法 策略梯度方法 样本效率 探索与利用
在线阅读 下载PDF
面向执行-学习者的在线强化学习并行训练方法 被引量:5
18
作者 孙正伦 乔鹏 +2 位作者 窦勇 李青青 李荣春 《计算机学报》 EI CAS CSCD 北大核心 2023年第2期229-243,共15页
近年来,深度强化学习(Deep Reinforcement Learning,DRL)已经成为了人工智能领域中的研究热点.为了加速DRL训练,人们提出了分布式强化学习方法用于提升训练速度.目前分布式强化学习可以分为同策略方法、异策略方法以及最新的近同策略方... 近年来,深度强化学习(Deep Reinforcement Learning,DRL)已经成为了人工智能领域中的研究热点.为了加速DRL训练,人们提出了分布式强化学习方法用于提升训练速度.目前分布式强化学习可以分为同策略方法、异策略方法以及最新的近同策略方法.近同策略方法改善了同策略方法和异策略方法的问题,但是由于其共享内存并行模型的限制,近同策略模型难以扩展到以网络互连的计算集群上,低可扩展性限制了近同策略方法能够利用的资源数量,增加了计算节点的负载,最终导致训练耗时增加.为了提升近同策略方法的可扩展性,提升收敛速度,本文提出了一种以消息传递为基础,使用Gossip算法与模型融合方法的并行执行者-学习者训练框架(Parallel Actor-Learner Architecture,PALA),这一方法通过增强训练的并行性和可扩展性来提升收敛速度.首先,该框架以Gossip算法作为通信基础,借助全局数据代理并使用消息传递模型创建了一套可扩展的多个并行单智能体训练方法.其次,为了保证探索-利用的同策略性,维持训练稳定,本文创建了一套可以用于多机之间进行隐式同步的进程锁.其次,本文面向含有CUDA张量的模型数据,提出了一种序列化方法,以保证模型数据能够通过节点间网络传递、聚合.最后,本文使用模型聚合方法对训练进行加速.基于上述优化和改进,PALA训练方法能够将负载均衡地映射到整个计算集群上,减少由于高负载而造成的长等待时间,提升收敛速度.实验表明,相较于之前使用共享内存模式的方法,PALA训练的智能体在达到相同水平时,训练时间缩减了20%以上,同时,PALA还有着较好的可扩展性,PALA可以扩展的硬件资源数量是原有方法的6倍以上.与其他方法相对比,PALA训练的智能体最终策略在几乎所有测试环境中达到了最优水平. 展开更多
关键词 Gossip算法 强化学习 策略学习 分布式强化学习 并行训练方法
在线阅读 下载PDF
融合引力搜索的双延迟深度确定策略梯度方法 被引量:3
19
作者 徐平安 刘全 +1 位作者 郝少璞 张立华 《软件学报》 EI CSCD 北大核心 2023年第11期5191-5204,共14页
近年来,深度强化学习在复杂控制任务中取得了令人瞩目的效果,然而由于超参数的高敏感性和收敛性难以保证等原因,严重影响了其对现实问题的适用性.元启发式算法作为一类模拟自然界客观规律的黑盒优化方法,虽然能够有效避免超参数的敏感性... 近年来,深度强化学习在复杂控制任务中取得了令人瞩目的效果,然而由于超参数的高敏感性和收敛性难以保证等原因,严重影响了其对现实问题的适用性.元启发式算法作为一类模拟自然界客观规律的黑盒优化方法,虽然能够有效避免超参数的敏感性,但仍存在无法适应待优化参数量规模巨大和样本使用效率低等问题.针对以上问题,提出融合引力搜索的双延迟深度确定策略梯度方法(twin delayed deep deterministic policy gradient based on gravitational search algorithm,GSA-TD3).该方法融合两类算法的优势:一是凭借梯度优化的方式更新策略,获得更高的样本效率和更快的学习速度;二是将基于万有引力定律的种群更新方法引入到策略搜索过程中,使其具有更强的探索性和更好的稳定性.将GSA-TD3应用于一系列复杂控制任务中,实验表明,与前沿的同类深度强化学习方法相比,GSA-TD3在性能上具有显著的优势. 展开更多
关键词 深度强化学习 元启发式算法 引力搜索 确定策略梯度 策略搜索
在线阅读 下载PDF
基于强化学习的全电推进卫星变轨优化方法 被引量:4
20
作者 韩明仁 王玉峰 《系统工程与电子技术》 EI CSCD 北大核心 2022年第5期1652-1661,共10页
采用电推力器实现自主轨道转移是全电推进卫星领域的关键技术之一。针对地球同步轨道(geostationary orbit,GEO)全电推进卫星的轨道提升问题,将广义优势估计(generalized advantage estimator,GAE)和近端策略优化(proximal policy optim... 采用电推力器实现自主轨道转移是全电推进卫星领域的关键技术之一。针对地球同步轨道(geostationary orbit,GEO)全电推进卫星的轨道提升问题,将广义优势估计(generalized advantage estimator,GAE)和近端策略优化(proximal policy optimization,PPO)方法相结合,在考虑多种轨道摄动影响以及地球阴影约束的情况下,提出了基于强化学习的时间最优小推力变轨策略优化方法。针对状态空间过大、奖励稀疏导致训练困难这一关键问题,提出了动作输出映射和分层奖励等训练加速方法,有效提升了训练效率,加快了收敛速度。数值仿真和结果对比表明,所提方法更加简单、灵活、高效,与传统的直接法、间接法以及反馈控制法相比,能够保证轨道转移时间的最优性。 展开更多
关键词 全电推进卫星 小推力变轨优化 强化学习 近端策略优化 训练加速方法
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部