期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于离线学习输入整形的柔性关节机械臂振动控制研究 被引量:8
1
作者 贾鹏霄 周越 李鑫伟 《振动与冲击》 EI CSCD 北大核心 2018年第13期177-181,共5页
输入整形技术是抑制柔性关节机械臂残余振动的一种有效控制策略,然而传统的输入整形器,在设计时需要依赖系统精确的数学模型。针对这一问题,提出了一种新的两脉冲输入整形器参数学习策略;通过振动幅值测量,利用寻优方法(外推内插法和黄... 输入整形技术是抑制柔性关节机械臂残余振动的一种有效控制策略,然而传统的输入整形器,在设计时需要依赖系统精确的数学模型。针对这一问题,提出了一种新的两脉冲输入整形器参数学习策略;通过振动幅值测量,利用寻优方法(外推内插法和黄金分割法)离线调整整形器参数,不需要精确的数学模型即可找到使残余振动幅值最小的最优参数。为了验证所提方法的有效性,建立了柔性关节机械臂实验平台,进行了基于离线学习输入整形器的柔性关节机械臂振动控制实验。实验结果验证了所提方法的有效性和可行性。 展开更多
关键词 输入整形器 柔性关节机械臂 残余振动 离线学习
在线阅读 下载PDF
离线强化学习研究综述 被引量:2
2
作者 乌兰 刘全 +1 位作者 黄志刚 张立华 《计算机学报》 北大核心 2025年第1期156-187,共32页
离线强化学习也称为批量强化学习,是深度强化学习领域的一项重要研究内容。它利用行为策略生成静态数据集,无需在线和环境交互,成功地将大规模数据集转变成强大的决策引擎。近年来,离线强化学习方法得到了广泛关注和深入研究,并在实际... 离线强化学习也称为批量强化学习,是深度强化学习领域的一项重要研究内容。它利用行为策略生成静态数据集,无需在线和环境交互,成功地将大规模数据集转变成强大的决策引擎。近年来,离线强化学习方法得到了广泛关注和深入研究,并在实际应用中取得了瞩目的成绩。目前,该方法已经用于推荐系统、导航驾驶、自然语言处理、机器人控制以及医疗与能源等应用领域,并被看作是现实世界应用强化学习最具潜力的技术途径之一。该文首先介绍了离线强化学习的背景与理论基础。随后从求解思路出发,将离线强化学习方法分为无模型、基于模型和基于Transformer模型3大类,并对各类方法的研究现状与发展趋势进行分析。同时,对比了目前3个最流行的实验环境D4RL、RL Unplugged和NeoRL。进而介绍了离线强化学习技术在现实世界诸多领域的应用。最后,对离线强化学习进行总结与展望,以此推动更多该领域的研究工作。 展开更多
关键词 人工智能 强化学习 深度强化学习 离线强化学习 批量强化学习
在线阅读 下载PDF
基于离线强化学习的四旋翼飞行器姿态控制
3
作者 郝禹哲 王振雷 +1 位作者 王昕 刘天波 《控制工程》 北大核心 2025年第8期1395-1404,共10页
针对四旋翼飞行器的姿态控制与目标导航问题,提出了一种基于离线强化学习的控制和目标导航算法。首先,对TD3BC(twin delayed deep deterministic behavioral cloning)算法进行改进,以变分自编码器抽样动作的Q值作为基准,只将数据集中具... 针对四旋翼飞行器的姿态控制与目标导航问题,提出了一种基于离线强化学习的控制和目标导航算法。首先,对TD3BC(twin delayed deep deterministic behavioral cloning)算法进行改进,以变分自编码器抽样动作的Q值作为基准,只将数据集中具有较高Q值的动作作为约束添加到策略网络的损失函数中,降低了行为克隆项的约束强度,避免了低质量数据训练导致最优动作偏移。然后,基于Mujoco仿真平台构建了四旋翼飞行器的仿真环境,实现离线条件下Q网络与策略网络的训练,并对比了3种强化学习算法在姿态控制和目标导航任务下的效果。仿真结果表明,所提出的算法不仅能够有效地控制飞行器的姿态,还能用较短的飞行轨迹达到导航目标,具有较好的故障容错能力。 展开更多
关键词 四旋翼飞行器 离线强化学习 外延误差 姿态控制
在线阅读 下载PDF
一种基于确定性环境模型的离线强化学习方法
4
作者 汤瑞航 黄初华 秦进 《计算机应用研究》 北大核心 2025年第5期1352-1355,共4页
现有的基于模型的离线强化学习方法中,大多着力于研究不同形式的保守主义应用,而忽略了对该类方法至关重要的部分——环境模型的研究。为了补充对环境模型影响的研究,提出了一种基于确定性模型的离线强化学习算法(deterministic model-b... 现有的基于模型的离线强化学习方法中,大多着力于研究不同形式的保守主义应用,而忽略了对该类方法至关重要的部分——环境模型的研究。为了补充对环境模型影响的研究,提出了一种基于确定性模型的离线强化学习算法(deterministic model-based offline reinforcement learning,DMO)。首先,DMO针对离线数据与在线模型算法中数据特性的不一致,提出了一种适合离线RL问题的确定性建模环境的方法。其次,DMO使用转移中状态动作对在分布内的程度来衡量整个转移的不确定性,进而提出了基于不确定性衡量的奖励调整和模拟轨迹截断控制方法。DMO在D4RL的十二个机器人控制任务中进行了评估。最终在所有的测试任务中,DMO在以TD3+BC、BEAR、COMBO等算法为基线的比较中实现了8.2%~38%的平均得分提升。 展开更多
关键词 离线强化学习 基于模型的强化学习 不确定性度量
在线阅读 下载PDF
基于梯度损失的离线强化学习算法
5
作者 陈鹏宇 刘士荣 +2 位作者 段帅 端军红 刘扬 《自动化学报》 北大核心 2025年第6期1218-1232,共15页
离线强化学习领域面临的核心挑战在于如何避免分布偏移并限制值函数的过估计问题.尽管传统的TD3+BC算法通过引入行为克隆正则项,有效地约束了习得策略,使其更接近行为策略,从而在一定程度上得到有竞争力的性能,但其策略稳定性在训练过... 离线强化学习领域面临的核心挑战在于如何避免分布偏移并限制值函数的过估计问题.尽管传统的TD3+BC算法通过引入行为克隆正则项,有效地约束了习得策略,使其更接近行为策略,从而在一定程度上得到有竞争力的性能,但其策略稳定性在训练过程中仍有待提高.尤其在现实世界中,策略验证可能涉及高昂的成本,因此提高策略稳定性尤为关键.该研究受到深度学习中“平坦最小值”概念的启发,旨在探索目标策略损失函数在动作空间中的平坦区域,以得到稳定策略.为此,提出一种梯度损失函数,并基于此设计一种新的离线强化学习算法——梯度损失离线强化学习算法(GLO).在D4RL基准数据集上的实验结果表明,GLO算法在性能上超越了当前的主流算法.此外,还尝试将该研究的方法扩展到在线强化学习领域,实验结果证明了该方法在在线强化学习环境下的普适性和有效性. 展开更多
关键词 强化学习 离线强化学习 平坦最小值 梯度最小化
在线阅读 下载PDF
DPC-DQRL:动态行为克隆约束的离线-在线双Q值强化学习
6
作者 闫雷鸣 刘健 朱永昕 《计算机应用研究》 北大核心 2025年第4期1003-1010,共8页
离线-在线强化学习旨在使用少量在线微调来提高预训练模型的性能。现有方法主要包括无约束微调与约束微调。前者往往由于分布偏移过大而导致严重的策略崩溃;后者由于保留离线约束导致性能提升缓慢,影响训练效率。为了改善上述问题,可视... 离线-在线强化学习旨在使用少量在线微调来提高预训练模型的性能。现有方法主要包括无约束微调与约束微调。前者往往由于分布偏移过大而导致严重的策略崩溃;后者由于保留离线约束导致性能提升缓慢,影响训练效率。为了改善上述问题,可视化对比分析两类方法的微调过程,发现不准确的Q值估计是影响性能的主要原因,并提出了一种动态策略约束的双Q值强化学习算法(DPC-DQRL)。首先,该算法设计了遵循记忆遗忘规律的动态行为克隆约束,在微调过程中动态调整约束强度;其次,构建离线-在线双Q值网络,引入离线动作价值网络参与Q值估计,提高微调过程中Q值的准确性。在Gym仿真平台使用MuJoCo物理引擎进行了Halfcheetah、Hopper、Walker2D三个经典仿真任务,使用DPC-DQRL算法微调后性能比原预训练模型分别提升47%、63%、20%,所有任务的平均归一化得分比最优基线算法提升10%。实验结果表明,DPC-DQRL在提升模型性能的同时保证了模型的稳定,与其他算法相比具有一定的优越性。 展开更多
关键词 深度强化学习 离线-在线强化学习 动态策略约束 Q值估计
在线阅读 下载PDF
基于不确定性权重的保守Q学习离线强化学习算法 被引量:2
7
作者 王天久 刘全 乌兰 《计算机科学》 CSCD 北大核心 2024年第9期265-272,共8页
离线强化学习(Offline RL)中,智能体不与环境交互而是从一个固定的数据集中获得数据进行学习,这是强化学习领域研究的一个热点。目前多数离线强化学习算法对策略训练过程进行保守正则化处理,训练策略倾向于选择存在于数据集中的动作,从... 离线强化学习(Offline RL)中,智能体不与环境交互而是从一个固定的数据集中获得数据进行学习,这是强化学习领域研究的一个热点。目前多数离线强化学习算法对策略训练过程进行保守正则化处理,训练策略倾向于选择存在于数据集中的动作,从而解决离线强化学习中对数据集分布外(OOD)的状态-动作价值估值错误的问题。保守Q学习算法(CQL)通过值函数正则赋予分布外状态-动作较低的价值来避免该问题。然而,由于该算法正则化过于保守,数据集内的分布内状态-动作也被赋予了较低的价值,难以达到训练策略选择数据集中动作的目的,因此很难学习到最优策略。针对该问题,提出了一种基于不确定性权重的保守Q学习算法(UWCQL)。该方法引入不确定性计算,在保守Q学习算法的基础上添加不确定性权重,对不确定性高的动作给予更高的保守权重,使得策略能更合理地选择数据集分布内的状态-动作。将UWCQL算法应用于D4RL的MuJoCo数据集中进行了实验,实验结果表明,UWCQL算法具有更好的性能表现,从而验证了算法的有效性。 展开更多
关键词 离线强化学习 深度强化学习 强化学习 保守Q学习 不确定性
在线阅读 下载PDF
无人系统中离线强化学习的隐蔽数据投毒攻击方法 被引量:2
8
作者 周雪 苘大鹏 +4 位作者 许晨 吕继光 曾凡一 高朝阳 杨武 《通信学报》 CSCD 北大核心 2024年第12期16-27,共12页
针对现有离线强化学习数据投毒攻击方法有效性及隐蔽性不足的问题,提出一种关键时间步动态投毒攻击方法,通过对重要性较高的样本进行动态扰动,实现高效隐蔽的攻击效果。具体来说,通过理论分析发现时序差分误差对于模型学习过程具有重要... 针对现有离线强化学习数据投毒攻击方法有效性及隐蔽性不足的问题,提出一种关键时间步动态投毒攻击方法,通过对重要性较高的样本进行动态扰动,实现高效隐蔽的攻击效果。具体来说,通过理论分析发现时序差分误差对于模型学习过程具有重要影响,将其作为投毒目标选择的依据;进一步提出基于双目标优化的投毒方法,在最小化扰动幅度的同时,最大化攻击对模型性能产生的负面影响,为每个投毒样本生成最优扰动幅度。在多种任务及算法中的实验结果表明,所提攻击方法仅在投毒比例为整体数据1%的情况下,就能使智能体的平均性能下降84%,揭示了无人系统中离线强化学习模型的敏感性及脆弱性。 展开更多
关键词 无人系统 离线强化学习 数据投毒攻击 数据安全
在线阅读 下载PDF
基于优先采样模型的离线强化学习 被引量:4
9
作者 顾扬 程玉虎 王雪松 《自动化学报》 EI CAS CSCD 北大核心 2024年第1期143-153,共11页
离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于... 离线强化学习通过减小分布偏移实现了习得策略向行为策略的逼近,但离线经验缓存的数据分布往往会直接影响习得策略的质量.通过优化采样模型来改善强化学习智能体的训练效果,提出两种离线优先采样模型:基于时序差分误差的采样模型和基于鞅的采样模型.基于时序差分误差的采样模型可以使智能体更多地学习值估计不准确的经验数据,通过估计更准确的值函数来应对可能出现的分布外状态.基于鞅的采样模型可以使智能体更多地学习对策略优化有利的正样本,减少负样本对值函数迭代的影响.进一步,将所提离线优先采样模型分别与批约束深度Q学习(Batch-constrained deep Q-learning,BCQ)相结合,提出基于时序差分误差的优先BCQ和基于鞅的优先BCQ.D4RL和Torcs数据集上的实验结果表明:所提离线优先采样模型可以有针对性地选择有利于值函数估计或策略优化的经验数据,获得更高的回报. 展开更多
关键词 离线强化学习 优先采样模型 时序差分误差 批约束深度Q学习
在线阅读 下载PDF
基于表征学习的离线强化学习方法研究综述 被引量:3
10
作者 王雪松 王荣荣 程玉虎 《自动化学报》 EI CAS CSCD 北大核心 2024年第6期1104-1128,共25页
强化学习(Reinforcement learning,RL)通过智能体与环境在线交互来学习最优策略,近年来已成为解决复杂环境下感知决策问题的重要手段.然而,在线收集数据的方式可能会引发安全、时间或成本等问题,极大限制了强化学习在实际中的应用.与此... 强化学习(Reinforcement learning,RL)通过智能体与环境在线交互来学习最优策略,近年来已成为解决复杂环境下感知决策问题的重要手段.然而,在线收集数据的方式可能会引发安全、时间或成本等问题,极大限制了强化学习在实际中的应用.与此同时,原始数据的维度高且结构复杂,解决复杂高维数据输入问题也是强化学习面临的一大挑战.幸运的是,基于表征学习的离线强化学习能够仅从历史经验数据中学习策略,而无需与环境产生交互.它利用表征学习技术将离线数据集中的特征表示为低维向量,然后利用这些向量来训练离线强化学习模型.这种数据驱动的方式为实现通用人工智能提供了新契机.为此,对近期基于表征学习的离线强化学习方法进行全面综述.首先给出离线强化学习的形式化描述,然后从方法、基准数据集、离线策略评估与超参数选择3个层面对现有技术进行归纳整理,进一步介绍离线强化学习在工业、推荐系统、智能驾驶等领域中的研究动态.最后,对全文进行总结,并探讨基于表征学习的离线强化学习未来所面临的关键挑战与发展趋势,以期为后续的研究提供有益参考. 展开更多
关键词 强化学习 离线强化学习 表征学习 历史经验数据 分布偏移
在线阅读 下载PDF
基于自适应不确定性度量的离线强化学习算法
11
作者 张伯雷 刘哲闰 《南京邮电大学学报(自然科学版)》 北大核心 2024年第4期98-104,共7页
离线强化学习可以从历史经验数据中直接学习出可执行的策略,由此来避免与在线环境的高代价交互,可应用于机器人控制、无人驾驶、智能营销等多种真实场景。有模型的离线强化学习首先通过监督学习构造环境模型,并通过与该环境模型交互来... 离线强化学习可以从历史经验数据中直接学习出可执行的策略,由此来避免与在线环境的高代价交互,可应用于机器人控制、无人驾驶、智能营销等多种真实场景。有模型的离线强化学习首先通过监督学习构造环境模型,并通过与该环境模型交互来优化学习策略,具有样本效率高的特点,是最常用的离线强化学习算法。然而,由于离线数据集存在分布偏移问题,现有的方法往往通过静态的方法来评估此种不确定性,无法动态自适应于智能体策略的优化过程。针对以上问题,提出一种自适应的不确定性度量方法,首先对状态的不确定性进行估计,然后通过动态自适应的方法来衡量环境模型的不确定性,从而使得智能体可以在探索-保守中取得更好的平衡。在多个基准的离线数据集对算法进行了验证,实验结果表明,该算法在多个数据集中都取得最好的效果,消融实验等也验证了所提方法的有效性。 展开更多
关键词 离线强化学习 环境模型 自适应权重 不确定性度量
在线阅读 下载PDF
基于离线强化学习的研究综述
12
作者 陈锶奇 耿婕 +3 位作者 汪云飞 余伟驰 赵佳宁 王仕超 《无线电通信技术》 北大核心 2024年第5期831-842,共12页
离线强化学习作为一种新兴范式,凭借其无需与环境交互即可利用大量离线数据进行策略学习的特性,展现出了很高的应用潜力和价值,特别是在医疗、自动驾驶等高风险领域中具有显著优势。从离线强化学习的基本概念、核心问题、主要方法依次展... 离线强化学习作为一种新兴范式,凭借其无需与环境交互即可利用大量离线数据进行策略学习的特性,展现出了很高的应用潜力和价值,特别是在医疗、自动驾驶等高风险领域中具有显著优势。从离线强化学习的基本概念、核心问题、主要方法依次展开,重点介绍多种缓解主要问题的方法:分布偏移的策略,包括约束目标策略与行为策略对齐、价值函数约束、模型不确定性量化以及基于模型的离线强化学习方法。讨论了目前离线强化学习的模拟环境以及重要应用场景。 展开更多
关键词 强化学习 离线强化学习 自动决策 外推误差
在线阅读 下载PDF
基于潜在状态分布GPT的离线多智能体强化学习方法
13
作者 盛蕾 陈希亮 赖俊 《计算机科学与探索》 CSCD 北大核心 2024年第8期2169-2179,共11页
通过决策Transformer对基础模型进行离线预训练可以有效地解决在线多智能体强化学习采样效率低和可扩展性的问题,但这种生成预训练方法在个体奖励难以定义和数据集不能覆盖最优策略的多智能体任务中表现不佳。针对此问题,采用潜在状态... 通过决策Transformer对基础模型进行离线预训练可以有效地解决在线多智能体强化学习采样效率低和可扩展性的问题,但这种生成预训练方法在个体奖励难以定义和数据集不能覆盖最优策略的多智能体任务中表现不佳。针对此问题,采用潜在状态分布改进决策Transformer,提出了一种融合离线预训练和在线微调的多智能体强化学习算法。该算法利用自编码器和独热编码方法生成离散的潜在状态表示,保留了原始状态空间中某些重要的信息;通过潜在的临时抽象改进生成式预训练的决策Transformer,类似于数据增益的技术,在一定程度上解决了未充分覆盖状态空间的离线数据集导致的外推误差问题;采用集中训练和分散执行的方式解决在线微调时智能体的信度分配问题;通过鼓励探索的多智能体策略梯度算法在下游任务中进一步探索协同策略。在星际争霸仿真平台上进行实验,与基线算法相比,在较少甚至没有离线轨迹数据的任务中得分更高,泛化能力更强。 展开更多
关键词 离线多智能体强化学习 分布式学习 表示学习 大语言模型
在线阅读 下载PDF
基于离线强化学习的交叉口生态驾驶控制 被引量:7
14
作者 张健 姜夏 +2 位作者 史晓宇 程健 郑岳标 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第4期762-769,共8页
针对传统强化学习算法在现实场景下训练难以实现的问题,提出一种基于离线强化学习的自适应车辆交叉口生态驾驶控制策略.首先,将车辆油耗与行驶距离作为复合奖励函数的一部分,构造了V2I(vehicle-to-infrastructure)下的车辆交叉口马尔可... 针对传统强化学习算法在现实场景下训练难以实现的问题,提出一种基于离线强化学习的自适应车辆交叉口生态驾驶控制策略.首先,将车辆油耗与行驶距离作为复合奖励函数的一部分,构造了V2I(vehicle-to-infrastructure)下的车辆交叉口马尔可夫决策过程.通过在SUMO仿真软件中利用GLOSA系统收集少量训练数据,基于BCQ(batch-constrained deep Q-learning)算法进行离线训练,解决了离线数据与真实场景下分布偏移的问题.将模型部署在仿真环境,实验结果表明,在单交叉口与多交叉口情景,几乎不牺牲车辆机动性的前提下,能耗经济性可以分别提升25.14%和11.49%.此外,对不同V2I通信距离进行分析,发现随着通信距离的增加,算法控制效果与稳定性均有所提升,为工程实践提供了借鉴. 展开更多
关键词 智能交通系统 信号交叉口 生态驾驶 离线强化学习
在线阅读 下载PDF
结合对比预测的离线元强化学习方法 被引量:1
15
作者 韩旭 吴锋 《计算机科学与探索》 CSCD 北大核心 2023年第8期1917-1927,共11页
传统的强化学习算法与环境进行大量交互才能获取稳定的动作选择策略,且无法有效应对任务环境发生改变的情况,因此难以应用于实际问题。离线元强化学习通过使用包含多个任务的经验回放数据集进行离线策略学习,为复杂情况下智能体快速适... 传统的强化学习算法与环境进行大量交互才能获取稳定的动作选择策略,且无法有效应对任务环境发生改变的情况,因此难以应用于实际问题。离线元强化学习通过使用包含多个任务的经验回放数据集进行离线策略学习,为复杂情况下智能体快速适应新任务提供了一种有效方法。将离线元强化学习算法应用于复杂任务将会面临两个挑战:首先,由于无法与环境进行充分交互,离线强化学习算法会错误估计数据集外动作的价值,进而选择次优动作;其次,元强化学习算法不仅需要学习动作选择策略,还需要具备稳健而高效的任务推理能力。针对上述挑战,提出一种结合对比预测的离线元强化学习算法。为了应对价值函数的错误估计问题,该算法使用行为克隆技术鼓励策略选择包含在数据集中的动作。为了提高元学习的任务推理能力,该算法使用循环神经网络对智能体上下文轨迹进行任务推理,并利用对比学习和预测网络来分析辨别不同任务轨迹中的潜在结构。实验结果表明,相比现有方法,使用该算法训练得到的智能体在面对未见过的任务时的得分提高了25个百分点以上,并且具有更高的元训练效率和更好的泛化性能。 展开更多
关键词 深度强化学习 离线元强化学习 对比学习
在线阅读 下载PDF
基于不确定性估计的离线确定型Actor-Critic 被引量:1
16
作者 冯涣婷 程玉虎 王雪松 《计算机学报》 EI CAS CSCD 北大核心 2024年第4期717-732,共16页
Actor-Critic是一种强化学习方法,通过与环境在线试错交互收集样本来学习策略,是求解序贯感知决策问题的有效手段.但是,这种在线交互的主动学习范式在一些复杂真实环境中收集样本时会带来成本和安全问题离线强化学习作为一种基于数据驱... Actor-Critic是一种强化学习方法,通过与环境在线试错交互收集样本来学习策略,是求解序贯感知决策问题的有效手段.但是,这种在线交互的主动学习范式在一些复杂真实环境中收集样本时会带来成本和安全问题离线强化学习作为一种基于数据驱动的强化学习范式,强调从静态样本数据集中学习策略,与环境无探索交互,为机器人、自动驾驶、健康护理等真实世界部署应用提供了可行的解决方案,是近年来的研究热点.目前,离线强化学习方法存在学习策略和行为策略之间的分布偏移挑战,针对这个挑战,通常采用策略约束或值函数正则化来限制访问数据集分布之外(Out-Of-Distribution,OOD)的动作,从而导致学习性能过于保守,阻碍了值函数网络的泛化和学习策略的性能提升.为此,本文利用不确定性估计和OOD采样来平衡值函数学习的泛化性和保守性,提出一种基于不确定性估计的离线确定型Actor-Critic方法(Offline Deterministic Actor-Critic based on UncertaintyEstimation,ODACUE).首先,针对确定型策略,给出一种Q值函数的不确定性估计算子定义,理论证明了该算子学到的Q值函数是最优Q值函数的一种悲观估计.然后,将不确定性估计算子应用于确定型Actor-Critic框架中,通过对不确定性估计算子进行凸组合构造Critic学习的目标函数.最后,D4RL基准数据集任务上的实验结果表明:相较于对比算法,ODACUE在11个不同质量等级数据集任务中的总体性能提升最低达9.56%,最高达64.92%.此外,参数分析和消融实验进一步验证了ODACUE的稳定性和泛化能力. 展开更多
关键词 离线强化学习 不确定性估计 分布外采样 凸组合 Actor-Critic
在线阅读 下载PDF
安全强化学习综述 被引量:18
17
作者 王雪松 王荣荣 程玉虎 《自动化学报》 EI CAS CSCD 北大核心 2023年第9期1813-1835,共23页
强化学习(Reinforcement learning,RL)在围棋、视频游戏、导航、推荐系统等领域均取得了巨大成功.然而,许多强化学习算法仍然无法直接移植到真实物理环境中.这是因为在模拟场景下智能体能以不断试错的方式与环境进行交互,从而学习最优策... 强化学习(Reinforcement learning,RL)在围棋、视频游戏、导航、推荐系统等领域均取得了巨大成功.然而,许多强化学习算法仍然无法直接移植到真实物理环境中.这是因为在模拟场景下智能体能以不断试错的方式与环境进行交互,从而学习最优策略.但考虑到安全因素,很多现实世界的应用则要求限制智能体的随机探索行为.因此,安全问题成为强化学习从模拟到现实的一个重要挑战.近年来,许多研究致力于开发安全强化学习(Safe reinforcement learning,SRL)算法,在确保系统性能的同时满足安全约束.本文对现有的安全强化学习算法进行全面综述,将其归为三类:修改学习过程、修改学习目标、离线强化学习,并介绍了5大基准测试平台:Safety Gym、safe-control-gym、SafeRL-Kit、D4RL、NeoRL.最后总结了安全强化学习在自动驾驶、机器人控制、工业过程控制、电力系统优化和医疗健康领域中的应用,并给出结论与展望. 展开更多
关键词 安全强化学习 约束马尔科夫决策过程 学习过程 学习目标 离线强化学习
在线阅读 下载PDF
面向复杂交通场景的自动驾驶运动规划模型 被引量:1
18
作者 任佳佳 柳寅奎 +2 位作者 胡学敏 向宸 罗显志 《计算机工程与应用》 CSCD 北大核心 2024年第15期91-100,共10页
针对现有自动驾驶运动规划方法存在未能有效利用长时间连续的时间特征以及在复杂交通场景中成功率低的问题,提出一种基于Transformer的复杂交通场景自动驾驶运动规划模型。该方法以GPT-2为基础模型,通过对离线强化学习进行时序建模,能... 针对现有自动驾驶运动规划方法存在未能有效利用长时间连续的时间特征以及在复杂交通场景中成功率低的问题,提出一种基于Transformer的复杂交通场景自动驾驶运动规划模型。该方法以GPT-2为基础模型,通过对离线强化学习进行时序建模,能够有效表征离线强化学习模型中车辆的状态、动作、奖励数据长时间的依赖关系,让模型能够更有效地从历史规划数据中学习,提高在复杂交通场景中规划的准确性和安全性。实验运用MetaDrive模拟器进行仿真测试,结果表明在汇入主路、进入环岛等复杂交通场景中取得了高达93%的成功率,比现有先进的行为克隆算法、策略约束算法、基于双延迟深度确定性策略的行为克隆算法的成功率分别高20、19、13个百分点,说明该方法相比对比方法能够更有效地从质量不高的数据集中学习驾驶策略,具有更好的泛化性能和鲁棒性。 展开更多
关键词 TRANSFORMER 离线强化学习 复杂交通场景 自动驾驶 运动规划
在线阅读 下载PDF
基于策略蒸馏主仆框架的优势加权双行动者-评论家算法
19
作者 杨皓麟 刘全 《计算机科学》 CSCD 北大核心 2024年第11期81-94,共14页
离线强化学习(Offline RL)定义了从固定批次的数据集中学习的任务,能够规避与环境交互的风险,提高学习的效率与稳定性。其中优势加权行动者-评论家算法提出了一种将样本高效动态规划与最大似然策略更新相结合的方法,在利用大量离线数据... 离线强化学习(Offline RL)定义了从固定批次的数据集中学习的任务,能够规避与环境交互的风险,提高学习的效率与稳定性。其中优势加权行动者-评论家算法提出了一种将样本高效动态规划与最大似然策略更新相结合的方法,在利用大量离线数据的同时,快速执行在线精细化策略的调整。但是该算法使用随机经验回放机制,同时行动者-评论家模型只采用一套行动者,数据采样与回放不平衡。针对以上问题,提出一种基于策略蒸馏并进行数据经验优选回放的优势加权双行动者-评论家算法(Advantage Weighted Double Actors-Critics Based on Policy Distillation with Data Experience Optimization and Replay,DOR-PDAWAC),该算法采用偏好新经验并重复回放新旧经验的机制,利用双行动者增加探索,并运用基于策略蒸馏的主从框架,将行动者分为主行为者和从行为者,提升协作效率。将所提算法应用到通用D4RL数据集中的MuJoCo任务上进行消融实验与对比实验,结果表明,其学习效率等均获得了更优的表现。 展开更多
关键词 离线强化学习 深度强化学习 策略蒸馏 双行动者-评论家框架 经验回放机制
在线阅读 下载PDF
乒乓球机器人击打点的预测方法 被引量:14
20
作者 彭博 洪永潮 +1 位作者 杜森森 韦巍 《江南大学学报(自然科学版)》 CAS 2007年第4期433-437,共5页
针对乒乓球机器人项目中乒乓球击打点位置及球到达击打点速度的预测问题进行探讨,分别建立了乒乓球飞行阶段的状态方程模型和乒乓球反弹过程的运动模型.基于这两个模型,提出了一种主要通过状态方程数值迭代求解而进行击打点预测的方法.... 针对乒乓球机器人项目中乒乓球击打点位置及球到达击打点速度的预测问题进行探讨,分别建立了乒乓球飞行阶段的状态方程模型和乒乓球反弹过程的运动模型.基于这两个模型,提出了一种主要通过状态方程数值迭代求解而进行击打点预测的方法.同时又提出一种离线学习来确定模型中待定参数的方法,以完成不同条件下的预测.针对乒乓球的空间坐标带有较大噪声的特点,在预测过程中特别注意增强容错性的处理.实验结果表明,这种方法具有较高的预测精度,且应用该方法所需的时间能够满足预测的实时性要求. 展开更多
关键词 乒乓球机器人 击打点预测 离线学习 容错性
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部