期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于生成对抗模仿学习的路段非机动车行为仿真
1
作者 魏书樵 倪颖 +1 位作者 孙剑 邱红桐 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第4期105-115,共11页
为精准复现路段非机动车干扰行为,满足自动驾驶仿真测试需求,本文提出一种位置奖励增强的生成对抗模仿学习(Position Reward Augmented Generative Adversarial Imitation Learning,PRA-GAIL)方法训练仿真模型。城市道路中,干扰行为主... 为精准复现路段非机动车干扰行为,满足自动驾驶仿真测试需求,本文提出一种位置奖励增强的生成对抗模仿学习(Position Reward Augmented Generative Adversarial Imitation Learning,PRA-GAIL)方法训练仿真模型。城市道路中,干扰行为主要由电动自行车产生,故以电动自行车作为研究对象。在构建的仿真环境中,使用生成对抗模仿学习(GAIL)更新仿真模型使仿真轨迹逐步逼近真实轨迹,同时加入位置奖励与Lagrangian约束方法以解决现有仿真方法中的均质化和行为不可控的问题。结果表明:在测试集表现上,GAIL和PRA-GAIL方法平均每步长距离误差相比于常用的行为克隆方法下降了61.7%和65.8%。在行为层仿真精度上,与GAIL相比,PRAGAIL的加速度分布与真实分布间的KL散度显著降低,越线、超车数量的百分比误差下降了7.2%和20.2%。使用Lagrangian方法添加安全约束使有危险行为的智能体数量相比于常用的奖励增强方法下降了75.8%。在轨迹层仿真精度上,整体仿真环境下,PRA-GAIL的平均每步长距离误差相比于GAIL下降了17.5%。本文模型真实再现了非机动车超车时的操作空间,说明PRAGAIL方法对非机动车行为仿真有良好的适用性。本文提出的改动有效提升了仿真效果,最终所得的仿真模型能够真实地再现路段非机动车的干扰行为,能够应用于自动驾驶仿真测试。 展开更多
关键词 交通工程 非机动车行为 强化学习 生成对抗模仿学习 自动驾驶测试 微观交通仿真
在线阅读 下载PDF
基于混合模仿学习的多智能体追捕决策方法
2
作者 王焱宁 张锋镝 +1 位作者 肖登敏 孙中奇 《计算机科学》 北大核心 2025年第1期323-330,共8页
针对传统模仿学习方法在处理多样化专家轨迹时的局限性,尤其是难以有效整合质量参差不齐的固定模态专家数据的问题,创新性地融合了多专家轨迹生成对抗模仿学习(Multiple Trajectories Generative Adversarial Imitation Learning, MT-GA... 针对传统模仿学习方法在处理多样化专家轨迹时的局限性,尤其是难以有效整合质量参差不齐的固定模态专家数据的问题,创新性地融合了多专家轨迹生成对抗模仿学习(Multiple Trajectories Generative Adversarial Imitation Learning, MT-GAIL)方法与时序差分误差行为克隆(Temporal-Difference Error Behavioral Cloning, TD-BC)技术,构建了一种混合模仿学习框架。该框架不仅可以增强模型对复杂多变的专家策略的适应能力,还能够提升模型从低质量数据中提炼有用信息的鲁棒性。框架得到的模型具备直接应用于强化学习的能力,仅需经过细微的调整与优化,即可训练出一个直接可用的、基于专家经验的强化学习模型。在二维动静结合的目标追捕场景中进行了实验验证,该方法展现出良好的性能。结果表明,所提方法可以吸取专家经验,为后续的强化学习训练阶段提供一个起点高、效果佳的初始模型。 展开更多
关键词 智能决策 强化学习 行为克隆 生成对抗模仿学习
在线阅读 下载PDF
基于生成对抗网络的模仿学习综述 被引量:24
3
作者 林嘉豪 章宗长 +1 位作者 姜冲 郝建业 《计算机学报》 EI CSCD 北大核心 2020年第2期326-351,共26页
模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它可以分为行为克隆、基于逆向强化... 模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它可以分为行为克隆、基于逆向强化学习的模仿学习两类方法.基于逆向强化学习的模仿学习把模仿学习的过程分解成逆向强化学习和强化学习两个子过程,并反复迭代.逆向强化学习用于推导符合专家决策数据的奖赏函数,而强化学习基于该奖赏函数来学习策略.基于生成对抗网络的模仿学习方法从基于逆向强化学习的模仿学习发展而来,其中最早出现且最具代表性的是生成对抗模仿学习方法(Generative Adversarial Imitation Learning,简称GAIL).生成对抗网络由两个相对抗的神经网络构成,分别为判别器和生成器.GAIL的特点是用生成对抗网络框架求解模仿学习问题,其中,判别器的训练过程可类比奖赏函数的学习过程,生成器的训练过程可类比策略的学习过程.与传统模仿学习方法相比,GAIL具有更好的鲁棒性、表征能力和计算效率.因此,它能够处理复杂的大规模问题,并可拓展到实际应用中.然而,GAIL存在着模态崩塌、环境交互样本利用效率低等问题.最近,新的研究工作利用生成对抗网络技术和强化学习技术等分别对这些问题进行改进,并在观察机制、多智能体系统等方面对GAIL进行了拓展.本文先介绍了GAIL的主要思想及其优缺点,然后对GAIL的改进算法进行了归类、分析和对比,最后总结全文并探讨了可能的未来趋势. 展开更多
关键词 模仿学习 基于生成对抗网络的模仿学习 生成对抗模仿学习 模态崩塌 样本利用效率
在线阅读 下载PDF
面向知识图谱的二阶段复杂问句生成框架
4
作者 张琨 王元卓 +6 位作者 仇韫琦 白龙 江旭晖 侯坤 岑建何 沈华伟 程学旗 《电子学报》 北大核心 2025年第6期2104-2117,共14页
面向知识图谱的问句生成(Question Generation over Knowledge Graph,KGQG)任务是根据知识图谱(Knowledge Graph,KG)子图生成自然语言问句.现有方法通常是直接将实例化的KG子图转换为问句,并且大多采用教师强制(Teacher-Forcing)的训练... 面向知识图谱的问句生成(Question Generation over Knowledge Graph,KGQG)任务是根据知识图谱(Knowledge Graph,KG)子图生成自然语言问句.现有方法通常是直接将实例化的KG子图转换为问句,并且大多采用教师强制(Teacher-Forcing)的训练策略.然而,当前方法仍然面临两个主要挑战:(1)实例化的KG子图缺乏确定性查询意图的整合,导致输入与目标输出之间存在语义歧义现象;(2)采用教师强制训练策略训练的生成模型在推理阶段存在曝光偏差问题.为了缓解语义歧义带来的挑战,本文提出了一个复杂问句生成框架,其包括两个阶段,即事实-查询和查询-问句生成阶段.在第一阶段,本文设计了一个查询图生成器,将KG子图转换为具有不同查询意图的查询图.在第二阶段,本文提出了一个问句生成模型,该模型利用密集连接图卷积网络(Densely Connected Graph Convolutional Network,DCGCN)对查询图进行编码,并利用双向自回归变换器(Bidirectional and Auto-Regressive Transformers,BART)模型进行解码以生成问句.此外,为了减轻曝光偏差问题,本文引入了生成对抗模仿学习对问句生成模型进行训练.其中,所采用的判别器通过模仿标记数据自适应地学习奖励函数,并指导问句生成模型探索潜在问题空间中的高奖励区域.本文在三个广泛使用的数据集上进行了大量实验,结果表明所提出的框架具有显著的有效性. 展开更多
关键词 问句生成(KGQG) 知识图谱(KG) 文本生成 曝光偏差 生成对抗模仿学习
在线阅读 下载PDF
基于余弦相似度的多模态模仿学习方法 被引量:9
5
作者 郝少璞 刘全 +2 位作者 徐平安 张立华 黄志刚 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1358-1372,共15页
生成对抗模仿学习(generative adversarial imitation learning,GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning,IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而... 生成对抗模仿学习(generative adversarial imitation learning,GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning,IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而,现有的GAIL方法大部分假设专家样本产自于单一模态策略,导致生成对抗模仿学习只能学习到部分模态策略,即出现模式塌缩问题,这极大地限制了模仿学习方法在多模态任务中的应用.针对模式塌缩问题,提出了基于余弦相似度的多模态模仿学习方法(multi-modal imitation learning method with cosine similarity,MCS-GAIL).该方法引入编码器和策略组,通过编码器提取专家样本的模态特征,计算采样样本与专家样本之间特征的余弦相似度,并将其加入策略组的损失函数中,引导策略组学习对应模态的专家策略.此外,MCS-GAIL使用新的极小极大博弈公式指导策略组以互补的方式学习不同模态策略.在假设条件成立的情况下,通过理论分析证明了MCS-GAIL的收敛性.为了验证方法的有效性,将MCS-GAIL用于格子世界和MuJoCo平台上,并与现有模式塌缩方法进行比较.实验结果表明,MCS-GAIL在所有环境中均能有效学习到多个模态策略,且具有较高的准确性和稳定性. 展开更多
关键词 逆向强化学习 生成对抗模仿学习 多模态 模式塌缩 余弦相似度
在线阅读 下载PDF
基于GAIL方法的鱼类个体运动策略恢复方法
6
作者 宋婧菡 陈鹏宇 +4 位作者 徐俊 岳圣智 闵中原 刘晓阳 林远山 《现代电子技术》 北大核心 2025年第13期138-144,共7页
针对强化学习在鱼群行为策略中存在没有摆脱规则的限制、奖励函数依赖于先验规则、无法完全刻画物体行为策略的局限性,文中提出一种基于生成对抗模仿学习(GAIL)的方法,从鱼类集群运动轨迹数据中恢复个体运动轨迹策略。设计鱼类个体的状... 针对强化学习在鱼群行为策略中存在没有摆脱规则的限制、奖励函数依赖于先验规则、无法完全刻画物体行为策略的局限性,文中提出一种基于生成对抗模仿学习(GAIL)的方法,从鱼类集群运动轨迹数据中恢复个体运动轨迹策略。设计鱼类个体的状态和动作表示,利用全连接神经网络表达鱼类个体运动的决策过程,并在实验中使用一个学习者及多个使用Vicsek模型导航的教师个体进行验证。实验结果表明,GAIL方法能够有效恢复鱼类个体的轨迹行为策略,提供了一种高效的策略学习途径,能够应用于其他生物集群行为的研究和模拟。通过对集群行为的深入分析,揭示了个体间的互动规律和群体动态,为人工智能在生物行为研究中的应用提供了新的思路。 展开更多
关键词 生成对抗模仿学习 鱼类集群行为 运动策略恢复 人工智能应用 Vicsek模型 全连接神经网络
在线阅读 下载PDF
逆向强化学习研究综述 被引量:2
7
作者 张立华 刘全 +1 位作者 黄志刚 朱斐 《软件学报》 EI CSCD 北大核心 2023年第10期4772-4803,共32页
逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家... 逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向. 展开更多
关键词 逆向强化学习 模仿学习 生成对抗模仿学习 逆向最优控制 强化学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部