检索结果-维普期刊中文期刊服务平台

期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

共找到7篇文章

< 1 >

每页显示 20 50 100

已选择0条

导出题录引用分析

统计分析

显示方式：

文摘详细列表

相关度排序被引量排序时效性排序

基于生成对抗模仿学习的路段非机动车行为仿真: 1; 作者魏书樵倪颖 +1 位作者孙剑邱红桐《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第4期105-115,共11页; 为精准复现路段非机动车干扰行为,满足自动驾驶仿真测试需求,本文提出一种位置奖励增强的生成对抗模仿学习(Position Reward Augmented Generative Adversarial Imitation Learning,PRA-GAIL)方法训练仿真模型。城市道路中,干扰行为主... 展开更多; 关键词交通工程非机动车行为强化学习生成对抗模仿学习自动驾驶测试微观交通仿真; 在线阅读下载PDF 职称材料

基于混合模仿学习的多智能体追捕决策方法: 2; 作者王焱宁张锋镝 +1 位作者肖登敏孙中奇《计算机科学》北大核心 2025年第1期323-330,共8页; 针对传统模仿学习方法在处理多样化专家轨迹时的局限性,尤其是难以有效整合质量参差不齐的固定模态专家数据的问题,创新性地融合了多专家轨迹生成对抗模仿学习(Multiple Trajectories Generative Adversarial Imitation Learning, MT-GA... 展开更多; 关键词智能决策强化学习行为克隆生成对抗模仿学习; 在线阅读下载PDF 职称材料

基于生成对抗网络的模仿学习综述被引量：24: 3; 作者林嘉豪章宗长 +1 位作者姜冲郝建业《计算机学报》 EI CSCD 北大核心 2020年第2期326-351,共26页; 模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它可以分为行为克隆、基于逆向强化... 展开更多; 关键词模仿学习基于生成对抗网络的模仿学习生成对抗模仿学习模态崩塌样本利用效率; 在线阅读下载PDF 职称材料

面向知识图谱的二阶段复杂问句生成框架: 4; 作者张琨王元卓 +6 位作者仇韫琦白龙江旭晖侯坤岑建何沈华伟程学旗《电子学报》北大核心 2025年第6期2104-2117,共14页; 面向知识图谱的问句生成(Question Generation over Knowledge Graph,KGQG)任务是根据知识图谱(Knowledge Graph,KG)子图生成自然语言问句.现有方法通常是直接将实例化的KG子图转换为问句,并且大多采用教师强制(Teacher-Forcing)的训练... 展开更多; 关键词问句生成(KGQG) 知识图谱(KG) 文本生成曝光偏差生成对抗模仿学习; 在线阅读下载PDF 职称材料

基于余弦相似度的多模态模仿学习方法被引量：9: 5; 作者郝少璞刘全 +2 位作者徐平安张立华黄志刚《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1358-1372,共15页; 生成对抗模仿学习(generative adversarial imitation learning,GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning,IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而... 展开更多; 关键词逆向强化学习生成对抗模仿学习多模态模式塌缩余弦相似度; 在线阅读下载PDF 职称材料

基于GAIL方法的鱼类个体运动策略恢复方法: 6; 作者宋婧菡陈鹏宇 +4 位作者徐俊岳圣智闵中原刘晓阳林远山《现代电子技术》北大核心 2025年第13期138-144,共7页; 针对强化学习在鱼群行为策略中存在没有摆脱规则的限制、奖励函数依赖于先验规则、无法完全刻画物体行为策略的局限性,文中提出一种基于生成对抗模仿学习(GAIL)的方法,从鱼类集群运动轨迹数据中恢复个体运动轨迹策略。设计鱼类个体的状... 展开更多; 关键词生成对抗模仿学习鱼类集群行为运动策略恢复人工智能应用 Vicsek模型全连接神经网络; 在线阅读下载PDF 职称材料

逆向强化学习研究综述被引量：2: 7; 作者张立华刘全 +1 位作者黄志刚朱斐《软件学报》 EI CSCD 北大核心 2023年第10期4772-4803,共32页; 逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家... 展开更多; 关键词逆向强化学习模仿学习生成对抗模仿学习逆向最优控制强化学习; 在线阅读下载PDF 职称材料

已选择0条

导出题录引用分析

统计分析

上一页 1 下一页到第页

使用帮助返回顶部