期刊文献+
共找到122篇文章
< 1 2 7 >
每页显示 20 50 100
两个企业自主研发与学习模仿的博弈分析 被引量:3
1
作者 朱春峰 涂国平 《现代管理科学》 CSSCI 2008年第1期77-79,共3页
自主研发可以提高企业竞争力,提高企业在市场中的优势地位,学习模仿有利于企业实现跨越式发展,因此,现实中,大多数企业都在自主研发与学习模仿之间进行博弈,博弈的结果直接决定企业是否进行自主创新。因此,对这类问题作深入的分析和研究... 自主研发可以提高企业竞争力,提高企业在市场中的优势地位,学习模仿有利于企业实现跨越式发展,因此,现实中,大多数企业都在自主研发与学习模仿之间进行博弈,博弈的结果直接决定企业是否进行自主创新。因此,对这类问题作深入的分析和研究,对有效调动企业自主创新的积极性,从而提高我国企业自主创新能力具有重要的理论价值和实践指导意义。文章提出了"理想收益率"和"绝对触发点"的概念,并运用这两个概念对自主研发和学习模仿的博弈均衡进行了分析,据此提出了管理建议。 展开更多
关键词 自主研发 学习模仿 博弈 研发模式
在线阅读 下载PDF
基于双缓冲区生成对抗模仿学习的电力系统实时安全约束经济调度
2
作者 李东颖 朱建全 陈一熙 《电网技术》 北大核心 2025年第3期1121-1129,I0076-I0079,共13页
随着新能源渗透率不断攀升,电力系统波动性和随机性日趋加剧,电网安全经济运行正面临着严峻挑战。为此,该文提出了一种基于改进生成对抗模仿学习算法的实时安全约束经济调度方法。首先,将新能源电力系统多时段安全约束经济调度问题建模... 随着新能源渗透率不断攀升,电力系统波动性和随机性日趋加剧,电网安全经济运行正面临着严峻挑战。为此,该文提出了一种基于改进生成对抗模仿学习算法的实时安全约束经济调度方法。首先,将新能源电力系统多时段安全约束经济调度问题建模为马尔可夫决策过程。其次,针对常规深度强化学习算法训练时间冗长和设计主观性强等弊端,采用生成对抗模仿学习算法对马尔可夫决策过程进行求解。接着,提出了一种改进的生成对抗模仿学习算法,通过双缓冲区机制使生成对抗模仿学习兼容异策略深度强化学习算法,进而与柔性行动器-评判器算法结合,显著提高了算法的训练性能。算例结果表明,所提方法在保证毫秒级的决策速度的同时,在离线训练时的收敛速度、在线决策时的经济性与安全性等方面相较于传统算法均展示出了显著的提升。 展开更多
关键词 安全约束经济调度 模仿学习 生成对抗网络 双缓冲机制 深度强化学习
在线阅读 下载PDF
基于混合模仿学习的多智能体追捕决策方法
3
作者 王焱宁 张锋镝 +1 位作者 肖登敏 孙中奇 《计算机科学》 北大核心 2025年第1期323-330,共8页
针对传统模仿学习方法在处理多样化专家轨迹时的局限性,尤其是难以有效整合质量参差不齐的固定模态专家数据的问题,创新性地融合了多专家轨迹生成对抗模仿学习(Multiple Trajectories Generative Adversarial Imitation Learning, MT-GA... 针对传统模仿学习方法在处理多样化专家轨迹时的局限性,尤其是难以有效整合质量参差不齐的固定模态专家数据的问题,创新性地融合了多专家轨迹生成对抗模仿学习(Multiple Trajectories Generative Adversarial Imitation Learning, MT-GAIL)方法与时序差分误差行为克隆(Temporal-Difference Error Behavioral Cloning, TD-BC)技术,构建了一种混合模仿学习框架。该框架不仅可以增强模型对复杂多变的专家策略的适应能力,还能够提升模型从低质量数据中提炼有用信息的鲁棒性。框架得到的模型具备直接应用于强化学习的能力,仅需经过细微的调整与优化,即可训练出一个直接可用的、基于专家经验的强化学习模型。在二维动静结合的目标追捕场景中进行了实验验证,该方法展现出良好的性能。结果表明,所提方法可以吸取专家经验,为后续的强化学习训练阶段提供一个起点高、效果佳的初始模型。 展开更多
关键词 智能决策 强化学习 行为克隆 生成对抗模仿学习
在线阅读 下载PDF
基于生成对抗模仿学习的无人艇缠斗博弈方法
4
作者 石钊翔 《传感器与微系统》 北大核心 2025年第7期135-138,143,共5页
生成对抗模仿学习(GAIL)旨在使无人艇从专家演示中学习到最佳的缠斗策略。然而,其应用主要集中在无人艇的转弯等部分控制,且很少应用于对抗和缠斗的动作学习。现有的GAIL模型很难训练出更为复杂的无人艇控制,且模型本身的判别器输出可... 生成对抗模仿学习(GAIL)旨在使无人艇从专家演示中学习到最佳的缠斗策略。然而,其应用主要集中在无人艇的转弯等部分控制,且很少应用于对抗和缠斗的动作学习。现有的GAIL模型很难训练出更为复杂的无人艇控制,且模型本身的判别器输出可能会限制GAIL的性能。因此,提出了一种新的动作学习方法--GAIL-RLRR,该方法基于GAIL,旨在实现类机器人的奖励重塑,使无人艇有效地学习类机器人行为。通过将奖励重塑机制植入到判别器和利用近端策略优化(PPO)算法增强生成器来提高模型性能。新的模型进行了两艘无人艇追击和拦截实验,说明本模型能够学习到最佳的策略。 展开更多
关键词 无人艇 模仿学习 类机器人 生成对抗 奖励重塑
在线阅读 下载PDF
基于图神经网络和强化学习的柔性作业车间调度算法 被引量:2
5
作者 王亮 顾益铭 刘世亮 《实验室研究与探索》 北大核心 2025年第2期101-109,共9页
针对不同规模的柔性作业车间调度问题,提出一种基于图神经网络的深度强化学习算法(GRL)。该算法采用3个异构析取子图来表征车间状态,并利用图神经网络提取车间特征,构建相应的马尔可夫决策过程,使用模仿学习与强化学习相结合的联合训练... 针对不同规模的柔性作业车间调度问题,提出一种基于图神经网络的深度强化学习算法(GRL)。该算法采用3个异构析取子图来表征车间状态,并利用图神经网络提取车间特征,构建相应的马尔可夫决策过程,使用模仿学习与强化学习相结合的联合训练策略来更新神经网络参数。实验结果表明,所提GRL算法在不同规模订单、工序复杂程度和机器选择柔性下表现出较低的最长完工时间和较小的案例参数敏感性。将小规则案例下训练的网络泛化至大规模案例,体现相对优先调度规则较好且稳定的求解质量。研究成果为项目式教学提供典型的人工智能应用案例。 展开更多
关键词 强化学习 图神经网络 模仿学习 柔性作业车间调度
在线阅读 下载PDF
基于路径模仿和SAC强化学习的机械臂路径规划算法 被引量:2
6
作者 宋紫阳 李军怀 +2 位作者 王怀军 苏鑫 于蕾 《计算机应用》 CSCD 北大核心 2024年第2期439-444,共6页
在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径... 在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径规划算法。通过将示教路径融入奖励函数使机械臂在强化学习过程中对示教路径进行模仿以提高学习效率,并采用SAC算法使机械臂路径规划算法的训练更快、稳定性更好。基于所提算法和深度确定性策略梯度(DDPG)算法分别规划10条路径,所提算法和DDPG算法规划的路径与参考路径的平均距离分别是0.8 cm和1.9 cm。实验结果表明,路径模仿机制能提高训练效率,所提算法比DDPG算法能更好地探索环境,使得规划路径更加合理。 展开更多
关键词 模仿学习 强化学习 SAC算法 路径规划 奖励函数
在线阅读 下载PDF
基于模仿学习的机器人演奏示教系统 被引量:2
7
作者 赵雨飞 靳聪 +3 位作者 刘潇雨 王洁 朱永贵 李波 《计算机科学》 CSCD 北大核心 2024年第S02期981-985,共5页
近年来,模仿学习被广泛应用于机器人领域,并展示出巨大的潜力。同时关注到智能系统在教育领域的应用越来越多样化,将机器人合理地应用到教学中可以提升教学效果,如果机器人可以教授一些专业技巧,如演奏乐器,可以为学生和人类老师都提供... 近年来,模仿学习被广泛应用于机器人领域,并展示出巨大的潜力。同时关注到智能系统在教育领域的应用越来越多样化,将机器人合理地应用到教学中可以提升教学效果,如果机器人可以教授一些专业技巧,如演奏乐器,可以为学生和人类老师都提供很大的便利。模仿学习特别适用于高度专业和技术性强的小提琴演奏,但在将专家演示引入动态运动原语(Dynamic Movement Primitive,DMP)的过程中,模糊性问题尤为突出,例如换弦角度的不确定性。传统的换弦角度测量方法如物理测量会有很大的误差且无法泛化,为了解决这一问题,提出了一种名为基于模糊和PCA的动态运动原语(Fuzzy Dynamic Movement Primitive for Teaching,T-FDMP)的新模型。该模型基于二型模糊模型和主成分分析(Principal Component Analysis,PCA)进行构建,使用主成分分析法(PCA)得到的特征变量(运弓角度)作为隶属度函数(琴弦角度)的输入进行学习,同时构建了一个专业级的音乐演奏行为数据库。仿生实验结果证明,所提出的T-FDMP模型能够以高精度控制机器人进行小提琴演奏,还为模仿学习在其他高度专业和技术性强的领域的应用提供了新的研究方向。 展开更多
关键词 模仿学习 机器人控制 二型模糊模型 智慧教育 动态运动原语
在线阅读 下载PDF
基于VSG的风光水火储系统频率调节深度强化学习方法
8
作者 刘晓明 刘俊 +3 位作者 姚宏伟 赵誉 聂永欣 任柯政 《电力系统自动化》 北大核心 2025年第9期114-124,共11页
由于可再生能源发电固有的不确定性和低惯量特性,随着分布式能源(DER)的快速发展,电力系统正面临显著的系统频率动态恶化。为解决这一问题,使DER能够模拟传统同步发电机运行的虚拟同步发电机(VSG)技术已被开发并得到广泛关注。然而,现... 由于可再生能源发电固有的不确定性和低惯量特性,随着分布式能源(DER)的快速发展,电力系统正面临显著的系统频率动态恶化。为解决这一问题,使DER能够模拟传统同步发电机运行的虚拟同步发电机(VSG)技术已被开发并得到广泛关注。然而,现有研究主要集中于采用固定参数运行VSG以提供惯量支撑,而很少关注动态调整VSG以利用其快速响应特性来提升电力系统的频率响应性能。因此,文中提出一种基于深度强化学习的频率调节(DRL-FR)方法,该方法可自适应调整一、二次调频及VSG的动态参数。首先,构建频率调节模型,并将新能源电厂建模为可调VSG,将最优频率调节问题建模为马尔可夫决策过程。然后,构建DRL-FR控制器,其动作空间为一、二次调频动态参数,涵盖下垂控制、比例-积分-微分控制、机组参与系数及VSG可调参数。最后,开发了一种结合单调优势重加权模仿学习的近端策略优化算法,可结合历史运行数据及专家经验加速模型训练过程。在改造的IEEE 39节点系统中进行测试,验证了所提DRL-FR方法的有效性。 展开更多
关键词 深度强化学习 虚拟同步发电机 频率调节 模仿学习 近端策略优化
在线阅读 下载PDF
考虑分区与模仿学习的深度强化学习配电网电压优化策略 被引量:1
9
作者 李士丹 李航 +4 位作者 李国杰 韩蓓 徐晋 李玲 王宏韬 《电力系统保护与控制》 EI CSCD 北大核心 2024年第22期1-11,共11页
现有深度强化学习(deep reinforcement learning,DRL)方法在解决配电网电压优化问题时,存在信用分配难、探索效率低等问题,在模型训练速度和优化效果等方面表现欠佳。为此,结合配电网分区降损与模仿学习的思想,提出一种基于指导信号的... 现有深度强化学习(deep reinforcement learning,DRL)方法在解决配电网电压优化问题时,存在信用分配难、探索效率低等问题,在模型训练速度和优化效果等方面表现欠佳。为此,结合配电网分区降损与模仿学习的思想,提出一种基于指导信号的多智能体深度确定性策略梯度(guidance signal based multi-agent deep deterministic policy gradient,GS-MADDPG)的电压优化方法。首先,将电动汽车(electric vehicles,EV)集群、分布式电源(distributed generations,DG)和无功调节装置作为决策智能体,构建强化学习优化模型。然后,通过配电网分区,解耦多智能体的外部奖励,并结合模仿学习,利用指导信号引入内部奖励,帮助智能体快速寻优。最后,基于改进IEEE33节点系统进行算例测试。结果表明,所提电压优化策略较传统DRL方法具有更高的样本利用率,实现了更稳定的收敛及更高的模型训练效率,提升了配电网电压的优化效果。 展开更多
关键词 配电网电压优化 深度强化学习 分区降损 模仿学习 指导信号
在线阅读 下载PDF
基于自适应分位数的离线强化学习算法
10
作者 周娴玮 王宇翔 +1 位作者 罗仕鑫 余松森 《智能系统学报》 北大核心 2025年第5期1093-1102,共10页
离线强化学习旨在仅通过使用预先收集的离线数据集进行策略的有效学习,从而减少与环境直接交互所带来的高昂成本。然而,由于缺少环境对智能体行为的交互反馈,从离线数据集中学习到的策略可能会遇到数据分布偏移的问题,进而导致外推误差... 离线强化学习旨在仅通过使用预先收集的离线数据集进行策略的有效学习,从而减少与环境直接交互所带来的高昂成本。然而,由于缺少环境对智能体行为的交互反馈,从离线数据集中学习到的策略可能会遇到数据分布偏移的问题,进而导致外推误差的不断加剧。当前方法多采用策略约束或模仿学习方法来缓解这一问题,但其学习到的策略通常较为保守。针对上述难题,提出一种基于自适应分位数的方法。具体而言,该方法在双Q估计的基础上进一步利用双Q的估计差值大小对分布外未知动作的价值高估情况进行评估,同时结合分位数思想自适应调整分位数来校正过估计偏差。此外,构建分位数优势函数作为策略约束项权重以平衡智能体对数据集的探索和模仿,从而缓解策略学习的保守性。最后在D4RL(datasets for deep data-driven reinforcement learning)数据集上验证算法的有效性,该算法在多个任务数据集上表现优异,同时展现出在不同场景应用下的广泛潜力。 展开更多
关键词 离线强化学习 分布偏移 外推误差 策略约束 模仿学习 双Q估计 价值高估 分位数
在线阅读 下载PDF
基于碰撞预测的强化模仿学习机器人导航方法 被引量:3
11
作者 王浩杰 陶冶 鲁超峰 《计算机工程与应用》 CSCD 北大核心 2024年第10期341-352,共12页
基于学习的机器人导航方法存在对数据的依赖性高和在一些特定环境下表现不完美的问题,例如在空旷场景下无法走直线,在障碍物密集场景下碰撞率高。为了提高机器人的导航性能,提出了一种基于碰撞预测的强化模仿学习导航方法。在无模型的... 基于学习的机器人导航方法存在对数据的依赖性高和在一些特定环境下表现不完美的问题,例如在空旷场景下无法走直线,在障碍物密集场景下碰撞率高。为了提高机器人的导航性能,提出了一种基于碰撞预测的强化模仿学习导航方法。在无模型的情况下,根据机器人的性能,建立马尔科夫决策过程(Markov decision process,MDP)中所需要的状态空间、动作空间、奖励函数。采用深度强化学习(deep reinforcement learning,DRL)在仿真环境中进行训练,使机器人获得能够在多障碍环境中导航和避障的能力。使用收集到的专家数据按照模仿学习方法对策略继续进行训练,改善强化学习在障碍物稀疏和密集两种极端情况下表现不完美的问题。设计了一个碰撞预测模型,将传统控制与深度学习相结合,根据预测结果,使机器人自适应地在不同环境下选取合适的控制策略,大大提高了导航的安全性。通过实验,在大量从未遇到过的场景下验证了所提出方法的导航性能和泛化能力。 展开更多
关键词 导航 强化学习 模仿学习 碰撞预测 混合控制
在线阅读 下载PDF
GAT-IL:一种基于图注意力网络与模仿学习的服务功能链部署方法 被引量:3
12
作者 范琪琳 牛岳 +3 位作者 尹浩 王天富 李秀华 郝金隆 《电子学报》 EI CAS CSCD 北大核心 2024年第8期2811-2823,共13页
网络功能虚拟化通过将网络功能从专用硬件设备迁移到商用服务器上运行的软件中间盒中,简化了网络服务的配置和管理.在网络功能虚拟化的环境下,由一系列有序的虚拟网络功能组成的服务功能链正在成为承载网络服务的主流形式.将底层物理网... 网络功能虚拟化通过将网络功能从专用硬件设备迁移到商用服务器上运行的软件中间盒中,简化了网络服务的配置和管理.在网络功能虚拟化的环境下,由一系列有序的虚拟网络功能组成的服务功能链正在成为承载网络服务的主流形式.将底层物理网络资源分配给服务功能链的需求称为服务功能链部署问题.对于基础设施提供商来说,在有限的资源条件下获得长期高回报是一个重要的挑战.本文形式化定义了服务功能链部署问题,提出了一种基于图注意力网络与模仿学习的服务功能链部署方法(Graph Attention Network and Imitation Learning,GAT-IL).该方法使用图注意力网络评估每个物理服务器的放置潜力,通过蒙特卡洛树搜索方法给出专家示范,并采用模仿学习方法进行智能体的训练,融入集束搜索策略优化解空间.大量的实验结果表明,本文提出的GAT-IL方法在平均收益代价比和接受率的性能指标上均优于现有代表性算法. 展开更多
关键词 网络功能虚拟化 服务功能链 图注意力网络 模仿学习 蒙特卡洛树搜索 集束搜索
在线阅读 下载PDF
基于强化和模仿学习的多智能体寻路干扰者鉴别通信机制 被引量:1
13
作者 李梦甜 向颖岑 +1 位作者 谢志峰 马利庄 《计算机应用研究》 CSCD 北大核心 2024年第8期2474-2480,共7页
现有的基于通信学习的多智能体路径规划(multi-agent path finding,MAPF)方法大多可扩展性较差或者聚合了过多冗余信息,导致通信低效。为解决以上问题,提出干扰者鉴别通信机制(DIC),通过判断视场(field of view,FOV)中央智能体的决策是... 现有的基于通信学习的多智能体路径规划(multi-agent path finding,MAPF)方法大多可扩展性较差或者聚合了过多冗余信息,导致通信低效。为解决以上问题,提出干扰者鉴别通信机制(DIC),通过判断视场(field of view,FOV)中央智能体的决策是否因邻居的存在而改变来学习排除非干扰者的简洁通信,成功过滤了冗余信息。同时进一步实例化DIC,开发了一种新的高度可扩展的分布式MAPF求解器,基于强化和模仿学习的干扰者鉴别通信算法(disruptor identifiable communication based on reinforcement and imitation learning algorithm,DICRIA)。首先,由干扰者鉴别器配合DICRIA的策略输出层识别出干扰者;其次,在两轮通信中分别完成对干扰者与通信意愿发送方的信息更新;最后,DICRIA根据各模块的编码结果输出最终决策。实验结果表明,DICRIA的性能几乎在所有环境设置下都优于其他同类求解器,且相比基线求解器,成功率平均提高了5.2%。尤其在大尺寸地图的密集型问题实例下,DICRIA的成功率相比基线求解器甚至提高了44.5%。 展开更多
关键词 多智能体 路径规划 强化学习 模仿学习 干扰者鉴别通信
在线阅读 下载PDF
基于生成对抗模仿学习的综合能源系统能量优化调度 被引量:2
14
作者 史一茹 张大海 +3 位作者 李立新 李亚平 贠韫韵 孙锴 《高电压技术》 EI CAS CSCD 北大核心 2024年第8期3535-3544,I0019-I0022,共14页
近年来,基于深度强化学习的综合能源系统(integrated energy system,IES)优化调度已取得阶段性进展。然而,随着IES系统结构、规模、技术等层面的持续发展,传统深度强化学习训练时间漫长和设计复杂度高等弊端逐渐显露。为此,提出一种面向... 近年来,基于深度强化学习的综合能源系统(integrated energy system,IES)优化调度已取得阶段性进展。然而,随着IES系统结构、规模、技术等层面的持续发展,传统深度强化学习训练时间漫长和设计复杂度高等弊端逐渐显露。为此,提出一种面向IES能量优化调度的生成对抗模仿学习方法。首先,IES智能体通过模仿具备高奖励回馈的专家调度策略自适应学习动作探索过程,避免盲目探索造成的时间与算力浪费。其次,基于生成对抗理论,增设判别器网络辨别生成策略与专家策略之间的差异,以此作为内部奖励函数辅助神经网络参数更新,避免人工设置奖励的主观偏好和经验限制对IES调度结果的影响。最后,电-热耦合系统算例分析结果表明:训练过程中所提方法的收敛速度较传统深度强化学习算法提升了52%,收敛效果提升了10%,同时使IES智能体获得了接近专家调度经验的决策能力;在线应用时无需依赖对外界环境的准确预测和精确建模,即可实现快速实时决策。 展开更多
关键词 综合能源系统 优化调度 强化学习 模仿学习 生成对抗网络
在线阅读 下载PDF
异策略模仿-强化学习序列推荐算法 被引量:1
15
作者 刘珈麟 贺泽宇 李俊 《计算机应用研究》 CSCD 北大核心 2024年第5期1349-1355,共7页
最近,强化学习序列推荐系统受到研究者们的广泛关注,这得益于它能更好地联合建模用户感兴趣的内动态和外倾向。然而,现有方法面临同策略评估方法数据利用率低,导致模型依赖大量的专家标注数据,以及启发式价值激励函数设计依赖反复人工... 最近,强化学习序列推荐系统受到研究者们的广泛关注,这得益于它能更好地联合建模用户感兴趣的内动态和外倾向。然而,现有方法面临同策略评估方法数据利用率低,导致模型依赖大量的专家标注数据,以及启发式价值激励函数设计依赖反复人工调试两个主要挑战。因此,提出了一种新颖的异策略模仿-强化学习的序列推荐算法COG4Rec,以提高数据利用效率和实现可学习的价值函数。首先,它通过异策略方式更新分布匹配目标函数,来避免同策略更新密集在线交互限制;其次,COG4Rec采用可学习的价值函数设计,通过对数衰减状态分布比,模仿用户外倾向的价值激励函数;最后,为了避免模仿学习分布漂移问题,COG4Rec通过累积衰减分布比,强化用户行为记录中高价值轨迹片段重组推荐策略。一系列基准数据集上的性能对比实验和消融实验结果表明:COG4Rec比自回归模型提升了17.60%,它比启发式强化学习方法提升了3.25%。这证明了所提模型结构和优化算法的有效性。这也证明可学习的价值函数是可行的,并且异策略方式能有效提高数据利用效率。 展开更多
关键词 异策略评估 模仿学习 逆强化学习 序列推荐
在线阅读 下载PDF
基于多代理模仿学习的普适边缘计算资源分配 被引量:1
16
作者 刘建华 李炜 +2 位作者 刘佳嘉 涂晓光 谢家雨 《南京信息工程大学学报(自然科学版)》 CAS 北大核心 2024年第1期83-96,共14页
普适边缘计算允许对等设备之间建立独立通信连接,能帮助用户以较低的时延处理海量的计算任务.然而,分散的设备中不能实时获取到网络的全局系统状态,无法保证设备资源利用的公平性.针对该问题,提出了一种基于生成对抗网络(Generative Adv... 普适边缘计算允许对等设备之间建立独立通信连接,能帮助用户以较低的时延处理海量的计算任务.然而,分散的设备中不能实时获取到网络的全局系统状态,无法保证设备资源利用的公平性.针对该问题,提出了一种基于生成对抗网络(Generative Adversarial Network, GAN)的普适边缘计算资源分配方案.首先基于最小化时延与能耗建立多目标优化问题,然后根据随机博弈理论将优化问题转化为最大奖励问题,接着提出一种基于多代理模仿学习的计算卸载算法,该算法将多代理生成对抗模仿学习(GAIL)和马尔可夫策略(Markov Decision Process, MDP)相结合以逼近专家性能,实现了算法的在线执行,最后结合非支配排序遗传算法Ⅱ(Non-dominated Sorting Genetic AlgorithmⅡ,NSGA-Ⅱ)对时延和能耗进行了联合优化.仿真结果表明,所提出的解决方案与其他边缘计算资源分配方案相比,时延缩短了30.8%,能耗降低了34.3%. 展开更多
关键词 边缘计算 模仿学习 分布式计算 联合优化 资源分配
在线阅读 下载PDF
协作机器人运动轨迹模仿学习方法研究 被引量:1
17
作者 李平 李利娜 侯志利 《组合机床与自动化加工技术》 北大核心 2024年第10期120-125,共6页
在人机协作领域,模仿学习是广泛使用的机器人编程方法。在机器人对运动轨迹进行技能学习过程中,针对基于动态运动基元方法(dynamic movement primitives,DMP)只能从单条示教轨迹建模动作的局限性,提出了一种新的将高斯混合模型(gaussian... 在人机协作领域,模仿学习是广泛使用的机器人编程方法。在机器人对运动轨迹进行技能学习过程中,针对基于动态运动基元方法(dynamic movement primitives,DMP)只能从单条示教轨迹建模动作的局限性,提出了一种新的将高斯混合模型(gaussian mixture model,GMM)、高斯混合回归(gaussian mixture regression,GMR)和改进的DMP三者相结合的运动轨迹模仿学习方法。该方法先将高斯噪声引入示教轨迹,消除由于示教数据中不可避免存在噪声等不平滑特征带来的不利影响;然后,为了减少单条示教轨迹的不确定性带来的动作建模误差,采用GMM从多条示教轨迹中对运动特征进行编码,使用GMR进行概率轨迹回归;其次,利用改进的DMP算法将轨迹进行泛化,提高机器人技能学习的适应性;最后,通过手写字母轨迹和协作机器人拖动轨迹技能学习试验验证了所提算法的有效性。 展开更多
关键词 模仿学习 轨迹建模 动态运动基元 高斯混合模型 高斯混合回归
在线阅读 下载PDF
建筑空调系统迁移模仿学习仿真调度策略研究
18
作者 王翘楚 丁研 +2 位作者 梁传志 张颢正 黄宸 《系统仿真学报》 CAS CSCD 北大核心 2024年第12期2884-2893,共10页
为解决空调调度在线部署初期,低质量数据工况存在性能不稳定与训练过程效率低下的问题,提出一种基于迁移模仿学习的空调仿真调度策略制定方法。通过强化学习方法获得建筑运行策略,建立标准建筑仿真模型作为源域部署迁移学习,模仿学习损... 为解决空调调度在线部署初期,低质量数据工况存在性能不稳定与训练过程效率低下的问题,提出一种基于迁移模仿学习的空调仿真调度策略制定方法。通过强化学习方法获得建筑运行策略,建立标准建筑仿真模型作为源域部署迁移学习,模仿学习损失函数被应用于智能体损失函数中以增强算法性能。结果表明:相比未采用迁移学习的方法,运行效益提升了16.2%,有效解决了强化学习训练初期的运行不稳定问题;相比未采用模仿学习的方法,运行效益提升了11.5%,有效提高了强化学习的训练效率。 展开更多
关键词 迁移学习 强化学习 模仿学习 空调调控方法 室温控制
在线阅读 下载PDF
基于多任务强化学习的地形自适应模仿学习方法
19
作者 余昊 梁宇宸 +1 位作者 张驰 刘跃虎 《数据采集与处理》 CSCD 北大核心 2024年第5期1182-1191,共10页
地形自适应能力是智能体在复杂地形条件下稳定运动的基础,而由于机器人动力学系统的复杂性,传统逆动力学方法通常难以使其具备这种能力。现有利用强化学习在解决序列决策问题上的优势训练智能体地形适应能力的单任务学习方法无法有效学... 地形自适应能力是智能体在复杂地形条件下稳定运动的基础,而由于机器人动力学系统的复杂性,传统逆动力学方法通常难以使其具备这种能力。现有利用强化学习在解决序列决策问题上的优势训练智能体地形适应能力的单任务学习方法无法有效学习各类地形中的相关性。事实上,复杂地形自适应任务可以认为是一种多任务,子任务间的关系可以用不同地形影响因素来衡量,通过子任务模型的相互学习解决数据分布信息获取不全面的问题。基于此,本文提出一种多任务强化学习方法。该方法包含1个由子任务预训练模型组成的执行层和1个基于强化学习方法、采用软约束融合执行层模型的决策层。在LeggedGym地形仿真器上的实验证明,本文方法训练的智能体运动更加稳定,在复杂地形上的摔倒次数更少,并且表现出更好的泛化性能。 展开更多
关键词 多任务学习 模仿学习 强化学习 地形影响因素 LeggedGym地形仿真器
在线阅读 下载PDF
基于模糊收敛和模仿强化学习的自动驾驶横向控制方法 被引量:2
20
作者 郑川 杜煜 刘子健 《汽车技术》 CSCD 北大核心 2024年第7期29-36,共8页
针对自动驾驶车辆各横向控制因素存在强耦合性,依赖理想模型的控制方法难以实现完全解耦且难以从仿真环境迁移到实际车辆,以及强化学习方法在自动驾驶横向控制中收敛速度慢的问题,利用模糊推理器和模仿强化学习在车辆横向控制中的共性,... 针对自动驾驶车辆各横向控制因素存在强耦合性,依赖理想模型的控制方法难以实现完全解耦且难以从仿真环境迁移到实际车辆,以及强化学习方法在自动驾驶横向控制中收敛速度慢的问题,利用模糊推理器和模仿强化学习在车辆横向控制中的共性,以模糊推理器作为模仿强化学习初始化条件,并进行学习过程指导,从而实现强化学习过程的快速收敛。利用MATLAB/Carla仿真以及实车试验对该控制方法进行了验证,结果表明,该方法在不依赖理想数学模型、不对模糊推理器进行深度优化的基础上,实现了模仿强化学习迭代次数的大幅减少,在500次的全路径迭代过程中完成了更优的车辆横向控制,在仿真和现实环境中均可获得很好的控制效果。 展开更多
关键词 自动驾驶 横向控制 模仿学习 强化学习 模糊推理
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部