近年来,模仿学习被广泛应用于机器人领域,并展示出巨大的潜力。同时关注到智能系统在教育领域的应用越来越多样化,将机器人合理地应用到教学中可以提升教学效果,如果机器人可以教授一些专业技巧,如演奏乐器,可以为学生和人类老师都提供...近年来,模仿学习被广泛应用于机器人领域,并展示出巨大的潜力。同时关注到智能系统在教育领域的应用越来越多样化,将机器人合理地应用到教学中可以提升教学效果,如果机器人可以教授一些专业技巧,如演奏乐器,可以为学生和人类老师都提供很大的便利。模仿学习特别适用于高度专业和技术性强的小提琴演奏,但在将专家演示引入动态运动原语(Dynamic Movement Primitive,DMP)的过程中,模糊性问题尤为突出,例如换弦角度的不确定性。传统的换弦角度测量方法如物理测量会有很大的误差且无法泛化,为了解决这一问题,提出了一种名为基于模糊和PCA的动态运动原语(Fuzzy Dynamic Movement Primitive for Teaching,T-FDMP)的新模型。该模型基于二型模糊模型和主成分分析(Principal Component Analysis,PCA)进行构建,使用主成分分析法(PCA)得到的特征变量(运弓角度)作为隶属度函数(琴弦角度)的输入进行学习,同时构建了一个专业级的音乐演奏行为数据库。仿生实验结果证明,所提出的T-FDMP模型能够以高精度控制机器人进行小提琴演奏,还为模仿学习在其他高度专业和技术性强的领域的应用提供了新的研究方向。展开更多
现有深度强化学习(deep reinforcement learning,DRL)方法在解决配电网电压优化问题时,存在信用分配难、探索效率低等问题,在模型训练速度和优化效果等方面表现欠佳。为此,结合配电网分区降损与模仿学习的思想,提出一种基于指导信号的...现有深度强化学习(deep reinforcement learning,DRL)方法在解决配电网电压优化问题时,存在信用分配难、探索效率低等问题,在模型训练速度和优化效果等方面表现欠佳。为此,结合配电网分区降损与模仿学习的思想,提出一种基于指导信号的多智能体深度确定性策略梯度(guidance signal based multi-agent deep deterministic policy gradient,GS-MADDPG)的电压优化方法。首先,将电动汽车(electric vehicles,EV)集群、分布式电源(distributed generations,DG)和无功调节装置作为决策智能体,构建强化学习优化模型。然后,通过配电网分区,解耦多智能体的外部奖励,并结合模仿学习,利用指导信号引入内部奖励,帮助智能体快速寻优。最后,基于改进IEEE33节点系统进行算例测试。结果表明,所提电压优化策略较传统DRL方法具有更高的样本利用率,实现了更稳定的收敛及更高的模型训练效率,提升了配电网电压的优化效果。展开更多
离线强化学习旨在仅通过使用预先收集的离线数据集进行策略的有效学习,从而减少与环境直接交互所带来的高昂成本。然而,由于缺少环境对智能体行为的交互反馈,从离线数据集中学习到的策略可能会遇到数据分布偏移的问题,进而导致外推误差...离线强化学习旨在仅通过使用预先收集的离线数据集进行策略的有效学习,从而减少与环境直接交互所带来的高昂成本。然而,由于缺少环境对智能体行为的交互反馈,从离线数据集中学习到的策略可能会遇到数据分布偏移的问题,进而导致外推误差的不断加剧。当前方法多采用策略约束或模仿学习方法来缓解这一问题,但其学习到的策略通常较为保守。针对上述难题,提出一种基于自适应分位数的方法。具体而言,该方法在双Q估计的基础上进一步利用双Q的估计差值大小对分布外未知动作的价值高估情况进行评估,同时结合分位数思想自适应调整分位数来校正过估计偏差。此外,构建分位数优势函数作为策略约束项权重以平衡智能体对数据集的探索和模仿,从而缓解策略学习的保守性。最后在D4RL(datasets for deep data-driven reinforcement learning)数据集上验证算法的有效性,该算法在多个任务数据集上表现优异,同时展现出在不同场景应用下的广泛潜力。展开更多
现有的基于通信学习的多智能体路径规划(multi-agent path finding,MAPF)方法大多可扩展性较差或者聚合了过多冗余信息,导致通信低效。为解决以上问题,提出干扰者鉴别通信机制(DIC),通过判断视场(field of view,FOV)中央智能体的决策是...现有的基于通信学习的多智能体路径规划(multi-agent path finding,MAPF)方法大多可扩展性较差或者聚合了过多冗余信息,导致通信低效。为解决以上问题,提出干扰者鉴别通信机制(DIC),通过判断视场(field of view,FOV)中央智能体的决策是否因邻居的存在而改变来学习排除非干扰者的简洁通信,成功过滤了冗余信息。同时进一步实例化DIC,开发了一种新的高度可扩展的分布式MAPF求解器,基于强化和模仿学习的干扰者鉴别通信算法(disruptor identifiable communication based on reinforcement and imitation learning algorithm,DICRIA)。首先,由干扰者鉴别器配合DICRIA的策略输出层识别出干扰者;其次,在两轮通信中分别完成对干扰者与通信意愿发送方的信息更新;最后,DICRIA根据各模块的编码结果输出最终决策。实验结果表明,DICRIA的性能几乎在所有环境设置下都优于其他同类求解器,且相比基线求解器,成功率平均提高了5.2%。尤其在大尺寸地图的密集型问题实例下,DICRIA的成功率相比基线求解器甚至提高了44.5%。展开更多
近年来,基于深度强化学习的综合能源系统(integrated energy system,IES)优化调度已取得阶段性进展。然而,随着IES系统结构、规模、技术等层面的持续发展,传统深度强化学习训练时间漫长和设计复杂度高等弊端逐渐显露。为此,提出一种面向...近年来,基于深度强化学习的综合能源系统(integrated energy system,IES)优化调度已取得阶段性进展。然而,随着IES系统结构、规模、技术等层面的持续发展,传统深度强化学习训练时间漫长和设计复杂度高等弊端逐渐显露。为此,提出一种面向IES能量优化调度的生成对抗模仿学习方法。首先,IES智能体通过模仿具备高奖励回馈的专家调度策略自适应学习动作探索过程,避免盲目探索造成的时间与算力浪费。其次,基于生成对抗理论,增设判别器网络辨别生成策略与专家策略之间的差异,以此作为内部奖励函数辅助神经网络参数更新,避免人工设置奖励的主观偏好和经验限制对IES调度结果的影响。最后,电-热耦合系统算例分析结果表明:训练过程中所提方法的收敛速度较传统深度强化学习算法提升了52%,收敛效果提升了10%,同时使IES智能体获得了接近专家调度经验的决策能力;在线应用时无需依赖对外界环境的准确预测和精确建模,即可实现快速实时决策。展开更多
在人机协作领域,模仿学习是广泛使用的机器人编程方法。在机器人对运动轨迹进行技能学习过程中,针对基于动态运动基元方法(dynamic movement primitives,DMP)只能从单条示教轨迹建模动作的局限性,提出了一种新的将高斯混合模型(gaussian...在人机协作领域,模仿学习是广泛使用的机器人编程方法。在机器人对运动轨迹进行技能学习过程中,针对基于动态运动基元方法(dynamic movement primitives,DMP)只能从单条示教轨迹建模动作的局限性,提出了一种新的将高斯混合模型(gaussian mixture model,GMM)、高斯混合回归(gaussian mixture regression,GMR)和改进的DMP三者相结合的运动轨迹模仿学习方法。该方法先将高斯噪声引入示教轨迹,消除由于示教数据中不可避免存在噪声等不平滑特征带来的不利影响;然后,为了减少单条示教轨迹的不确定性带来的动作建模误差,采用GMM从多条示教轨迹中对运动特征进行编码,使用GMR进行概率轨迹回归;其次,利用改进的DMP算法将轨迹进行泛化,提高机器人技能学习的适应性;最后,通过手写字母轨迹和协作机器人拖动轨迹技能学习试验验证了所提算法的有效性。展开更多
文摘近年来,模仿学习被广泛应用于机器人领域,并展示出巨大的潜力。同时关注到智能系统在教育领域的应用越来越多样化,将机器人合理地应用到教学中可以提升教学效果,如果机器人可以教授一些专业技巧,如演奏乐器,可以为学生和人类老师都提供很大的便利。模仿学习特别适用于高度专业和技术性强的小提琴演奏,但在将专家演示引入动态运动原语(Dynamic Movement Primitive,DMP)的过程中,模糊性问题尤为突出,例如换弦角度的不确定性。传统的换弦角度测量方法如物理测量会有很大的误差且无法泛化,为了解决这一问题,提出了一种名为基于模糊和PCA的动态运动原语(Fuzzy Dynamic Movement Primitive for Teaching,T-FDMP)的新模型。该模型基于二型模糊模型和主成分分析(Principal Component Analysis,PCA)进行构建,使用主成分分析法(PCA)得到的特征变量(运弓角度)作为隶属度函数(琴弦角度)的输入进行学习,同时构建了一个专业级的音乐演奏行为数据库。仿生实验结果证明,所提出的T-FDMP模型能够以高精度控制机器人进行小提琴演奏,还为模仿学习在其他高度专业和技术性强的领域的应用提供了新的研究方向。
文摘现有深度强化学习(deep reinforcement learning,DRL)方法在解决配电网电压优化问题时,存在信用分配难、探索效率低等问题,在模型训练速度和优化效果等方面表现欠佳。为此,结合配电网分区降损与模仿学习的思想,提出一种基于指导信号的多智能体深度确定性策略梯度(guidance signal based multi-agent deep deterministic policy gradient,GS-MADDPG)的电压优化方法。首先,将电动汽车(electric vehicles,EV)集群、分布式电源(distributed generations,DG)和无功调节装置作为决策智能体,构建强化学习优化模型。然后,通过配电网分区,解耦多智能体的外部奖励,并结合模仿学习,利用指导信号引入内部奖励,帮助智能体快速寻优。最后,基于改进IEEE33节点系统进行算例测试。结果表明,所提电压优化策略较传统DRL方法具有更高的样本利用率,实现了更稳定的收敛及更高的模型训练效率,提升了配电网电压的优化效果。
文摘离线强化学习旨在仅通过使用预先收集的离线数据集进行策略的有效学习,从而减少与环境直接交互所带来的高昂成本。然而,由于缺少环境对智能体行为的交互反馈,从离线数据集中学习到的策略可能会遇到数据分布偏移的问题,进而导致外推误差的不断加剧。当前方法多采用策略约束或模仿学习方法来缓解这一问题,但其学习到的策略通常较为保守。针对上述难题,提出一种基于自适应分位数的方法。具体而言,该方法在双Q估计的基础上进一步利用双Q的估计差值大小对分布外未知动作的价值高估情况进行评估,同时结合分位数思想自适应调整分位数来校正过估计偏差。此外,构建分位数优势函数作为策略约束项权重以平衡智能体对数据集的探索和模仿,从而缓解策略学习的保守性。最后在D4RL(datasets for deep data-driven reinforcement learning)数据集上验证算法的有效性,该算法在多个任务数据集上表现优异,同时展现出在不同场景应用下的广泛潜力。
文摘现有的基于通信学习的多智能体路径规划(multi-agent path finding,MAPF)方法大多可扩展性较差或者聚合了过多冗余信息,导致通信低效。为解决以上问题,提出干扰者鉴别通信机制(DIC),通过判断视场(field of view,FOV)中央智能体的决策是否因邻居的存在而改变来学习排除非干扰者的简洁通信,成功过滤了冗余信息。同时进一步实例化DIC,开发了一种新的高度可扩展的分布式MAPF求解器,基于强化和模仿学习的干扰者鉴别通信算法(disruptor identifiable communication based on reinforcement and imitation learning algorithm,DICRIA)。首先,由干扰者鉴别器配合DICRIA的策略输出层识别出干扰者;其次,在两轮通信中分别完成对干扰者与通信意愿发送方的信息更新;最后,DICRIA根据各模块的编码结果输出最终决策。实验结果表明,DICRIA的性能几乎在所有环境设置下都优于其他同类求解器,且相比基线求解器,成功率平均提高了5.2%。尤其在大尺寸地图的密集型问题实例下,DICRIA的成功率相比基线求解器甚至提高了44.5%。
文摘近年来,基于深度强化学习的综合能源系统(integrated energy system,IES)优化调度已取得阶段性进展。然而,随着IES系统结构、规模、技术等层面的持续发展,传统深度强化学习训练时间漫长和设计复杂度高等弊端逐渐显露。为此,提出一种面向IES能量优化调度的生成对抗模仿学习方法。首先,IES智能体通过模仿具备高奖励回馈的专家调度策略自适应学习动作探索过程,避免盲目探索造成的时间与算力浪费。其次,基于生成对抗理论,增设判别器网络辨别生成策略与专家策略之间的差异,以此作为内部奖励函数辅助神经网络参数更新,避免人工设置奖励的主观偏好和经验限制对IES调度结果的影响。最后,电-热耦合系统算例分析结果表明:训练过程中所提方法的收敛速度较传统深度强化学习算法提升了52%,收敛效果提升了10%,同时使IES智能体获得了接近专家调度经验的决策能力;在线应用时无需依赖对外界环境的准确预测和精确建模,即可实现快速实时决策。