期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于有模型强化学习的飞行器制导技术研究
1
作者 滕庆骅 惠俊鹏 +1 位作者 李天任 杨奔 《宇航总体技术》 2025年第2期26-34,共9页
面向避障、绕飞等任务驱动的飞行器在线轨迹,为了提升制导性能,适应快速变化的复杂场景,聚焦于充分利用飞行器模型中的已知信息,基于iLQR这种有模型强化学习方法,设计了智能化的制导方式。与无模型强化学习相比,有模型强化学习的可解释... 面向避障、绕飞等任务驱动的飞行器在线轨迹,为了提升制导性能,适应快速变化的复杂场景,聚焦于充分利用飞行器模型中的已知信息,基于iLQR这种有模型强化学习方法,设计了智能化的制导方式。与无模型强化学习相比,有模型强化学习的可解释性好,训练难度低。在单飞行器制导仿真中,相比TD3算法,iLQR方法飞行过程平均制导误差增加了28.07%,中末交班点误差降低到12.35%,提升幅度巨大;在多飞行器编队保持问题上,相比TD3算法,iLQR方法跟踪效果提升巨大,平均误差不超过TD3算法的22.67%,最大误差不超过TD3算法的15.44%。 展开更多
关键词 iLQR算法 模型强化学习 标准轨迹制导 强化学习制导 编队保持
在线阅读 下载PDF
基于强化学习的机器人曲面恒力跟踪研究 被引量:8
2
作者 张铁 肖蒙 +1 位作者 邹焱飚 肖佳栋 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2019年第10期1865-1873,1882,共10页
针对机器人末端执行器和曲面工件接触时难以得到恒定接触力的问题,建立机器人末端执行器与曲面工件的接触模型.构建曲面接触力坐标系与机器人传感器测量坐标系之间的关系,利用基于概率动力学模型的强化学习(PILCO)算法对模型输出参数与... 针对机器人末端执行器和曲面工件接触时难以得到恒定接触力的问题,建立机器人末端执行器与曲面工件的接触模型.构建曲面接触力坐标系与机器人传感器测量坐标系之间的关系,利用基于概率动力学模型的强化学习(PILCO)算法对模型输出参数与接触状态的关系进行学习,对部分接触状态进行预测,强化学习根据预测的状态优化机器人位移输入参数,得到期望跟踪力信号.实验中,将强化学习的输入状态改为一段时间内的状态平均值以减少接触状态下信号的干扰.实验结果表明,利用PILCO算法在迭代8次后能够得到较稳定的力,相比于模糊迭代算法收敛速度较快,力误差绝对值的平均值减少了29%. 展开更多
关键词 机器人 曲面跟踪 力控制 基于概率动力学模型强化学习(PILCO) 强化学习
在线阅读 下载PDF
基于平均场内生奖励的多智能体强化学习算法
3
作者 孙文绮 李大鹏 +1 位作者 田峰 丁良辉 《无线电通信技术》 2023年第3期556-565,共10页
针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题,提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidenc... 针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题,提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3IR-UCRL)算法。该算法在奖励函数中增加了内生奖励模块,用生成的内生奖励与定义任务的外部奖励一起帮助代表智能体在用平均场控制(Mean-Field Control, MFC)化简的多智能体系统中学习策略。智能体学习时首先按照期望累积内外奖励加权和的梯度方向更新策略参数,然后按照期望累积外部奖励的梯度方向更新内生奖励参数。仿真结果表明,相比于只用简单外部奖励引导智能体学习的(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3-UCRL)算法,所提算法可以有效提高智能体在复杂的多智能体场景中的任务完成率,降低与周围环境的碰撞率,从而使算法的整体性能得到提升。 展开更多
关键词 多智能体系统 平均场控制 基于模型强化学习 内生奖励
在线阅读 下载PDF
一类供应链中考虑公平关切的学习效应行为实验研究 被引量:5
4
作者 陈俊霖 赵晓波 +1 位作者 宋亚楠 陈建铭 《运筹与管理》 CSSCI CSCD 北大核心 2015年第2期20-28,共9页
大量经济学实验研究证实了公平关切和学习效应对决策者行为的影响力。本文研究三人组供应链系统,通过区别设计个体自我学习以及社会学习的实验环境,对比考察备用供应商的公平关切程度,以及制造商和备用供应商学习曲线的特点。实验结果... 大量经济学实验研究证实了公平关切和学习效应对决策者行为的影响力。本文研究三人组供应链系统,通过区别设计个体自我学习以及社会学习的实验环境,对比考察备用供应商的公平关切程度,以及制造商和备用供应商学习曲线的特点。实验结果支持了学习效应存在的假设:随着实验期数的增加,单期决策时间逐渐减少,备用供应商的整体拒绝率逐渐降低,制造商的策略逐渐集中。进一步构建了引入公平关切的强化学习模型。通过参数估计发现在个体自我学习和社会学习实验环境下,备用供应商的横向公平关切程度均较为显著,信息共享对备用供应商的横向公平关切偏好无明显影响。 展开更多
关键词 管理科学与工程 学习效应 公平关切 斯坦克伯格博弈 强化学习模型
在线阅读 下载PDF
基于模型的功能磁共振成像方法研究综述 被引量:1
5
作者 陈富琴 张俊然 杨冰 《中国生物医学工程学报》 CAS CSCD 北大核心 2016年第3期340-347,共8页
基于模型的功能磁共振成像(f MRI)方法是新世纪以来在神经影像领域兴起的极具发展潜力的研究方法。相比传统的影像学方法,它可以深入探究特定的认知过程是如何在一个特定的脑区以及脑区环路中实现的,而不仅仅是标识某个任务活动的最终... 基于模型的功能磁共振成像(f MRI)方法是新世纪以来在神经影像领域兴起的极具发展潜力的研究方法。相比传统的影像学方法,它可以深入探究特定的认知过程是如何在一个特定的脑区以及脑区环路中实现的,而不仅仅是标识某个任务活动的最终激活脑区,并能揭示模型内部变量与神经影像数据之间的关联,为有效探测大脑功能活动提供重要手段。重点综述基于模型的f MRI方法的两类常用计算模型框架(单脑区建模包括强化学习模型和主观价值模型,脑区交互作用建模采用心理-生理交互作用模型),简述近年来该方法的应用状况和最新进展,并讨论该方法的不足及未来发展趋势。 展开更多
关键词 基于模型的功能磁共振成像方法 计算模型 强化学习模型 主观价值模型 心理-生理交互作用模型
在线阅读 下载PDF
人际互动中社会学习的计算神经机制 被引量:6
6
作者 黎穗卿 陈新玲 +3 位作者 翟瑜竹 张怡洁 章植鑫 封春亮 《心理科学进展》 CSSCI CSCD 北大核心 2021年第4期677-696,共20页
人类在社会互动中通过他人的行为对他人特质、意图及特定情境下的社会规范进行学习,是优化决策、维护积极社会互动的重要条件。近年来,越来越多的研究通过结合计算模型与神经影像技术对社会学习的认知计算机制及其神经基础进行了深入考... 人类在社会互动中通过他人的行为对他人特质、意图及特定情境下的社会规范进行学习,是优化决策、维护积极社会互动的重要条件。近年来,越来越多的研究通过结合计算模型与神经影像技术对社会学习的认知计算机制及其神经基础进行了深入考察。已有研究发现,人类的社会学习过程能够较好地被强化学习模型与贝叶斯模型刻画,主要涉及的认知计算过程包括主观期望、预期误差和不确定性的表征以及信息整合的过程。大脑对这些计算过程的执行主要涉及奖惩加工相关脑区(如腹侧纹状体与腹内侧前额叶)、社会认知加工相关脑区(如背内侧前额叶和颞顶联合区)及认知控制相关脑区(如背外侧前额叶)。需要指出的是,计算过程与大脑区域之间并不是一一映射的关系,提示未来研究可借助多变量分析与脑网络分析等技术从系统神经科学的角度来考察大尺度脑网络如何执行不同计算过程。此外,将来研究应注重生态效度,利用超扫描技术考察真实互动下的社会学习过程,并更多地关注内隐社会学习的计算与神经机制。 展开更多
关键词 社会学习 计算模型 神经影像 强化学习模型 贝叶斯模型
在线阅读 下载PDF
Local Path Planning Method of the Self-propelled Model Based on Reinforcement Learning in Complex Conditions
7
作者 Yi Yang Yongjie Pang +1 位作者 Hongwei Li Rubo Zhang 《Journal of Marine Science and Application》 2014年第3期333-339,共7页
Conducting hydrodynamic and physical motion simulation tests using a large-scale self-propelled model under actual wave conditions is an important means for researching environmental adaptability of ships. During the ... Conducting hydrodynamic and physical motion simulation tests using a large-scale self-propelled model under actual wave conditions is an important means for researching environmental adaptability of ships. During the navigation test of the self-propelled model, the complex environment including various port facilities, navigation facilities, and the ships nearby must be considered carefully, because in this dense environment the impact of sea waves and winds on the model is particularly significant. In order to improve the security of the self-propelled model, this paper introduces the Q learning based on reinforcement learning combined with chaotic ideas for the model's collision avoidance, in order to improve the reliability of the local path planning. Simulation and sea test results show that this algorithm is a better solution for collision avoidance of the self navigation model under the interference of sea winds and waves with good adaptability. 展开更多
关键词 self-propelled model local path planning Q learning obstacle avoidance reinforcement learning
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部