期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
PILCO框架对飞行姿态模拟器系统的参数设计与优化 被引量:2
1
作者 杨烨峰 邓凯 +2 位作者 左英琦 班晓军 黄显林 《光学精密工程》 EI CAS CSCD 北大核心 2019年第11期2365-2373,共9页
PID控制是飞行器控制中应用最广泛的控制方法,但是PID参数的调节往往十分繁琐。为了实现飞行模拟器控制系统自主优化PID控制器的参数,从而完成系统的稳定控制,本文使用强化学习中的概率推理学习控制算法(Probabilistic Inference for Le... PID控制是飞行器控制中应用最广泛的控制方法,但是PID参数的调节往往十分繁琐。为了实现飞行模拟器控制系统自主优化PID控制器的参数,从而完成系统的稳定控制,本文使用强化学习中的概率推理学习控制算法(Probabilistic Inference for Learning Control,PILCO)自主优化PID控制器的参数。首先,利用输入输出数据拟合出系统的概率动力学模型,并使用策略评估的方法对当前PID控制器进行评价;最后,使用策略提升的方式对当前PID控制器进行优化。在系统采样频率为100 Hz,每次采集8 s数据的实验中,经过10个回合的离线训练之后,系统控制效果已经可以满足要求,PID控制器参数已经收敛。经过PILCO优化的飞行姿态模拟器在定点实验中表现出良好的鲁棒性,表明PILCO算法可以优化PID控制器的参数,并且在解决非线性控制和参数优化方面具有很大潜能。 展开更多
关键词 飞行器控制 概率推理学习控制 强化学习 参数优化
在线阅读 下载PDF
基于强化学习的机器人曲面恒力跟踪研究 被引量:8
2
作者 张铁 肖蒙 +1 位作者 邹焱飚 肖佳栋 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2019年第10期1865-1873,1882,共10页
针对机器人末端执行器和曲面工件接触时难以得到恒定接触力的问题,建立机器人末端执行器与曲面工件的接触模型.构建曲面接触力坐标系与机器人传感器测量坐标系之间的关系,利用基于概率动力学模型的强化学习(PILCO)算法对模型输出参数与... 针对机器人末端执行器和曲面工件接触时难以得到恒定接触力的问题,建立机器人末端执行器与曲面工件的接触模型.构建曲面接触力坐标系与机器人传感器测量坐标系之间的关系,利用基于概率动力学模型的强化学习(PILCO)算法对模型输出参数与接触状态的关系进行学习,对部分接触状态进行预测,强化学习根据预测的状态优化机器人位移输入参数,得到期望跟踪力信号.实验中,将强化学习的输入状态改为一段时间内的状态平均值以减少接触状态下信号的干扰.实验结果表明,利用PILCO算法在迭代8次后能够得到较稳定的力,相比于模糊迭代算法收敛速度较快,力误差绝对值的平均值减少了29%. 展开更多
关键词 机器人 曲面跟踪 力控制 基于概率动力学模型的强化学习(pilco) 强化学习
在线阅读 下载PDF
模糊操作条件概率自动机仿生自主学习系统和机器人自平衡控制 被引量:2
3
作者 阮晓钢 蔡建羡 《控制理论与应用》 EI CAS CSCD 北大核心 2010年第7期960-964,共5页
为了实现两轮机器人的自平衡控制,利用Skinner操作条件反射机理,以概率自动机为平台,融入模糊推理,构造了模糊操作条件概率自动机(OCPA)仿生自主学习系统.该学习系统是一个从状态集合到操作行为集合的随机映射,采用操作条件反射学习机制... 为了实现两轮机器人的自平衡控制,利用Skinner操作条件反射机理,以概率自动机为平台,融入模糊推理,构造了模糊操作条件概率自动机(OCPA)仿生自主学习系统.该学习系统是一个从状态集合到操作行为集合的随机映射,采用操作条件反射学习机制,从操作行为集合中随机学习作为控制系统控制信号的最优行为,并利用学习到的操作行为取向值信息,调整操作条件反射学习算法.此外,学习系统还引入行为熵,以验证其自学习和自组织能力.应用于两轮机器人自平衡控制的仿真结果,验证了模糊OCPA学习系统的可行性. 展开更多
关键词 操作条件反射 概率自动机 模糊推理 仿生自主学习系统 自平衡控制
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部