-
题名基于Dyna框架的非参数化近似策略迭代增强学习
- 1
-
-
作者
季挺
张华
-
机构
南昌大学江西省机器人与焊接自动化重点实验室
-
出处
《计算机应用》
CSCD
北大核心
2018年第5期1230-1238,共9页
-
基金
国家863计划项目(SS2013AA041003)~~
-
文摘
为解决当前近似策略迭代增强学习算法逼近器不能完全自动构建的问题,提出一种基于Dyna框架的非参数化近似策略迭代(NPAPI-Dyna)增强学习算法。引入采样缓存和采样变化率设计二级随机采样过程采集样本,基于轮廓指标、采用K均值聚类算法实现trial-and-error过程生成核心状态基函数,采用以样本完全覆盖为目标的估计方法生成Q值函数逼近器,采用贪心策略设计动作选择器,利用对状态基函数的访问频次描述环境拓扑特征并构建环境估计模型;而后基于Dyna框架的模型辨识思想,将学习和规划过程有机结合,进一步加快了增强学习速度。一级倒立摆平衡控制的仿真实验中,当增强学习误差率为0.01时,算法学习成功率为100%,学习成功的最小尝试次数仅为2,平均尝试次数仅为7.73,角度平均绝对偏差为3.053 8°,角度平均振荡范围为2.759°;当增强学习误差率为0.1时进行100次独立仿真运算,相比Online-LSPI和BLSPI算法平均需要150次以上尝试才能学习得到控制策略,而NPAPI-Dyna基本可在50次尝试内学习成功。实验分析表明,NPAPI-Dyna能够完全自动地构建、调整增强学习结构,学习结果精度较高,同时较快收敛。
-
关键词
增强学习
Dyna框架
策略迭代
非参数化近似策略
倒立摆
-
Keywords
reinforcement learning
Dyna framework
policy iteration
nonparametric approcimation policy
inverted pendulum
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-