期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于两层模糊划分的时间差分算法 被引量:1
1
作者 穆翔 刘全 +2 位作者 傅启明 孙洪坤 周鑫 《通信学报》 EI CSCD 北大核心 2013年第10期92-99,共8页
针对传统的基于查询表或函数逼近的Q值迭代算法在处理连续空间问题时收敛速度慢、且不易求解连续行为策略的问题,提出了一种基于两层模糊划分的在策略时间差分算法——DFP-OPTD,并从理论上分析其收敛性。算法中第一层模糊划分作用于状... 针对传统的基于查询表或函数逼近的Q值迭代算法在处理连续空间问题时收敛速度慢、且不易求解连续行为策略的问题,提出了一种基于两层模糊划分的在策略时间差分算法——DFP-OPTD,并从理论上分析其收敛性。算法中第一层模糊划分作用于状态空间,第二层模糊划分作用于动作空间,并结合两层模糊划分计算出Q值函数。根据所得的Q值函数,使用梯度下降方法更新模糊规则中的后件参数。将DFP-OPTD应用于经典强化学习问题中,实验结果表明,该算法有较好的收敛性能,且可以求解连续行为策略。 展开更多
关键词 强化学习 策略 梯度下降 两层模糊划分 连续行为策略
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部