期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种基于启发式轮廓表的逻辑强化学习方法 被引量:8
1
作者 刘全 高阳 +2 位作者 陈道蓄 孙吉贵 姚望舒 《计算机研究与发展》 EI CSCD 北大核心 2008年第11期1824-1830,共7页
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.针对强化学习一直被"维数灾"问题所困扰的问题,提出在关系强化学习的基础上,引入启发式轮廓表的方法,采用含轮廓表... 强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.针对强化学习一直被"维数灾"问题所困扰的问题,提出在关系强化学习的基础上,引入启发式轮廓表的方法,采用含轮廓表的一阶谓词表示状态、活动和Q-函数,充分发挥Prolog表的优势,将逻辑谓词规则与强化学习相结合,形成一种新的逻辑强化学习方法——CCLORRL,并对其收敛性进行了证明.该方法使用轮廓形状谓词产生形状状态表,大幅度地减少状态空间;利用启发式规则指导动作的选择,减少了样本中不存在状态选择的盲目性.CCLORRL算法应用于俄罗斯方块中,实验表明,该方法是比较高效的. 展开更多
关键词 维数灾 启发式轮廓表 谓词 逻辑强化学习 CCLORRL算法
在线阅读 下载PDF
一种逻辑强化学习的tableau推理方法 被引量:3
2
作者 刘全 崔志明 +2 位作者 高阳 陈道蓄 姚望舒 《智能系统学报》 2008年第4期355-360,共6页
tableau方法是一种具有较强的通用性和适用性的推理方法,但由于函数符号、等词等的限制,使得自动推理具有不确定性.针对tableau推理中封闭集合构造过程具有盲目性的问题,提出将强化学习用于tableau自动推理的方法.该方法将tableau推理... tableau方法是一种具有较强的通用性和适用性的推理方法,但由于函数符号、等词等的限制,使得自动推理具有不确定性.针对tableau推理中封闭集合构造过程具有盲目性的问题,提出将强化学习用于tableau自动推理的方法.该方法将tableau推理过程中的逻辑公式与强化学习相结合,产生抽象的状态和活动.这样一方面可以通过学习方法控制自动推理的推理顺序,形成合理的封闭分枝,减少推理的盲目性;另一方面复杂的推理可以利用简单的推理结果,提高推理的效率. 展开更多
关键词 逻辑强化学习 tableau推理
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部