-
题名一种基于启发式轮廓表的逻辑强化学习方法
被引量:8
- 1
-
-
作者
刘全
高阳
陈道蓄
孙吉贵
姚望舒
-
机构
南京大学软件新技术国家重点实验室
苏州大学计算机科学与技术学院
吉林大学符号计算与知识工程教育部重点实验室
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2008年第11期1824-1830,共7页
-
基金
国家自然科学基金项目(60673092,60775046)
教育部科学技术研究基金重点项目(207040)
+2 种基金
中国博士后科研基金项目(20060390919)
江苏省高校自然科学基金项目(06KJB520104)
江苏省博士后科研基金项目(060211C)~~
-
文摘
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.针对强化学习一直被"维数灾"问题所困扰的问题,提出在关系强化学习的基础上,引入启发式轮廓表的方法,采用含轮廓表的一阶谓词表示状态、活动和Q-函数,充分发挥Prolog表的优势,将逻辑谓词规则与强化学习相结合,形成一种新的逻辑强化学习方法——CCLORRL,并对其收敛性进行了证明.该方法使用轮廓形状谓词产生形状状态表,大幅度地减少状态空间;利用启发式规则指导动作的选择,减少了样本中不存在状态选择的盲目性.CCLORRL算法应用于俄罗斯方块中,实验表明,该方法是比较高效的.
-
关键词
维数灾
启发式轮廓表
谓词
逻辑强化学习
CCLORRL算法
-
Keywords
curse of dimensionality
heuristic contour list
predicate
logical reinforcement learning
CCLORRL algorithm
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种逻辑强化学习的tableau推理方法
被引量:3
- 2
-
-
作者
刘全
崔志明
高阳
陈道蓄
姚望舒
-
机构
苏州大学计算机科学与技术学院
南京大学软件新技术国家重点实验室
-
出处
《智能系统学报》
2008年第4期355-360,共6页
-
基金
国家自然科学基金资助项目(60673092,60775046)
教育部重点资助项目(207040)
+3 种基金
中国博士后科研基金资助项目(20060390919)
江苏省高校自然科学基金资助项目(06KJB520104)
江苏省博士后科研基金资助项目(060211C)
江苏省现代企业信息化应用支撑软件工程技术研究中心开发项目(SX200804)
-
文摘
tableau方法是一种具有较强的通用性和适用性的推理方法,但由于函数符号、等词等的限制,使得自动推理具有不确定性.针对tableau推理中封闭集合构造过程具有盲目性的问题,提出将强化学习用于tableau自动推理的方法.该方法将tableau推理过程中的逻辑公式与强化学习相结合,产生抽象的状态和活动.这样一方面可以通过学习方法控制自动推理的推理顺序,形成合理的封闭分枝,减少推理的盲目性;另一方面复杂的推理可以利用简单的推理结果,提高推理的效率.
-
关键词
逻辑强化学习
tableau推理
-
Keywords
logical reinforcement learning
tableau reasoning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-