-
题名基于依存分析和错误驱动的中文时间表达式识别
被引量:21
- 1
-
-
作者
贺瑞芳
秦兵
刘挺
潘越群
李生
-
机构
哈尔滨工业大学信息检索研究室
-
出处
《中文信息学报》
CSCD
北大核心
2007年第5期36-40,共5页
-
基金
国家自然科学基金资助项目(60575042)
-
文摘
时间表达式识别是进行时间表达式归一化的基础,其识别结果的好坏直接影响归一化的效果。本文提出一种基于依存分析和错误驱动识别中文时间表达式的新方法。首先以时间触发词为切入点,据依存关系递归地识别时间表达式,大大地提高了识别效果;然后,采用错误驱动学习来进一步增强识别效果,根据错误识别结果和人工标注的差异自动地获取和改进规则,使系统的性能又提高了近3.5%。最终在封闭测试集和开放测试集上,F1值达到了76.38%和76.57%。
-
关键词
计算机应用
中文信息处理
时间表达式识别
触发词
依存分析
错误驱动学习
-
Keywords
computer application
Chinese information processing
time expression recognition
trigger word
dependency parsing
error-driven learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名自动构建时间基元规则库的中文时间表达式识别
被引量:16
- 2
-
-
作者
邬桐
周雅倩
黄萱菁
吴立德
-
机构
复旦大学计算机科学技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2010年第4期3-10,共8页
-
基金
国家自然科学基金资助项目(60503070)
-
文摘
该文提出一种基于正则文法的时间表达式识别算法:它基于"时间基元"①进行规则构建,提高了时间表达式识别的召回率;同时使用基于错误驱动思想的规则剪枝算法,削减了从训练语料带来的噪声,提高了识别的正确率,两者搭配有效提高了系统整体性能。在ACE07中文语料上的实验结果显著超过了现有水平,F-score达到89.9%。该文提出的算法具有很好的通用性和扩展性,加以改进将可以有更广泛的应用。
-
关键词
计算机应用
中文信息处理
时间表达式识别
时间基元
Timex2
错误驱动
正则表达式
-
Keywords
computer application
Chinese information processing
time expression recognition
basic time unit
Timex2
error-driven
regular expression
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于启发式错误驱动学习的中文时间表达式识别
被引量:3
- 3
-
-
作者
贺瑞芳
秦兵
潘越群
刘挺
李生
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《高技术通讯》
EI
CAS
CSCD
北大核心
2008年第12期1258-1262,共5页
-
基金
863计划(2006AA01Z145)
国家自然科学基金(60435020
60675034)资助项目
-
文摘
提出了一种基于启发式错误驱动学习的中文时间表达式识别的新方法。该方法先采用依存分析方法以时间触发词为切入点递归地识别时间表达式,有效地解决了长距离依赖的问题,大大提高了识别效果;在此基础上,对比错误识别结果和人工标注,采用启发式A*算法搜索策略进行错误驱动学习,降低了规则学习的复杂度,并具有区分每条规则的有效性和规则间相容性的优点,使系统性能提高近6%。最终在封闭测试集和开放测试集上,F值分别达到了77.96%和77.92%。
-
关键词
时间表达式识别
时间触发词
依存分析
错误驱动学习
A*算法
-
Keywords
time expression recognition, time trigger, dependency parsing, error-driven learning, A ^* algorithm
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-