-
题名中文“非多字词错误”自动校对方法研究
被引量:15
- 1
-
-
作者
刘亮亮
曹存根
-
机构
江苏科技大学计算机科学与工程学院
中国科学院计算技术研究所智能信息重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2016年第10期200-205,共6页
-
基金
国家自然科学基金项目(91224006
61173063
+2 种基金
61203284
30973713)
国家社科基金重点项目(10AYY003)资助
-
文摘
针对目前中文文本中的"非多字词错误"自动校对方法的不足,提出了一种模糊分词的"非多字词错误"自动查错和自动校对方法。首先利用精确匹配算法与中文串模糊相似度算法对中文文本进行精确切分和模糊全切分,建立词图;然后利用改进的语言模型对词图进行最短路径求解,得到分词结果,实现"非多字词错误"的自动发现和自动纠正。实验测试集是由2万行领域问答系统日志语料构成,共包含664处"非多字词错误"。实验表明,所提方法能有效发现"非多字词错误",包括由于汉字替换、缺字、多字引起的"非多字词错误",该方法的查错召回率达到75.9%,查错精度达到85%。所提方法是一种将查错与纠错融于一体的方法。
-
关键词
非词错误
非多字词错误
模糊匹配
词图
-
Keywords
Non-word error, Non-multi-character word error, Fuzzy matching, Word graph
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于规则与统计相结合的中文文本自动查错模型与算法
被引量:34
- 2
-
-
作者
张仰森
曹元大
俞士汶
-
机构
北京大学计算语言学研究所
北京理工大学计算机科学工程系
北京信息科技大学计算机及自动化系
-
出处
《中文信息学报》
CSCD
北大核心
2006年第4期1-7,55,共8页
-
基金
国家973项目资助(2004CB318102)
国家863计划资助(2001AA114210
+1 种基金
2002AA117010)
中国博士后基金项目资助(2005038026)
-
文摘
中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43%,误报率为30.57%。
-
关键词
计算机应用
中文信息处理
中文文本自动查错
规则与统计相结合
非多字词错误
真多字词错误
-
Keywords
Computer application
Chinese information processing
Chinese text automatic error-detecting
Combing rule-based and statistics-based approaches
non-multi-character word error
real-multi-character word error
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-