-
题名语料库词性标注一致性检查方法研究
被引量:9
- 1
-
-
作者
张虎
郑家恒
刘江
-
机构
山西大学计算机科学系
-
出处
《中文信息学报》
CSCD
北大核心
2004年第5期11-16,共6页
-
基金
国家"8 6 3"高技术研究发展计划资助项目 (2 0 0 1AA4 0 31)
-
文摘
在对大规模语料库进行深加工时 ,保证词性标注的一致性已成为建设高质量语料库的首要问题。本文提出了基于聚类和分类的语料库词性标注一致性检查的新方法 ,该方法避开了以前一贯采用的规则或统计的方法 ,利用聚类和分类的思想 ,对范例进行聚类并求出阈值 ,对测试数据分类来确定其标注的正误 ,进而得出每篇文章的词性标注一致性情况 。
-
关键词
计算机应用
中文信息处理
词性标注一致性
兼类词
聚类
-
Keywords
computer application
Chinese information processing
the consistence of part of speech tagging
conversion of parts of speech
clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于分类的汉语语料库词性标注一致性检查
被引量:3
- 2
-
-
作者
张虎
郑家恒
-
机构
山西大学计算机与信息技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第8期90-92,共3页
-
基金
国家自然科学基金资助项目(60473139)
山西省自然科学基金资助项目(20051034)
山西大学青年基金资助项目(2006011)
-
文摘
制约语料库加工质量的一个重要方面是多标记词语的词性标注一致性问题。该文通过对大规模语料库兼类词的词性标注结果的分析,提出一种语料库词性标注一致性检查的方法,分析词性标记序列的特征并建立兼类词语境向量模型,运用k最近邻法,对兼类词语境进行向量分类,判定兼类词词性标注是否一致,得出每篇文章的词性标注的一致性情况,并测试了北京大学的150万语料。
-
关键词
分类
词性标注
兼类词
词性标注一致性
-
Keywords
classification
POS tagging
multi-category words
consistency of speech tagging
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-