-
题名基于词典信息的先秦汉语全文词义标注方法研究
被引量:5
- 1
-
-
作者
张颖杰
李斌
陈家骏
陈小荷
-
机构
南京大学计算机软件新技术国家重点实验室
南京师范大学语言信息科技研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2012年第3期65-71,103,共8页
-
基金
先秦文献词汇知识挖掘资助项目(2010JDXM023)
211项目"先秦汉语词汇统计与知识检索"
+2 种基金
国家社会科学基金资助项目(10&ZD117
10CYY021
08BYY054)
-
文摘
词义消歧是自然语言处理中的一项基础任务,古汉语信息处理也急需深层次的语义标注工作。该文针对先秦古汉语这一特殊的语言材料,在训练语料和语义资源匮乏的条件下,采用《汉语大词典2.0》作为知识来源,将其词条释义作为义类,每个义项的例句作为训练语料,使用基于支持向量机(SVM)的半指导方法对《左传》进行全文的词义标注。按照频度不同、义项数量不同的原则,我们随机选取了22个词进行了人工检查,平均正确率达到67%。该方法可以广泛用于缺乏训练语料的古汉语义项标注工作,能够在古汉语全文词义标注的起步阶段提供初始结果,为人工标注词语义项提供良好的数据底本,补正传统词典释义不全的问题,进一步丰富汉语史发展研究资料。
-
关键词
词义消歧
义项标注
古汉语
自然语言处理
-
Keywords
word sense disambiguation
sense tagging
ancient Chinese
natural language processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-