-
题名基于双字耦合度的中文分词交叉歧义处理方法
被引量:17
- 1
-
-
作者
王思力
王斌
-
机构
中国科学院计算技术研究所
-
出处
《中文信息学报》
CSCD
北大核心
2007年第5期14-17,30,共5页
-
基金
国家973计划资助项目(2004CB318109)
国家自然科学基金资助项目(60603094)
-
文摘
本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法。
-
关键词
计算机应用
中文信息处理
中文分词
双字耦合度
t-测试差
-
Keywords
computer application
Chinese information processing
Chinese word segmentation
coupling degree of double characters
difference of t-test
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于大规模语料的新词识别方法
被引量:24
- 2
-
-
作者
贺敏
龚才春
张华平
程学旗
-
机构
中国科学院计算技术研究所
中国科学院研究生院
-
出处
《计算机工程与应用》
CSCD
北大核心
2007年第21期157-159,共3页
-
基金
国家重点基础研究发展规划(973)(the National Grand Fundamental Research 973 Program of China under Grant No.2004CB318109)
中科院知识创新工程基金(No.20056550)。
-
文摘
提出了一种基于大规模语料的新词识别方法,在重复串统计的基础上,结合分析不同串的外部环境和内部构成,依次判断上下文邻接种类,首尾单字位置成词概率以及双字耦合度等语言特征,分别过滤得到新词。通过在不同规模的语料上实验发现,此方法可行有效,能够应用到词典编撰,术语提取等领域。
-
关键词
新词
邻接类别
单字成词概率
双字耦合度
-
Keywords
new words
context variety
inside word probability
double character coupling
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-