期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于双字耦合度的中文分词交叉歧义处理方法 被引量:17
1
作者 王思力 王斌 《中文信息学报》 CSCD 北大核心 2007年第5期14-17,30,共5页
本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息... 本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法。 展开更多
关键词 计算机应用 中文信息处理 中文分词 双字耦合度 t-测试差
在线阅读 下载PDF
一种基于大规模语料的新词识别方法 被引量:24
2
作者 贺敏 龚才春 +1 位作者 张华平 程学旗 《计算机工程与应用》 CSCD 北大核心 2007年第21期157-159,共3页
提出了一种基于大规模语料的新词识别方法,在重复串统计的基础上,结合分析不同串的外部环境和内部构成,依次判断上下文邻接种类,首尾单字位置成词概率以及双字耦合度等语言特征,分别过滤得到新词。通过在不同规模的语料上实验发现,此方... 提出了一种基于大规模语料的新词识别方法,在重复串统计的基础上,结合分析不同串的外部环境和内部构成,依次判断上下文邻接种类,首尾单字位置成词概率以及双字耦合度等语言特征,分别过滤得到新词。通过在不同规模的语料上实验发现,此方法可行有效,能够应用到词典编撰,术语提取等领域。 展开更多
关键词 新词 邻接类别 单字成词概率 双字耦合度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部