-
题名基于字串内部结合紧密度的汉语自动抽词实验研究
被引量:33
- 1
-
-
作者
罗盛芬
孙茂松
-
机构
智能技术与系统国家重点实验室清华大学计算机科学与技术系
-
出处
《中文信息学报》
CSCD
北大核心
2003年第3期9-14,共6页
-
基金
国家 973资助项目 (G19980 30 5 0 7)
-
文摘
自动抽词是文本信息处理中的重要课题之一。当前比较通行的解决策略是通过评估候选字串内部结合紧密度来判断该串成词与否。本文分别考察了九种常用统计量在汉语自动抽词中的表现 ,进而尝试将它们组合在一起 ,以期提高性能。为了达到尽可能好的组合效果 ,采用了遗传算法来自动调整组合权重。对二字词的自动抽词实验结果表明 ,这九种常用统计量中 ,互信息的抽词能力最强 ,F measure可达 5 4 77% ,而组合后的F measure为 5 5 4 7% ,仅比互信息提高了 0 70 % ,效果并不显著。我们的结论是 :( 1)上述统计量并不具备良好的互补性 ;( 2 )通常情况下 ,建议直接选用互信息进行自动抽词 ,简单有效。
-
关键词
计算机应用
中文信息处理
自动抽词
统计量的组合
遗传算法
-
Keywords
computer application
Chinese information processing
Chinese word extraction
combination of statistical measures
genetic algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-