期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于N-gram模型和机器学习的汉语分词算法 被引量:24
1
作者 吴应良 韦岗 李海洲 《电子与信息学报》 EI CSCD 北大核心 2001年第11期1148-1153,共6页
汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算... 汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。 展开更多
关键词 汉语分词算法 N-GRAM模型 机器学习 中文信息处理
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部