期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于相似度的词聚类算法和可变长语言模型 被引量:7
1
作者 袁里驰 《小型微型计算机系统》 CSCD 北大核心 2009年第5期912-915,共4页
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计聚类方法基于含婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文... 基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计聚类方法基于含婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文利用互信息定义一种词相似度,基于相似度,提出一种自下而上的分层聚类算法.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出一种新的基于类的可变长语言模型(Vari-gram)的生成方法. 展开更多
关键词 互信息 词相似度 聚类算法 可变长语言模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部