期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于短语的柬汉双语LDA主题模型
1
作者 谢庆 严馨 +3 位作者 诺宇 徐广义 周枫 郭剑毅 《计算机工程与科学》 CSCD 北大核心 2019年第8期1497-1503,共7页
为了有效地获取双语文档的主题分布,提出了一种基于短语的柬汉双语LDA主题模型。修改了传统LDA主题模型中的词袋模型,融入短语(N-gram)的概念,能够在主题预测过程中考虑文章的词序以及上下文,并将之应用于可比语料的双语环境中。本模型... 为了有效地获取双语文档的主题分布,提出了一种基于短语的柬汉双语LDA主题模型。修改了传统LDA主题模型中的词袋模型,融入短语(N-gram)的概念,能够在主题预测过程中考虑文章的词序以及上下文,并将之应用于可比语料的双语环境中。本模型基于一个3层贝叶斯网络模型,在此框架下,首先搜集中文和柬埔寨语的可比语料,每一对双语可比语料文档共享一个相同的主题分布,之后引入发现主题以及主题短语的主题模型:对每个单词,首先进行主题抽样,然后将其状态作为短语进行采样,最后对来自特定主题短语分布的单词进行采样。通过实验结果可知,基于短语的双语LDA主题模型比一般的双语LDA模型更能抓住文章的主题,且有更好的主题预测能力。 展开更多
关键词 柬汉双语 短语 主题模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部