-
题名基于短语的柬汉双语LDA主题模型
- 1
-
-
作者
谢庆
严馨
诺宇
徐广义
周枫
郭剑毅
-
机构
昆明理工大学信息工程与自动化学院
云南南天电子信息产业股份有限公司
-
出处
《计算机工程与科学》
CSCD
北大核心
2019年第8期1497-1503,共7页
-
基金
国家自然科学基金(61462055,61562049)
-
文摘
为了有效地获取双语文档的主题分布,提出了一种基于短语的柬汉双语LDA主题模型。修改了传统LDA主题模型中的词袋模型,融入短语(N-gram)的概念,能够在主题预测过程中考虑文章的词序以及上下文,并将之应用于可比语料的双语环境中。本模型基于一个3层贝叶斯网络模型,在此框架下,首先搜集中文和柬埔寨语的可比语料,每一对双语可比语料文档共享一个相同的主题分布,之后引入发现主题以及主题短语的主题模型:对每个单词,首先进行主题抽样,然后将其状态作为短语进行采样,最后对来自特定主题短语分布的单词进行采样。通过实验结果可知,基于短语的双语LDA主题模型比一般的双语LDA模型更能抓住文章的主题,且有更好的主题预测能力。
-
关键词
柬汉双语
短语
主题模型
-
Keywords
Khmer-Chinese bilingual
phrase
topic model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-