期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
融合主题模型及双语词向量的汉缅双语可比文档获取方法 被引量:2
1
作者 李训宇 毛存礼 +3 位作者 余正涛 高盛祥 王振晗 张亚飞 《中文信息学报》 CSCD 北大核心 2021年第1期88-95,共8页
缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分... 缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档。实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%。 展开更多
关键词 主题模型 双语词向量 文档相似度 汉语—缅甸语 双语可比文档
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部