-
题名混合词汇特征和LDA的语义相关度计算方法
被引量:5
- 1
-
-
作者
肖宝
李璞
蒋运承
-
机构
钦州学院电子与信息工程学院
华南师范大学计算机学院
郑州轻工业学院软件学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2017年第12期152-157,165,共7页
-
基金
国家自然科学基金(No.61272066)
广州市科技计划项目(No.2014J4100031)
广西高校中青年教师基础能力提升项目(No.KY2016LX431)
-
文摘
文本语义相关度计算在自然语言处理、语义信息检索等方面起着重要作用,以Wikipedia为知识库,基于词汇特征的ESA(Explicit Semantic Analysis)因简单有效的特点在这些领域中受到学术界的广泛关注和应用。然而其语义相关度计算因为有大量冗余概念的参与变成了一种高维度、低效率的计算方式,同时也忽略了文本所属主题因素对语义相关度计算的作用。引入LDA(Latent Dirichlet Allocation)主题模型,对ESA返回的相关度较高的概念转换为模型的主题概率向量,从而达到降低维度和提高效率的目的;将JSD距离(Jensen-Shannon Divergence)替换余弦距离的测量方法,使得文本语义相关度计算更加合理和有效。最后对不同层次的数据集进行算法的测试评估,结果表明混合词汇特征和主题模型的语义相关度计算方法的皮尔逊相关系数比ESA和LDA分别高出3%和9%以上。
-
关键词
主题模型
词汇特征
显式语义分析(esa)
隐含狄利克雷分布(LDA)
语义相关度计算
-
Keywords
topic model
lexical features
Explicit Semantic Analysis(esa)
Latent Dirichlet Allocation(LDA)
semantic relatedness measure
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名中文篇章级句间语义关系识别
被引量:22
- 2
-
-
作者
张牧宇
宋原
秦兵
刘挺
-
机构
哈尔滨工业大学
-
出处
《中文信息学报》
CSCD
北大核心
2013年第6期51-57,共7页
-
基金
国家自然科学基金资助项目(61133012)
国家自然科学基金资助项目(61073126)
国家自然科学基金资助项目(61273321)
-
文摘
篇章句间关系识别(Discourse Relation Recognition)是篇章分析的重要内容,该文对中文篇章句间关系识别任务进行初步探索,包括显式篇章句间关系识别与隐式篇章句间关系识别两类任务。针对显式篇章句间关系,我们提出基于关联词规则的方法进行识别,取得了很好的效果;针对隐式篇章句间关系,我们抽取词汇、句法、语义等特征,采用有指导模型进行识别。该文的分析和实验结果为后续研究提供了参考和基本对照系统。
-
关键词
中文篇章级语义分析
显式篇章句间关系
隐式篇章句间关系
-
Keywords
Chinese discourse semantic analysis
explicit discourse relation recognition~ implicit discourse relation recognition
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-