期刊文献+
共找到139篇文章
< 1 2 7 >
每页显示 20 50 100
基于潜在狄利克雷分布模型的多文档情感摘要 被引量:9
1
作者 荀静 刘培玉 +1 位作者 杨玉珍 张艳辉 《计算机应用》 CSCD 北大核心 2014年第6期1636-1640,共5页
针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重... 针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重要度和句子的特征计算句子的权重;最终提取情感文摘。实验结果表明,该方法能够有效地识别情感关键句,在准确率、召回率和F值上均有不错的效果。 展开更多
关键词 在狄利克雷分布模型 主观句子 情感分析 多文档摘要
在线阅读 下载PDF
融合纹理结构的潜在狄利克雷分布铁路扣件检测模型 被引量:9
2
作者 罗建桥 刘甲甲 +1 位作者 李柏林 狄仕磊 《计算机应用》 CSCD 北大核心 2016年第2期574-579,共6页
针对潜在狄利克雷分布(LDA)模型忽略图像结构的问题,提出一种融合图像纹理结构信息的LDA扣件检测模型TS_LDA。首先,设计一种单通道局部二值模式(LBP)方法获得图像纹理结构,将单词的纹理信息作为标注,用单词和标注的联合分布反映了... 针对潜在狄利克雷分布(LDA)模型忽略图像结构的问题,提出一种融合图像纹理结构信息的LDA扣件检测模型TS_LDA。首先,设计一种单通道局部二值模式(LBP)方法获得图像纹理结构,将单词的纹理信息作为标注,用单词和标注的联合分布反映了图像的结构特点;然后,将标注信息嵌入LDA,由单词和标注共同推导图像主题,改进之后的主题分布考虑了图像结构;最后,以该主题分布训练分类器,检测扣件状态。相比LDA方法,正常扣件与失效扣件在TS_LDA主题空间中的区分度增加了5%~35%,平均漏检率降低了1.8%~2.4%。实验结果表明,TS_LDA能够提高扣件图像建模精度,从而更加准确地检测扣件状态。 展开更多
关键词 纹理结构 视觉单词 单词标注 在狄利克雷分布模型 铁路扣件检测
在线阅读 下载PDF
基于潜在狄利克雷分配模型预测克隆代码不一致变化的可能性 被引量:3
3
作者 尹丽丽 张丽萍 +2 位作者 王春晖 涂颖 刘东升 《计算机应用》 CSCD 北大核心 2014年第6期1788-1791,1811,共5页
程序员对源代码的拷贝、粘贴及修改活动会导致软件中出现大量的克隆代码,而在版本的进化过程中,克隆代码的不一致变化是引起程序错误的主要原因,同时会增加维护成本。为了解决该问题,提出一种新的研究方法:首先构建版本间克隆群的映射关... 程序员对源代码的拷贝、粘贴及修改活动会导致软件中出现大量的克隆代码,而在版本的进化过程中,克隆代码的不一致变化是引起程序错误的主要原因,同时会增加维护成本。为了解决该问题,提出一种新的研究方法:首先构建版本间克隆群的映射关系,其次借助潜在狄利克雷分配(LDA)模型提取直系克隆群集主题,最后预测克隆代码不一致变化的可能性。对一款软件的8个版本进行了实验,实验结果的区分度明显,可以有效地预测不一致变化的可能性,评估软件质量和可信性。 展开更多
关键词 预测 克隆代码 不一致变化 在狄利克雷分配模型 进化
在线阅读 下载PDF
基于潜在狄利克雷分配模型和互信息的无监督特征选取法 被引量:3
4
作者 董元元 陈基漓 唐小侠 《计算机应用》 CSCD 北大核心 2012年第8期2250-2252,2257,共4页
为解决互信息(MI)在特征选取中的类别缺失和倾向低频词问题,提出LDA-σ方法。该方法使用潜在狄利克雷分配模型(LDA)提取潜在主题,以"词—主题"间互信息的标准差作为特征评估函数。在Reuters-21578语料集上提取特征词并进行分... 为解决互信息(MI)在特征选取中的类别缺失和倾向低频词问题,提出LDA-σ方法。该方法使用潜在狄利克雷分配模型(LDA)提取潜在主题,以"词—主题"间互信息的标准差作为特征评估函数。在Reuters-21578语料集上提取特征词并进行分类,LDA-σ方法的微平均F1最高达0.9096;宏平均F1优于其他算法,最高达0.7823。实验表明,LDA-σ方法可用于文本特征选取。 展开更多
关键词 在狄利克雷分配模型 互信息 评价函数
在线阅读 下载PDF
基于隐含狄利克雷分配模型的企业创新测量方法研究 被引量:1
5
作者 叶琴 蔡建峰 张秋韵 《科技进步与对策》 CSSCI 北大核心 2024年第2期90-98,共9页
如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利... 如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利克雷分配主题模型,开发一种新的测量企业创新的方法,并与当前主流方法进行比较。研究发现:①基于文本的企业创新测量方法既适用于专利和研发企业,也适用于非专利和非研发企业;②对于专利和研发企业而言,基于文本的企业创新与企业专利申请和研发支出显著相关;对于非专利和非研发企业而言,新测量方法能够有效识别企业利用新技术、开辟新市场等创新实践;③时间序列分析表明,基于文本分析的企业创新能够准确反映样本区间企业创新活动宏观趋势。 展开更多
关键词 隐含狄利克雷分配模型 企业创新 文本分析 主题模型 分析师报告
在线阅读 下载PDF
基于LDA主题模型的在途驾驶风格识别方法
6
作者 汪娇 刘锴 +2 位作者 栗慧哲 曹鹏 王秋玲 《中国安全科学学报》 CAS CSCD 北大核心 2024年第10期197-204,共8页
为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业... 为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业的场景感知层、模式层、操作层以及车辆状态层出发,将连续的轨迹时序数据阐述为驾驶行为语义理解词汇;其次,根据主题困惑度和主题一致性指标定义4类习惯性驾驶风格:稳定型、保守型、适中型以及激进型;最后,将每位驾驶员的在途驾驶风格识别为上述驾驶风格的概率组合。结果表明:所提出的在途驾驶风格识别方法考虑驾驶员在驾驶过程中的异质性和不一致性,能够解释同一驾驶员在不同驾驶环境下表现出差异化驾驶风格的现象,同时,有助于提高驾驶风格在途识别的全面性以及可理解性。 展开更多
关键词 在狄利克雷分配(lda)主题模型 在途驾驶风格 轨迹数据 语义理解 驾驶行为
在线阅读 下载PDF
一种基于改进加权LDA模型的敏感词识别模型
7
作者 曾玲 林天余 +2 位作者 何秋霞 陈莹 胡娟娟 《兵工自动化》 北大核心 2025年第6期28-32,共5页
针对目前互联网中主题识别时存在数据复杂、预测精度低的缺陷,提出一种基于改进加权潜在狄利克雷分配(latent Dirichlet allocation,LDA)模型的敏感词识别模型。建立特定领域敏感词语料库;为提高敏感信息主题的识别效率,对语料库进行粗... 针对目前互联网中主题识别时存在数据复杂、预测精度低的缺陷,提出一种基于改进加权潜在狄利克雷分配(latent Dirichlet allocation,LDA)模型的敏感词识别模型。建立特定领域敏感词语料库;为提高敏感信息主题的识别效率,对语料库进行粗粒度文本分类;通过加权模型,提高共现频率低但敏感特征明显的词的分布权重,从而可以发现更多具有低频隐式关系的词;以主流新闻网站爬取的数据为例,对所提模型进行验证。结果表明:该模型可识别和提取每个类别的文本更详细的敏感信息主题,该模型有效且准确。 展开更多
关键词 主题识别 敏感词 自然语言处理 在狄利克雷分配
在线阅读 下载PDF
基于潜在狄利克雷分配模型的医疗数据研究 被引量:2
8
作者 许珠香 江弋 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第3期356-359,共4页
以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗... 以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗方法和诊断的主题结构.参数推理采用Gibbs抽样,根据主题间平均相似度,确定最佳主题数.实验中采用SHTDT模型可以预测给定症状的患者的主题分布、中药、治疗方法及诊断结果,为临床医生和研究人员提供参考.结果表明该模型能够为中医临床诊疗规律的研究提供一个新的统计工具. 展开更多
关键词 中医诊断 中医治疗 在狄利克雷分配(lda)模型 GIBBS抽样 多关系主题
在线阅读 下载PDF
基于狄利克雷多项分配模型的多源文本主题挖掘模型 被引量:1
9
作者 徐立洋 黄瑞章 +2 位作者 陈艳平 钱志森 黎万英 《计算机应用》 CSCD 北大核心 2018年第11期3094-3099,3104,共7页
随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多... 随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型(MSDMA)。通过考虑主题在不同数据源的词分布的差异性,结合DMA模型的非参聚类性质,模型主要解决了如下三个问题:1)能够学习出同一个主题在不同数据源中特有的词分布形式;2)通过数据源之间共享主题空间和词项空间,使得数据源间可进行主题知识互补,提升对高噪声、低信息量的数据源的主题发现效果;3)能自主学习出每个数据源内的主题数量,不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明,所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。 展开更多
关键词 多源文本数据 主题模型 吉布斯采样 狄利克雷多项分配模型 文本挖掘
在线阅读 下载PDF
潜在狄利克雷分配模型在网络日志的应用
10
作者 许两有 许珠香 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期455-458,共4页
近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历... 近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历史访问网页地址(URL)信息,提出了基于加权潜在狄利克雷分配(LDA)模型的用户分类方法,将用户划分到不同的主题群体,实验表明,这种方法能达到很好的分类效果. 展开更多
关键词 WEB日志 在狄利克雷分配(lda)模型 URL 分类
在线阅读 下载PDF
一种并行LDA主题模型建立方法研究 被引量:12
11
作者 王旭仁 姚叶鹏 +1 位作者 冉春风 何发镁 《北京理工大学学报》 EI CAS CSCD 北大核心 2013年第6期590-593,共4页
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行... 针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高. 展开更多
关键词 MapReduce架构 并行计算 在狄利克雷分布模型 主题建模
在线阅读 下载PDF
基于权重微博链的改进LDA微博主题模型 被引量:9
12
作者 李鹏 于岩 +2 位作者 李英乐 李星 何赞园 《计算机应用研究》 CSCD 北大核心 2016年第7期2018-2021,共4页
社交网络尤其是微博中含有大量的短文本。短文本不同于传统的文本,其携带的语义特征信息密度低,很难对其进行准确的主题挖掘。针对这一问题,提出根据微博发布时间与原创、转发、评论微博等社交行为信息分配权重,使用背景知识丰富语义特... 社交网络尤其是微博中含有大量的短文本。短文本不同于传统的文本,其携带的语义特征信息密度低,很难对其进行准确的主题挖掘。针对这一问题,提出根据微博发布时间与原创、转发、评论微博等社交行为信息分配权重,使用背景知识丰富语义特征的微博链结构与基于此改进的LDA主题模型。实验结果表明,相比于标准的LDA模型,本模型的perplexity值更低,即具有较低的预测不确定度。 展开更多
关键词 短文本 主题挖掘 微博链 在狄利克雷分布 PERPLEXITY
在线阅读 下载PDF
基于轨迹分段LDA主题模型的视频异常行为检测方法 被引量:9
13
作者 郑併斌 范新南 +1 位作者 李敏 张继 《计算机应用》 CSCD 北大核心 2015年第2期515-518,565,共5页
基于目标轨迹的异常行为检测算法忽略了轨迹内部信息,容易导致异常检测虚警率偏高。为解决该问题,提出一种基于轨迹分段主题模型的视频异常行为检测方法。首先将目标原始轨迹根据轨迹转角分段,然后采用分段量化的方式提取轨迹片段中包... 基于目标轨迹的异常行为检测算法忽略了轨迹内部信息,容易导致异常检测虚警率偏高。为解决该问题,提出一种基于轨迹分段主题模型的视频异常行为检测方法。首先将目标原始轨迹根据轨迹转角分段,然后采用分段量化的方式提取轨迹片段中包含的行为特征信息,接着通过潜在狄利克雷分配(LDA)主题模型建模发掘目标轨迹之间的时空关系,最后通过学习所构建的模型并结合贝叶斯理论进行行为模式分析和异常行为检测。分别对两个视频场景进行了目标行为模式分析和异常行为检测的仿真实验,检测出了场景内多种异常行为模式。实验结果表明,通过结合轨迹分段与LDA主题模型,该算法能够充分挖掘目标轨迹内部的行为特征信息,识别多种异常行为模式,并且能提高对异常行为检测的准确率。 展开更多
关键词 视频分析 行为模式分析 异常检测 在狄利克雷分配 主题模型 轨迹分段
在线阅读 下载PDF
基于LDA主题模型的短文本分类 被引量:19
14
作者 杨萌萌 黄浩 +2 位作者 程露红 马平 包武杰 《计算机工程与设计》 北大核心 2016年第12期3371-3377,共7页
针对传统VSM(vector space model)在短文本分类中维数高、语义特征不明显的问题,提出基于LDA(latent Dirichlet allocation)模型主题分布相似度分类方法;针对短文本内容少、长度短、特征稀疏的问题,提出基于LDA模型主题-词分布矩阵的主... 针对传统VSM(vector space model)在短文本分类中维数高、语义特征不明显的问题,提出基于LDA(latent Dirichlet allocation)模型主题分布相似度分类方法;针对短文本内容少、长度短、特征稀疏的问题,提出基于LDA模型主题-词分布矩阵的主题分布向量改进方法。与传统VSM分类方法相比,该方法降低了相似度计算维度,融合了一定语义特征。实验结果表明,与传统VSM分类方法相比,基于主题分布相似度方法的平均F1值提高了4.5%,基于LDA模型主题-词分布矩阵主题分布向量改进方法的平均F1值提高了5.2%,验证了以上方法的有效性。 展开更多
关键词 在狄利克雷分布(lda) 向量空间模型(VSM) 短文本分类 K近邻(K-nearest neighbor) 吉布斯采样 相似度计算
在线阅读 下载PDF
一种基于LDA模型的主题句抽取方法 被引量:10
15
作者 王力 李培峰 朱巧明 《计算机工程与应用》 CSCD 2013年第2期160-164,257,共6页
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题... 在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。 展开更多
关键词 隐含狄利克雷分配(lda) 主题模型 主题句抽取 信息融合
在线阅读 下载PDF
DOLDA模型设计与主题演化分析 被引量:3
16
作者 蒋权 郑山红 +1 位作者 刘凯 李万龙 《计算机工程与设计》 北大核心 2018年第2期446-451,485,共7页
为解决OLDA模型挖掘大规模文档主题时计算效率低下和不能发现新主题的问题,提出一种分布式的DOLDA模型(distribute online LDA,DOLDA)。建立分布式矩阵存储主题-词项,设计一种动态负载均衡策略来提升计算速度和线程调度的性能,根据Zipf... 为解决OLDA模型挖掘大规模文档主题时计算效率低下和不能发现新主题的问题,提出一种分布式的DOLDA模型(distribute online LDA,DOLDA)。建立分布式矩阵存储主题-词项,设计一种动态负载均衡策略来提升计算速度和线程调度的性能,根据Zipf定律结合主题的遗传度提出一种文档权值设置方法。在Spark分布式计算平台的实验结果表明,相比OLDA模型,DOLDA模型能够提高近16%的加速比,有效地在线分析主题的演化。 展开更多
关键词 主题挖掘 分布式计算 在线的在狄利克雷分布模型 动态负载均衡 主题演化
在线阅读 下载PDF
基于隐含狄利克雷分配模型的图像分类算法 被引量:9
17
作者 杨赛 赵春霞 《计算机工程》 CAS CSCD 2012年第14期181-183,共3页
概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对... 概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对图像进行分类。实验结果表明,与基于概率隐含语义分析模型的分类算法相比,该算法的分类性能较优。 展开更多
关键词 BOF模型 中层语义特征 隐含狄利克雷分配模型 隐含主题分布特征 K近邻算法 图像分类
在线阅读 下载PDF
基于LDA的条件随机场主题模型研究 被引量:1
18
作者 史庆伟 郭朋亮 《计算机工程与应用》 CSCD 北大核心 2015年第7期131-135,140,共6页
使用主题模型对文本建模,提取文本的隐含主题,进而进行词性标注和文本分类等工作,是机器学习和文本挖掘领域的研究热点。提出一个基于LDA的主题模型,它基于"段袋"假设——文本中的段落具有相同的主题,且连续的段落更倾向于具... 使用主题模型对文本建模,提取文本的隐含主题,进而进行词性标注和文本分类等工作,是机器学习和文本挖掘领域的研究热点。提出一个基于LDA的主题模型,它基于"段袋"假设——文本中的段落具有相同的主题,且连续的段落更倾向于具有相同的主题。对于文章的段落,采用条件随机场(CRF)模型划分并判断它们是否具有相同主题。实验表明,新模型相比LDA模型能更好得提取主题并具有更低的困惑度,同时,能够较好地进行词性标注和文本分类工作。 展开更多
关键词 潜在狄利克雷分配(lda) 条件随机场 主题
在线阅读 下载PDF
融合LDA-BN的船舶碰撞事故致因分析
19
作者 邵波 刘巧 +2 位作者 柯善钢 郑霞忠 贺语琴 《安全与环境学报》 北大核心 2025年第1期157-164,共8页
为探究船舶碰撞事故致因及其关系,提升航运安全管理水平,研究提出融合狄利克雷分布(Latent Dirichlet allocation,LDA)与贝叶斯网络(Bayesian Network,BN)的船舶碰撞事故致因分析方法。首先,运用LDA主题模型挖掘361份船舶碰撞事故调查报... 为探究船舶碰撞事故致因及其关系,提升航运安全管理水平,研究提出融合狄利克雷分布(Latent Dirichlet allocation,LDA)与贝叶斯网络(Bayesian Network,BN)的船舶碰撞事故致因分析方法。首先,运用LDA主题模型挖掘361份船舶碰撞事故调查报告,提取27个事故致因主题;其次,利用事故树方法厘清调查报告中致因间的影响关系,构建事故致因贝叶斯网络结构,使用期望最大化算法进行贝叶斯网络参数学习,确定各节点的条件概率,构建事故致因贝叶斯网络模型;最后,通过逆向推理分析、最大致因链分析及敏感性分析,找出导致船舶碰撞事故发生的主要致因因素。结果显示:安全管理不到位、疏忽瞭望、事发水域通航环境复杂是引发船舶碰撞事故可能性大的致因,航线保持不当、应急处置不当、违规穿越锚地是导致船舶碰撞事故发生的最敏感致因因素。 展开更多
关键词 安全社会工程 船舶碰撞 狄利克雷分布主题模型 贝叶斯网络 事故致因
在线阅读 下载PDF
基于朴素贝叶斯与潜在狄利克雷分布相结合的情感分析 被引量:24
20
作者 苏莹 张勇 +1 位作者 胡珀 涂新辉 《计算机应用》 CSCD 北大核心 2016年第6期1613-1618,共6页
针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论... 针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论的篇章级别和句子级别的情感倾向进行分析。该模型假设每个句子而不是每个单词拥有一个潜在的情感变量;然后,该情感变量再以朴素贝叶斯的方式生成一系列独立的特征。在该模型中,朴素贝叶斯假设的引入使得该模型可以结合自然语言处理(NLP)相关的技术,例如依存分析、句法分析等,用以提高无指导情感分析的性能。在两个情感语料数据集上的实验结果显示,该模型能够自动推导出篇章级别和句子级别的情感极性,该模型的正确率显著优于其他无指导的方法,甚至接近部分半指导或有指导的研究方法。 展开更多
关键词 情感分析 主题模型 在狄利克雷分布 朴素贝叶斯 意见挖掘
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部