期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
在线社交网络中的新兴话题检测技术综述 被引量:5
1
作者 笱程成 杜攀 +1 位作者 刘悦 程学旗 《中文信息学报》 CSCD 北大核心 2016年第5期9-18,共10页
新兴话题检测是社交网络研究的热点问题之一。在线社交网络特别是微博的开放性,给话题的流行和爆发提供了前所未有的便利条件。新兴话题是即将流行或爆发的话题,往往伴随着重大的事件或新闻的发生,会产生重大的社会影响,如何在早期识别... 新兴话题检测是社交网络研究的热点问题之一。在线社交网络特别是微博的开放性,给话题的流行和爆发提供了前所未有的便利条件。新兴话题是即将流行或爆发的话题,往往伴随着重大的事件或新闻的发生,会产生重大的社会影响,如何在早期识别此类话题,是新兴话题检测研究的主要内容。该文回顾了近年来在新兴话题检测方面的主要进展,分析了新兴话题检测领域面临的挑战,阐述了相关的概念、方法和理论,重点从内容突发特征和信息传播模型两个方面对影响新兴话题检测的方法进行了分析和讨论,并对新兴话题检测的前景做了展望。 展开更多
关键词 新兴话题 话题检测 信息传播 社交网络
在线阅读 下载PDF
基于图的多源数据融合框架研究 被引量:7
2
作者 匡广生 郭岩 +2 位作者 俞晓明 刘悦 程学旗 《计算机科学》 CSCD 北大核心 2021年第11期170-175,共6页
在给定的任务中分析各种数据时,目前大多数研究只针对单源数据进行分析,缺乏应用于多源数据的方法。但如今数据日益丰富,因此提出一种多源数据融合框架,用于融合多种网络平台数据。同一平台数据中包含文本与各种属性,同时不同平台的数... 在给定的任务中分析各种数据时,目前大多数研究只针对单源数据进行分析,缺乏应用于多源数据的方法。但如今数据日益丰富,因此提出一种多源数据融合框架,用于融合多种网络平台数据。同一平台数据中包含文本与各种属性,同时不同平台的数据在内容与形式方面也存在很大差异。然而现有的网络信息挖掘方法大多仅使用同一平台中的部分数据进行分析,忽略了不同平台的数据之间存在的相互作用。因此文中提出一种数据融合框架,一方面,能基于图的强大表示能力融合同一平台不同类型的特征,从而提升单个平台的任务性能;另一方面能够利用不同平台的数据特征,使其相互补充,从而提升多个平台的任务性能。文中讨论的融合数据类型包括文本、时间、作者信息,这些特征涉及连续特征、离散特征以及非结构化特征。所提框架在事件分类任务上提升了F 1值,验证了提出的多源数据框架的有效性。 展开更多
关键词 融合表示 多源数据 图融合
在线阅读 下载PDF
基于社交演化博弈的社交网络用户信息分享行为演化分析 被引量:8
3
作者 于建业 王元卓 +1 位作者 靳小龙 程学旗 《电子学报》 EI CAS CSCD 北大核心 2018年第1期223-229,共7页
本文基于社交演化博弈模型研究了社交网络中用户信息分享行为的合作演化.在社交演化博弈模型中,用户通过不断地模仿他关注的最成功的用户的行为策略来改进自身的短期效用,或者根据声誉调整他关注的用户来改善自身所处的声誉环境,进而改... 本文基于社交演化博弈模型研究了社交网络中用户信息分享行为的合作演化.在社交演化博弈模型中,用户通过不断地模仿他关注的最成功的用户的行为策略来改进自身的短期效用,或者根据声誉调整他关注的用户来改善自身所处的声誉环境,进而改进自身的长期声誉,而用户间信息分享所构成的群体交互则使用公共品博弈进行建模.通过对社交演化博弈模型的数值仿真,揭示了用户间关注关系更新的频率、用户对声誉的追逐程度和群体放大效应在社交网络演化中的影响.同时,本文也应用了社交演化博弈模型对新浪微博进行了分析,加深了人们对社交网络中信息分享行为的合作演化的理解. 展开更多
关键词 社交演化博弈 社交网络 公共品博弈 信息分享行为 声誉
在线阅读 下载PDF
基于因果模型的主题热度计算与预测方法 被引量:10
4
作者 杜慧 郭岩 +3 位作者 范意兴 张瑾 余智华 程学旗 《中文信息学报》 CSCD 北大核心 2016年第2期50-55,共6页
网络是目前最重要的信息传播渠道,其自由性和丰富性使得信息迅速传播。挖掘网络中的热点主题对政府政策的制定、企业经营决策的调整可以提供强有力的支持,并能够满足网民对热点主题的关注需求。主题数量的庞大使得主题热度值的计算尤为... 网络是目前最重要的信息传播渠道,其自由性和丰富性使得信息迅速传播。挖掘网络中的热点主题对政府政策的制定、企业经营决策的调整可以提供强有力的支持,并能够满足网民对热点主题的关注需求。主题数量的庞大使得主题热度值的计算尤为重要,该文分析热度的形成原因,基于因果模型并采用面板数据,给出一种较为客观可行的主题热度计算模型。该模型使用易于获取的数据进行计算,给出较为客观的热度度量,进而便于不同主题、不同日期间的热度对比。在此基础上,通过对热度变化规律的考察,提出一种基于多峰高斯曲线拟合热度变化进行主题热度预测的思路。 展开更多
关键词 主题热度 因果模型 面板数据 热度预测 多峰高斯曲线
在线阅读 下载PDF
面向中文网络百科的语义知识库构建 被引量:5
5
作者 刘剑 许洪波 +2 位作者 唐慧丰 贾岩涛 程学旗 《系统仿真学报》 CAS CSCD 北大核心 2016年第3期542-548,共7页
传统的语义知识库构建耗费了大量的人力物力,而且知识难以做到及时的更新。针对这些不足,以语义本体和超图理论为基础,提出了新的语义表达模型:动态知识网络,并且阐述了该模型的理论基础和组成要素。在模型的指导下,面向中文360百科,研... 传统的语义知识库构建耗费了大量的人力物力,而且知识难以做到及时的更新。针对这些不足,以语义本体和超图理论为基础,提出了新的语义表达模型:动态知识网络,并且阐述了该模型的理论基础和组成要素。在模型的指导下,面向中文360百科,研究了语义知识的抽取方法和存储结构,半自动构建了中文语义知识库,为面向语义的中文信息处理提供知识支持。 展开更多
关键词 中文网络百科 语义知识库 超图 本体
在线阅读 下载PDF
基于问题导向提示学习和多路推理的检索增强生成问答
6
作者 王昱婷 陈波 +3 位作者 闫强 范意兴 余智华 郭嘉丰 《计算机工程与应用》 北大核心 2025年第12期120-128,共9页
当前大语言模型因其优越的性能,在各个领域都有着重要的应用。但大语言模型存在知识过时、知识不充分及生成结果错误等问题。检索增强生成通过给大语言模型输入精准及时的专业外部知识缓解了这些问题。然而,如何提高生成答案的准确性仍... 当前大语言模型因其优越的性能,在各个领域都有着重要的应用。但大语言模型存在知识过时、知识不充分及生成结果错误等问题。检索增强生成通过给大语言模型输入精准及时的专业外部知识缓解了这些问题。然而,如何提高生成答案的准确性仍是值得关注的热点问题。设计问题导向提示,通过优化提示工程,有效激发了大语言模型对于不同类型问题的理解能力,并充分利用外部信息,提高检索增强生成在回答不同类型问题的问答任务的准确性。同时使用辅助多路推理优化提示与生成答案总结降低模型生成答案的幻觉。在英文检索增强生成基准数据集中的简单问题、比较问题、集合问题与多跳问题以及总体数据进行的实验结果表明,提出的方法能够取得比较好的实现效果。 展开更多
关键词 检索增强生成 提示学习 大语言模型
在线阅读 下载PDF
SCMF:一种融合多源数据的软约束矩阵分解推荐算法 被引量:2
7
作者 满彤 沈华伟 +1 位作者 黄俊铭 程学旗 《中文信息学报》 CSCD 北大核心 2017年第4期174-183,共10页
数据稀疏是推荐系统面临的主要挑战之一。近年来,多源数据融合为解决数据稀疏问题提供了新思路。然而,现有方法大多假设对象在不同数据源中具有相同的表示,这种硬约束方式无法刻画对象在不同数据源中的差异性。该文提出一种基于软约束... 数据稀疏是推荐系统面临的主要挑战之一。近年来,多源数据融合为解决数据稀疏问题提供了新思路。然而,现有方法大多假设对象在不同数据源中具有相同的表示,这种硬约束方式无法刻画对象在不同数据源中的差异性。该文提出一种基于软约束矩阵分解的推荐算法,通过约束不同数据源中对象的隐因子向量,能够同时刻画同一对象表示的共性及其在不同数据源中的差异性。在两个数据集上的实验表明,该文提出的软约束矩阵分解算法在准确率方面优于现有的单数据源推荐算法和多源数据硬约束融合推荐算法,可以有效解决推荐系统面临的数据稀疏问题。 展开更多
关键词 协同过滤 推荐系统
在线阅读 下载PDF
任意网页的主题信息抽取研究 被引量:6
8
作者 张儒清 郭岩 +2 位作者 刘悦 俞晓明 程学旗 《中文信息学报》 CSCD 北大核心 2017年第5期127-137,共11页
目前大部分的网页信息抽取方法都局限于某一类网页的提取,并没有进一步深入到适用于任意网页的抽取。针对这一问题,该文提出了一种基于融合机制的任意网页主题信息抽取框架,特点是通过"模板库匹配—基于模板抽取—网页分类—全自... 目前大部分的网页信息抽取方法都局限于某一类网页的提取,并没有进一步深入到适用于任意网页的抽取。针对这一问题,该文提出了一种基于融合机制的任意网页主题信息抽取框架,特点是通过"模板库匹配—基于模板抽取—网页分类—全自动抽取"四个步骤实现对模板无关的全自动抽取算法和基于模板的抽取算法的融合。实验显示,这种融合机制能促进抽取准确率的有效提高,从而最终建立起一个适用于任意网页的、具有实用价值的信息抽取框架。 展开更多
关键词 任意网页 主题信息 网页分类 实用价值
在线阅读 下载PDF
基于视觉特征的网页信息抽取方法研究 被引量:6
9
作者 王宪发 郭岩 +2 位作者 刘悦 俞晓明 程学旗 《中文信息学报》 CSCD 北大核心 2019年第5期103-112,共10页
面对大规模异构网页,基于视觉特征的网页信息抽取方法普遍存在通用性较差、抽取效率较低的问题。针对通用性较差的问题,该文提出了基于视觉特征的使用有监督机器学习的网页信息抽取框架WEMLVF。该框架具有良好的通用性,通过对论坛网站... 面对大规模异构网页,基于视觉特征的网页信息抽取方法普遍存在通用性较差、抽取效率较低的问题。针对通用性较差的问题,该文提出了基于视觉特征的使用有监督机器学习的网页信息抽取框架WEMLVF。该框架具有良好的通用性,通过对论坛网站和新闻评论网站的信息抽取实验,验证了该框架的有效性。然后,针对视觉特征提取时间代价过高导致信息抽取效率较低的问题,该文使用WEMLVF,分别提出基于XPath和基于经典包装器归纳算法SoftMealy的自动生成信息抽取模板的方法。这两种方法使用视觉特征自动生成信息抽取模板,但模板的表达并不包含视觉特征,使得在使用模板进行信息抽取的过程中无需提取网页的视觉特征,从而既充分利用了视觉特征在信息抽取中的作用,又显著提升了信息抽取的效率,实验结果验证了这一结论。 展开更多
关键词 视觉特征 网络信息抽取 自动生成模板
在线阅读 下载PDF
基于深度学习的关系抽取研究综述 被引量:30
10
作者 庄传志 靳小龙 +3 位作者 朱伟建 刘静伟 白龙 程学旗 《中文信息学报》 CSCD 北大核心 2019年第12期1-18,共18页
关系抽取(RE)是为了抽取文本中包含的关系,是信息抽取(IE)的重要组成部分。近年来,研究人员利用深度学习技术在该领域开展了深入研究。由于神经网络类型丰富,基于深度学习的关系抽取方法也更加多样。该文从关系抽取的基本概念出发,对关... 关系抽取(RE)是为了抽取文本中包含的关系,是信息抽取(IE)的重要组成部分。近年来,研究人员利用深度学习技术在该领域开展了深入研究。由于神经网络类型丰富,基于深度学习的关系抽取方法也更加多样。该文从关系抽取的基本概念出发,对关系抽取方法依据不同的视角进行了类别划分。随后,介绍了基于深度学习的关系抽取方法常用的数据集,并总结出基于深度学习的关系抽取框架。在此框架下,对关系抽取方法在面向深度学习的输入数据预处理、面向深度学习的神经网络模型设计等方面的具体工作进行了分析与评述,最后对未来的研究方向进行了探讨和展望。 展开更多
关键词 关系抽取 深度学习 远程监督 联合学习
在线阅读 下载PDF
支持Unikernel的流式计算引擎:Hummer 被引量:4
11
作者 李冰 张志斌 +1 位作者 钟巧灵 程学旗 《计算机学报》 EI CSCD 北大核心 2019年第8期1755-1766,共12页
社会计算中,社会公共安全、企业商务智能和舆情计算等众多领域均对实时计算的性能提出了越来越高的要求.流式计算引擎作为大数据计算研究领域的研究热点之一,致力于提供高吞吐量和低延迟的实时计算能力.流式处理任务对处理延迟非常敏感... 社会计算中,社会公共安全、企业商务智能和舆情计算等众多领域均对实时计算的性能提出了越来越高的要求.流式计算引擎作为大数据计算研究领域的研究热点之一,致力于提供高吞吐量和低延迟的实时计算能力.流式处理任务对处理延迟非常敏感,数据价值随着处理时长的增长而快速递减.传统流式计算引擎设计中,操作系统、JVM等占用大量计算资源,如何提升计算资源利用率成为目前亟待解决的问题.为此,本文提出了一种基于C++语言实现的支持Unikernel的高性能实时数据分析计算引擎Hummer.首先,通过引入Unikernel机制,Hummer可绕过传统操作系统,直接运行于裸机或虚拟化层,减少传统操作系统无关组件带来的性能开销,支持分布式环境下的快速部署与启动,为高性能大数据计算引擎设计提出新的思路.其次,通过使用Unikernel对计算引擎进行封装,解决了C++应用需本地化编译、难以在集群中部署的问题.最后,系统使用灵活的网络通信方案,支持异构网络部署及网络资源隔离.实验表明,Hummer端到端处理延迟低于30ms,较Flink系统低2倍,较Spark Streaming低15.8倍,且吞吐量达到Flink的2倍.使用Unikernel封装的Hummer系统镜像仅为100MB,启动时间约为2s. 展开更多
关键词 大数据 数据流 分布式计算 流处理系统 微内核操作系统
在线阅读 下载PDF
基于远程监督的关系抽取研究综述 被引量:17
12
作者 白龙 靳小龙 +1 位作者 席鹏弼 程学旗 《中文信息学报》 CSCD 北大核心 2019年第10期10-17,共8页
关系抽取作为信息抽取的一项关键技术,在知识库自动构建、问答系统等领域有着极为重要的意义,一直以来受到人们的关注。远程监督关系抽取技术通过外部知识库作为监督源,自动对语料库进行标注,能够大量节省人工标注成本,因而受到了研究... 关系抽取作为信息抽取的一项关键技术,在知识库自动构建、问答系统等领域有着极为重要的意义,一直以来受到人们的关注。远程监督关系抽取技术通过外部知识库作为监督源,自动对语料库进行标注,能够大量节省人工标注成本,因而受到了研究者们的重视。该文针对远程监督关系抽取技术做了较为系统性的梳理,将已有方法分为基于概率图的、基于矩阵补全的和基于嵌入的三大类,并且对其当前面临的挑战进行了探讨,最后总结并展望了远程监督关系抽取技术未来的发展。 展开更多
关键词 远程监督 关系抽取 信息抽取
在线阅读 下载PDF
基于序列模型的单文档标题生成研究 被引量:4
13
作者 焦利颖 郭岩 +2 位作者 刘悦 俞晓明 程学旗 《中文信息学报》 CSCD 北大核心 2021年第1期64-71,共8页
中文单文档摘要是把一篇文档压缩成一个更短描述的过程。随着互联网数据量的增长,文档压缩技术对文本分析、数据浏览等有着重大的应用价值。但在基于序列模型的单文档单句摘要生成即标题生成领域中仍然存在数据使用率不高的问题。该文... 中文单文档摘要是把一篇文档压缩成一个更短描述的过程。随着互联网数据量的增长,文档压缩技术对文本分析、数据浏览等有着重大的应用价值。但在基于序列模型的单文档单句摘要生成即标题生成领域中仍然存在数据使用率不高的问题。该文提出基于关键信息指导的标题生成算法。算法中的关键信息除了主流方法中使用的新闻首段句子之外,还包括新闻后续内容中有实质信息的句子,以及新闻中的重点词语。该算法将这些关键信息作为序列模型的输入,指导其生成标题,使得生成的标题能够覆盖更多的新闻信息。实验表明,在基于序列模型生成标题时,使用关键信息能够提升新闻标题生成的效果。 展开更多
关键词 单文档 标题生成 序列模型
在线阅读 下载PDF
利用社交网络的影响力骨架探索信息传播 被引量:3
14
作者 黄俊铭 沈华伟 程学旗 《中文信息学报》 CSCD 北大核心 2016年第2期74-82,共9页
理解社交网络上的信息传播机制,通常包括对拓扑结构的分析和对用户行为的分析。由于社交网络上连边的强度具有异质性,只有一部分连边对于信息传播有实质作用,构成隐藏在社交网络中的影响力骨架。对影响力骨架的拓扑研究可帮助我们获得... 理解社交网络上的信息传播机制,通常包括对拓扑结构的分析和对用户行为的分析。由于社交网络上连边的强度具有异质性,只有一部分连边对于信息传播有实质作用,构成隐藏在社交网络中的影响力骨架。对影响力骨架的拓扑研究可帮助我们获得比直接研究社交网络拓扑结构更深入的认识。我们从连边正负性和个体节点角色分化入手,探讨了微观层面连边和节点在信息传播中的作用,进而从宏观层面分析信息传播所依赖的影响力骨架的连通性和扩散效率,发现信息传播具有一定程度的脆弱性,且其传播效率低于对社交网络本身研究的预期。 展开更多
关键词 信息传播 社交网络 影响力骨架
在线阅读 下载PDF
基于机器学习的股市拐点影响因素研究 被引量:2
15
作者 袁钰坤 李刚 +1 位作者 赵治翔 徐力 《计算机科学》 CSCD 北大核心 2021年第S01期165-168,177,共5页
股票市场的成交情况可以充分反映投资者的行为特征并影响整个股市的走势。股票成交明细数据作为股市最底层的交易数据,能够全面地体现股票交易的情况,成为至关重要的股票市场走势判断的参考数据,能够为资本市场监管者在风险监测领域进... 股票市场的成交情况可以充分反映投资者的行为特征并影响整个股市的走势。股票成交明细数据作为股市最底层的交易数据,能够全面地体现股票交易的情况,成为至关重要的股票市场走势判断的参考数据,能够为资本市场监管者在风险监测领域进行决策提供有效帮助。文中提出了一种可以快速地在海量股票交易明细数据中提取投资者交易特征的方法,然后基于逻辑回归、决策树和随机森林等机器学习算法找到股市大盘较大拐点产生的主要影响因素,并预测交易特征变量对股市较大拐点产生的时间范围。在沪深股指上进行的实验表明,相较于传统的模型,文中提出的方法可以将股市较大拐点预测的准确度提高约10%,并在6个月的回测实验中准确率依旧保持在70%左右的水准,从而证明了模型的有效性。 展开更多
关键词 股票市场 走势判断 风险监测 股市拐点 机器学习
在线阅读 下载PDF
基于情感词向量的微博情感分类 被引量:21
16
作者 杜慧 徐学可 +3 位作者 伍大勇 刘悦 余智华 程学旗 《中文信息学报》 CSCD 北大核心 2017年第3期170-176,共7页
该文提出了一种基于情感词向量的情感分类方法。词向量采用连续实数域上的固定维数向量来表示词汇,能够表达词汇丰富的语义信息。词向量的学习方法,如word2vec,能从大规模语料中通过上下文信息挖掘出潜藏的词语间语义关联。本文在从语... 该文提出了一种基于情感词向量的情感分类方法。词向量采用连续实数域上的固定维数向量来表示词汇,能够表达词汇丰富的语义信息。词向量的学习方法,如word2vec,能从大规模语料中通过上下文信息挖掘出潜藏的词语间语义关联。本文在从语料中学习得到的蕴含语义信息的词向量基础上,对其进行情感调整,得到同时考虑语义和情感倾向的词向量。对于一篇输入文本,基于情感词向量建立文本的特征表示,采用机器学习的方法对文本进行情感分类。该方法与基于词、N-gram及原始word2vec词向量构建文本表示的方法相比,情感分类准确率更高、性能和稳定性更好。 展开更多
关键词 情感分析 情感分类 词向量 机器学习
在线阅读 下载PDF
基于特征驱动的微博话题检测方法 被引量:3
17
作者 贺敏 刘玮 +3 位作者 刘悦 王丽宏 白硕 程学旗 《中文信息学报》 CSCD 北大核心 2017年第3期101-108,124,共9页
该文针对微博数据稀疏、内容关系难以计算的特点,提出了一种基于特征驱动的微博话题检测方法。提取有意义串作为微博动态特征,根据微博的结构关系计算特征的作者影响力和文档影响力,与内容统计特性共同构成特征的属性组,采用逻辑回归对... 该文针对微博数据稀疏、内容关系难以计算的特点,提出了一种基于特征驱动的微博话题检测方法。提取有意义串作为微博动态特征,根据微博的结构关系计算特征的作者影响力和文档影响力,与内容统计特性共同构成特征的属性组,采用逻辑回归对特征建模,基于属性组对特征二元分类得到话题关键特征,将关键特征之间的互信息作为距离度量,改进最近邻聚类方法对关键特征聚类产生话题。微博数据实验表明,该方法有效提高了微博话题检测的准确率和召回率。 展开更多
关键词 话题检测 微博 关键特征 逻辑回归 聚类
在线阅读 下载PDF
基于同义扩展的在线百科中实体属性抽取 被引量:1
18
作者 刘倩 刘冰洋 +3 位作者 贺敏 伍大勇 刘悦 程学旗 《中文信息学报》 CSCD 北大核心 2016年第1期16-23 29,29,共9页
实体属性抽取是信息抽取、知识库构建等任务的重要基础。该文提出了一种利用在线百科获取实体属性的方法,该方法首先通过在线百科的结构特征和领域独立的抽取模式捕获可能的属性短语,然后根据同义扩展获取尽可能多的属性表述形式,并同... 实体属性抽取是信息抽取、知识库构建等任务的重要基础。该文提出了一种利用在线百科获取实体属性的方法,该方法首先通过在线百科的结构特征和领域独立的抽取模式捕获可能的属性短语,然后根据同义扩展获取尽可能多的属性表述形式,并同时得到对应实体类别的同义属性集合。实验表明,该方法在保证属性抽取准确率不变的情况下,获得了比仅使用频率的方法覆盖范围更广的实体属性集合。 展开更多
关键词 实体属性 同义属性 命名实体 信息抽取词
在线阅读 下载PDF
抑制背景噪声的LDA子话题挖掘算法 被引量:1
19
作者 李静远 丘志杰 +2 位作者 刘悦 程学旗 任彦 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第3期54-60,共7页
专题文章集合是一些拥有相似背景知识的文章集合.为了更好地从专题文章集合内部的复杂信息关联中高效挖掘子话题信息,文中提出了抑制背景噪声的线性判别分析(LDA)子话题挖掘算法BLDA,通过预先抽取专题文档集合的共同背景知识、在迭代过... 专题文章集合是一些拥有相似背景知识的文章集合.为了更好地从专题文章集合内部的复杂信息关联中高效挖掘子话题信息,文中提出了抑制背景噪声的线性判别分析(LDA)子话题挖掘算法BLDA,通过预先抽取专题文档集合的共同背景知识、在迭代过程中重设关键词的产生等方式提高子话题抽取的准确程度.在微信公众账号文章上的系列实验证明,BLDA算法针对有共同背景的专题文章集合的聚类结果显著优于传统的LDA算法,其中主题召回率提高了170%,Purity聚类指标提高了143%,NMI聚类指标提高了160%. 展开更多
关键词 子话题挖掘 线性判别分析 背景噪声抑制
在线阅读 下载PDF
基于WMD距离与近邻传播的新闻评论聚类 被引量:8
20
作者 官赛萍 靳小龙 +4 位作者 徐学可 伍大勇 贾岩涛 王元卓 刘悦 《中文信息学报》 CSCD 北大核心 2017年第5期203-214,共12页
随着新闻网站的快速发展,网络新闻和评论数据激增,给人们带来了大量有价值的信息。新闻让人们了解发生在国内外的时事,而评论则体现了人们对事件的观点和看法,这对舆情分析和新闻评论推荐等应用很重要。然而,新闻评论数据又多又杂,而且... 随着新闻网站的快速发展,网络新闻和评论数据激增,给人们带来了大量有价值的信息。新闻让人们了解发生在国内外的时事,而评论则体现了人们对事件的观点和看法,这对舆情分析和新闻评论推荐等应用很重要。然而,新闻评论数据又多又杂,而且通常比较简短,因此难以快速直观地从中发现评论者的关注点所在。为此,该文提出一种面向新闻评论的聚类方法 EWMD-AP,用以自动挖掘社会大众对事件的关注点。该方法利用强化了权重向量的Word Mover's Distance(WMD)计算评论之间的距离,进而用Affinity Propagation(AP)对评论进行聚类,从杂乱的新闻评论中得到关注点簇及其代表性评论。特别地,该文提出利用强化权重向量替代传统WMD中的词频权重向量。而强化权重由三部分组成,包括结合词性特征与文本表达特征的词重要度系数、新闻正文作为评论背景的去背景化系数和TFIDF系数。在24个新闻评论数据集上的对比实验表明,EWMD-AP相比Kmeans和Mean Shift等传统聚类算法以及Density Peaks等当前最新算法都具有更好的新闻评论聚类效果。 展开更多
关键词 新闻评论聚类 强化权重向量 去背景化 WORD Mover's DISTANCE 近邻传播
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部