-
题名增量采样聚类驱动的新闻事件发现
被引量:1
- 1
-
-
作者
陈晓琪
谢振平
刘渊
-
机构
江南大学人工智能与计算机学院
江南大学江苏省媒体设计与软件技术重点实验室
-
出处
《智能系统学报》
CSCD
北大核心
2020年第6期1175-1184,共10页
-
基金
国家自然科学基金项目(61872166)
江苏省“六大人才高峰”项目(2019XYDXX-161).
-
文摘
为获得更好的事件发现和代表性新闻抽取性能,引入数据集代表点采样聚类的视角,研究实现了一种事件发现及表示的集成分析方法。对于给定的新闻流数据,首先引入信息支撑度定义新闻间关系权重和事件关系权重,并通过引入双层近邻传播算法的迭代构建整体时间流上的单向事件内容支撑度网络,实现代表性新闻的分层增量采样,进一步考虑以最大相似度划分策略实现代表性新闻上的整体新闻流数据聚类。实验结果表明,相比于现有相关方法,新方法在大规模新闻流数据上具有显著的计算效率,可提取出新闻流中极有代表性的新闻,以及获得更好的新闻文档聚类质量,其热点事件发现结果与权威机构评选的重大新闻有极高吻合度。
-
关键词
新闻流数据
事件发现
代表性新闻
增量采样
信息支撑度
近邻传播
事件网络
分层聚类
-
Keywords
news flow data
event detection
representative news
incremental sampling
information supporting degree
affinity propagation
event network
hierarchical clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-