题名 基于子话题分治匹配的新事件检测
被引量:26
1
作者
洪宇
张宇
范基礼
刘挺
李生
机构
哈尔滨工业大学计算机科学与技术学院信息检索研究室
出处
《计算机学报》
EI
CSCD
北大核心
2008年第4期687-695,共9页
基金
国家自然科学基金(60435020
60503072)
国家"八六三"高技术研究发展计划探索类专题项目(2006AA01Z145)资助
文摘
新事件检测是话题检测与跟踪领域的一项重要研究,其任务是实时监控新闻报道流并从中识别新话题.现有方法将话题和报道描述为单一结构的特征向量进行匹配,造成子话题间互为噪声并形成错误语义,从而误导新话题的识别.针对这一缺陷,文中提出基于子话题分治匹配的新事件检测方法,将话题和报道划分为不同子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型.实验在TDT4和TDT5中获得显著改进,最小检测错误代价为0.4061,相应漏检率为0.1859.
关键词
新事件检测
话题检测 与跟踪
子话题
Keywords
new event detection
topic detection and tracking
subtopic
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于词元再评估的新事件检测模型
被引量:17
2
作者
张阔
李涓子
吴刚
王克宏
机构
清华大学计算机科学与技术系
出处
《软件学报》
EI
CSCD
北大核心
2008年第4期817-828,共12页
基金
国家自然科学基金No.90604025~~
文摘
新事件检测(new event detection,简称NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻.初步实验发现,在对不同类别的新闻报道进行新事件检测时,其不同类型的词元往往具有不同的敏感程度.而传统方法往往将所有的词元等同看待.重点研究在新事件检测模型中,对于不同词元的权重设定问题.提出利用统计方法优化不同类别新闻对于不同词性词元的权重参数;提出利用已有新闻簇信息动态更新词元权重的方法,采用在新闻之间(而非新闻与新闻簇之间)计算相似度的形式,发挥两种比较形式的优点.在Linguistic Data Consortium(LDC)公共数据集TDT2与TDT3上进行实验,实验结果表明,这两种改进方法的效果明显,性能与同类系统相比有显著提升.
关键词
新事件检测
信息检索
命名实体
词元再评估
Keywords
new event detection
information retrieval
name entity
term reweighting
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 基于新闻要素的新事件检测方法研究
被引量:8
3
作者
薛晓飞
张永奎
任晓东
机构
山西大学计算机与信息技术学院
山西大学计算智能与中文信息处理教育部重点实验室
出处
《计算机应用》
CSCD
北大核心
2008年第11期2975-2977,共3页
基金
国家自然科学基金资助项目(60475022)
山西省自然科学基金资助项目(20041041)
山西省回国留学人员基金资助项目(2002004)
文摘
新事件检测(NED)的目标是检测出报道一个新闻话题种子事件的第一个新闻。考虑到新闻的基本要素在新闻中的作用,采用特征加权的方式对传统的词频和倒排文档频率(TF-IDF)模型进行改进,并在新闻报道中提取出时间信息和地点信息,分别对内容相似度、时间相似度和地点相似度进行计算,并将三者结合来检测新事件。实验证明这种方法有效。
关键词
新事件检测
事件 模型
相似度计算
Keywords
New Event Detection (NED)
event model
similarity
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 在线新事件检测系统中的性能提升策略
被引量:3
4
作者
王颖颖
张赟
胡乃静
机构
上海金融学院信息管理系
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第15期72-74,共3页
基金
上海市青年科技启明星计划基金资助项目(051430)
文摘
现有的关于在线新事件检测(ONED)系统的研究更多地关注如何提高检测的准确率而很少考虑对资源的利用率,使ONED系统在实际应用中存在性能低下的问题。该文分析了传统的事件检测系统存在的性能上的缺点,并在此基础上进行了改进,在基本不降低识别正确率的基础上,通过合理设定技术参数以及对链表索引机制进行预筛选,降低了文档比较过程中的存储和计算开销。实验结果表明,改进的系统提升了检测性能。
关键词
在线新事件检测
话题识别与跟踪
信息检索
预筛选
Keywords
Online New Event Detection(ONED)
Topic Detection and Tracking(TDT)
Information retrieval
pre-filtering
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于词对向量空间模型的新事件检测方法
被引量:4
5
作者
樊旭琴
张永奎
机构
山西大学计算机与信息技术学院
山西大学计算智能与中文信息处理省部共建教育部重点实验室
出处
《计算机工程与应用》
CSCD
北大核心
2010年第12期123-125,共3页
基金
国家自然科学基金No.60475022
山西省自然科学基金No.20041041
山西省回国留学人员基金(No.2002004)~~
文摘
新事件检测(NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻。传统向量空间模型采用单个词来表示文本特征,考虑到词的位置信息以及其他的表示内容的信息,提出了词对表示文本的方法,并结合HowNet资源对所抽取的词对进行归一化处理,最后对不同类别新闻中不同词性对的权重参数进行优化。通过在已有的突发性新闻语料上进行实验,表明这种改进方法的效果比较明显,性能也有一定的提高。
关键词
向量空间模型
词对特征
新事件检测
Keywords
vector space model
word pair feature
new event detection
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于新闻要素的在线新事件检测
被引量:2
6
作者
李营那
阮彤
顾春华
机构
华东理工大学计算机科学与工程系
出处
《计算机应用与软件》
CSCD
北大核心
2013年第12期100-104,176,共6页
基金
国家科技支撑项目(2009BAH46B03)
文摘
在线新事件检测的主要任务是从以时间顺序到来的新闻报道中识别出未知事件。提出一种基于新闻要素的自动在线新事件检测方法。首先,构建基于新闻要素的报道和事件表示模型,该模型包括新闻报道地点、人物和内容等要素,使用多维要素的优越性在于可以区别相似事件;为计算各要素对应特征的相似度提供对应的相似度算法:使用基于地理本体树的地名相似度算法计算地点相似度,使用基于维基百科的语义相似度计算方法计算报道内容之间的相似度;为了衡量各要素的重要性,使用SVM模型训练得出各要素的权值;最后,以single-pass聚类算法为基础,在算法过程中不断修改事件的表示向量以防止事件中心的漂移,同时使用滑动的时间窗口以减少因处理大量不活跃事件引起的时间消耗。实验结果表明该方法可以有效地降低系统的漏检率和误检率,提高事件检测的性能。
关键词
新事件检测
Single-pass
地理本体
语义相似
Keywords
New event detection Single-pass Geographical ontology Semantic similarity
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 面向大规模数据的在线新事件检测
被引量:1
7
作者
蔡偃武
高大启
阮彤
蒋锐权
机构
华东理工大学计算机科学与工程系
上海证券交易所技术开发部
出处
《计算机工程》
CAS
CSCD
2014年第10期37-42,共6页
基金
国家科技支撑计划基金资助项目"证券业云平台研发与运营"(2012BAH13F02)
文摘
通过分析基于新闻要素的在线新事件检测算法的时间消耗,提出一种面向大规模数据环境的在线新事件检测算法。该算法利用基于倒排索引的高效相似报道搜索机制,有效减少单路径聚类算法中的相似度比较次数。通过对报道预处理、报道与事件比较以及索引搜索这3个过程的并行化,提高算法在多机环境下的运行效率和可伸缩性。实验结果表明,该算法在不影响漏检率和误检率的基础上,提高了新事件检测的速度,并且在千万到亿级别的报道规模下,其吞吐量达到150条/s^200条/s。
关键词
新事件检测
单路径聚类
大规模数据
并行计算
倒排索引
MapReduce架构
Keywords
New Event Detection (NED)
single-pass clustering
large-scale data
parallel computing
inverted index
MapReduce architecture
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于主题词向量聚类的话题内新事件检测
被引量:5
8
作者
郭磊
李弼程
赵军磊
机构
华侨大学计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2019年第6期64-71,79,共9页
基金
福建省社会科学规划项目(FJ2017B073)
华侨大学科研启动项目(600005-Z16Y0005)
文摘
目前关于话题内新事件检测的研究较少,传统的新事件检测方法多采用基于主题模型的方法,无法兼顾主题信息和语义信息,效果不够理想。针对该问题,该文提出一种基于主题词向量聚类的话题内新事件检测方法。该方法首先使用主题词嵌入(TWE)模型对经过预处理的语料进行训练,获取主题词向量;其次,通过对主题词向量进行K-means聚类来获取话题分布;再次,按照话题内新事件检测流程,将新事件检测问题转化为新子话题发现问题;最后,利用获取到的话题分布,对按时间顺序的文档进行检测。实验结果表明,该方法能够兼顾主题信息和语义信息,有效提高话题内新事件检测的性能。
关键词
话题内新事件检测
主题词向量
K-MEANS聚类
Keywords
new event detection within topics
topical word embeddings
K-means clustering
分类号
TP391
[自动化与计算机技术—计算机应用技术]