摘要
随着互联网的发展,网络数据呈现出异质数据多、文本标签化、数据不均衡等特点,这使得传统的基于长文本在线式网络事件的方法逐渐失效。采用改进的Single Pass方法进行在线式异质媒体网络事件发现:首先,通过分析网络数据中的不均衡性,重新设计相似度计算公式;其次,设计滑动时间窗口来提高Single Pass的算法效率;最后在Flickr的SED2014数据集上开展实验。实验结果表明,提出的算法具有有效性和实用性。
With the development of Internet,the web data has present the characteristics of heterogeneous,text tagging and imbalanced data,which leads to the failure of the traditional online event detection method based on long text. The improved Single Pass Algorithm was adopted to detect online heterogeneous media web events. On one hand,the similarity calculation formula based on the imbalanced data was redesigned. On the other hand,the slice-windows to improve single pass algorithm runtime was designed. The result on SED2014 dataset shows the effectiveness and practicality of algorithm.
出处
《科学技术与工程》
北大核心
2016年第16期227-232,共6页
Science Technology and Engineering
基金
国家自然科学基金项目重点项目(613300194)
河南省科技计划项目(142300410044)
河南省教育厅科学技术研究重点项目(14A520057
15B520022)
河南省基础与前沿技术研究项目(142300410396)
南阳师范学院校级项目(QN2015025)资助
作者简介
赵学武(1983-),男,讲师,博士研究生。研究方向:机器学习、网络应用。