-
题名基于最大频繁项集挖掘的微博炒作群体发现方法
被引量:1
- 1
-
-
作者
刘琰
张进
陈静
尹美娟
张伟丽
-
机构
数学工程与先进计算国家重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2017年第4期90-97,共8页
-
基金
国家自然科学基金(No.61309007)
国家高技术研究发展计划(863)(No.2012AA012902)
-
文摘
近年来微博炒作账户异军突起,采用违规手段开展网络公关活动,严重扰乱了正常的互联网秩序。传统的炒作账户发现主要采用特征分析方法,忽视了炒作账户的组织性和策划性,难以发现隐蔽性高的炒作账户。针对以上问题,充分考虑到炒作账户共同参与微博炒作的群体特性,将炒作群体发现问题转化为挖掘最大频繁项集问题,提出了一种基于最大频繁项集挖掘的炒作群体发现方法,能够找出多次共同参与炒作微博传播的账户群体。为了提高最大频繁项集挖掘的效率,结合研究背景以及事务数据库的特点,提出了一种基于迭代交集的最大频繁项集发现算法,采用基于二分查找的最大频繁候选项集筛选策略对事务数据库进行缩减,并利用多种方式减少事务间取交集的次数。最后通过实验对IIA算法的性能进行了评估,并在真实的新浪微博数据集上验证了炒作群体发现方法的有效性,实验结果表明利用该方法发现的炒作群体准确率高于90%,而且能发现传统特征分析方法难以识别的隐蔽炒作账户。
-
关键词
数据挖掘
微博
炒作群体
最大频繁项集
-
Keywords
data mining
microblog
hype groups
maximum frequent itemsets
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于支持向量机的炒作微博识别方法
被引量:3
- 2
-
-
作者
董雨辰
刘琰
罗军勇
张进
-
机构
数学工程与先进计算国家重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第3期7-14,共8页
-
基金
国家自然科学基金资助项目(61309007)
国家"863"计划基金资助项目(2012AA012902)
国家科技支撑计划基金资助项目(2012BAH47B01)
-
文摘
微博是舆论传播的中心和渠道,同时参与舆论的形成、发展与引导过程,其自媒体发布、意见领袖参与等因素在一定程度上造成了微博谣言、虚假炒作、社会动员等现象。针对炒作微博的传播特点,分析其群体的隐蔽策划现象,挖掘出普通微博和炒作微博在传播网络结构、转发增量统计等方面的差异。通过社交网站的应用程序接口对目标微博的所有评论、转发和点赞用户进行信息获取,构建该微博的传播网络,利用社团模块度、平均最短路径和网络直径这3个属性度量该网络的紧密程度,基于支持向量机对所抽取的微博进行分类,进而识别出炒作微博。实验结果表明,该方法对微博传播用户的属性信息依赖小以及传播网络结构特征敏感,并且具有较高的炒作微博识别准确率。
-
关键词
社交网络
炒作群体
炒作微博
社团模块度
网络直径
平均最短路径
支持向量机
-
Keywords
social network
hype group
hype microblog
community module degree
network diameter
average shortest path
Support Vector Machine(SVM)
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-