-
题名基于增量型聚类的自动话题检测研究
被引量:23
- 1
-
-
作者
张小明
李舟军
巢文涵
-
机构
北京航空航天大学计算机科学与工程系
-
出处
《软件学报》
EI
CSCD
北大核心
2012年第6期1578-1587,共10页
-
基金
国家自然科学基金(61170189
61003111)
+1 种基金
国家教育部博士点基金(20101102120016)
国家重点实验室基金(SKLSDE-2011ZX-03)
-
文摘
随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection andtracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类到一起.虽然话题检测已经有了多年的研究,但面对日益变化的网络信息,它具有了更大的挑战性.提出了一种基于增量型聚类的和自动话题检测方法,该方法旨在提高话题检测的效率,并且能够自动检测出文本库中话题的数量.采用改进的权重算法计算特征的权重,通过自适应地提炼具有较强的主题辨别能力的文本特征来提高文档聚类的准确率,并且在聚类过程中利用BIC来判断话题类别的数目,同时利用话题的延续性特征来预聚类文档,并以此提高话题检测的速度.基于TDT-4语料库的实验结果表明,该方法能够大幅度提高话题检测的效率和准确率.
-
关键词
话题检测与跟踪
TDT
话题检测
增量型聚类
权重计算
-
Keywords
topic detection and tracking
TDT
topic detection
incremental clustering
reweighting
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名大数据中数据挖掘模型的模糊改进聚类算法
被引量:11
- 2
-
-
作者
李小红
常振云
-
机构
天津天狮学院信息科学与工程学院
-
出处
《现代电子技术》
北大核心
2020年第3期177-182,共6页
-
文摘
在大数据的数据挖掘模型中,普遍采用模糊聚类算法进行数据分析。常用的模糊C均值聚类算法即FCM聚类算法,具有较多明显缺点,如抗噪性偏低、收敛速度慢、聚类数目无法自动确定等。常用的增量式模糊聚类方法通常在原有的以一个中心点为集群代表的基础上,改为选取多中心点进行增量式聚类算法的分析。但是,通过这样的算法进行数据分析也存在一定的问题,主要表现在其中心点选择是固定的,灵活性很差。基于以上原因,文中将对原有基础算法做出改进,主要对大数据中数据挖掘模型的增量型模糊聚类算法做出分析,经实践验证,改进后算法切实可行,普适性较强。
-
关键词
增量型模糊聚类
大数据
数据挖掘模型
聚类算法
余弦相似度
隶属度矩阵
-
Keywords
incremental fuzzy clustering
big data
data mining model
clustering algorithm
cosine similarity
membership matrix
-
分类号
TN911.1-34
[电子电信—通信与信息系统]
-