期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于增量型聚类的自动话题检测研究 被引量:23
1
作者 张小明 李舟军 巢文涵 《软件学报》 EI CSCD 北大核心 2012年第6期1578-1587,共10页
随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection andtracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类... 随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection andtracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类到一起.虽然话题检测已经有了多年的研究,但面对日益变化的网络信息,它具有了更大的挑战性.提出了一种基于增量型聚类的和自动话题检测方法,该方法旨在提高话题检测的效率,并且能够自动检测出文本库中话题的数量.采用改进的权重算法计算特征的权重,通过自适应地提炼具有较强的主题辨别能力的文本特征来提高文档聚类的准确率,并且在聚类过程中利用BIC来判断话题类别的数目,同时利用话题的延续性特征来预聚类文档,并以此提高话题检测的速度.基于TDT-4语料库的实验结果表明,该方法能够大幅度提高话题检测的效率和准确率. 展开更多
关键词 话题检测与跟踪 TDT 话题检测 增量型聚类 权重计算
在线阅读 下载PDF
大数据中数据挖掘模型的模糊改进聚类算法 被引量:11
2
作者 李小红 常振云 《现代电子技术》 北大核心 2020年第3期177-182,共6页
在大数据的数据挖掘模型中,普遍采用模糊聚类算法进行数据分析。常用的模糊C均值聚类算法即FCM聚类算法,具有较多明显缺点,如抗噪性偏低、收敛速度慢、聚类数目无法自动确定等。常用的增量式模糊聚类方法通常在原有的以一个中心点为集... 在大数据的数据挖掘模型中,普遍采用模糊聚类算法进行数据分析。常用的模糊C均值聚类算法即FCM聚类算法,具有较多明显缺点,如抗噪性偏低、收敛速度慢、聚类数目无法自动确定等。常用的增量式模糊聚类方法通常在原有的以一个中心点为集群代表的基础上,改为选取多中心点进行增量式聚类算法的分析。但是,通过这样的算法进行数据分析也存在一定的问题,主要表现在其中心点选择是固定的,灵活性很差。基于以上原因,文中将对原有基础算法做出改进,主要对大数据中数据挖掘模型的增量型模糊聚类算法做出分析,经实践验证,改进后算法切实可行,普适性较强。 展开更多
关键词 增量模糊 大数据 数据挖掘模 算法 余弦相似度 隶属度矩阵
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部