期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于Laplacian图谱的短文本聚类算法 被引量:2
1
作者 孟海宁 冯锴 +3 位作者 朱磊 张贝贝 童新宇 黑新宏 《电子学报》 EI CAS CSCD 北大核心 2021年第9期1716-1723,共8页
提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用... 提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用Laplacian矩阵的图谱聚类特性,对词频权值矩阵进行数据降维处理;然后依据Laplacian矩阵的特征值表示文本相似度的特点,选择前K个特征值对应的特征向量作为初始聚类中心,以减少聚类过程的迭代次数.在SSC、20 News Group及Microblog PCU数据集上进行相关实验,结果表明Laplacian图谱聚类算法比传统聚类算法,不仅具有更优的聚类结果与更快的收敛速度,而且受噪声点影响较小,有很好的鲁棒性. 展开更多
关键词 Laplacian图谱 词频-逆文本频率指数 短文本聚类 向量空间模型 数据降维 特征权值
在线阅读 下载PDF
短文本聚类方法研究综述 被引量:3
2
作者 和志强 王梦雪 +1 位作者 马宁 陈萌 《河北省科学院学报》 CAS 2021年第5期34-40,共7页
短文本聚类研究广泛应用在不同领域,而短文本呈现的稀疏性、歧义与噪声多的特点,要求聚类处理过程中短文本的向量表示能够充分编码其有效特征,本文从短文本聚类的两个关键步骤,即文本的向量化表示与聚类效果评价进行研究。据此对短文本... 短文本聚类研究广泛应用在不同领域,而短文本呈现的稀疏性、歧义与噪声多的特点,要求聚类处理过程中短文本的向量表示能够充分编码其有效特征,本文从短文本聚类的两个关键步骤,即文本的向量化表示与聚类效果评价进行研究。据此对短文本聚类方法的演化过程与优化方法进行了总结,并针对现有研究对未来的发展方向进行展望。 展开更多
关键词 短文本聚类 文本表示 评价
在线阅读 下载PDF
一种结合主题模型与段落向量的短文本聚类方法 被引量:5
3
作者 饶毓和 凌志浩 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第3期419-427,共9页
为了克服短文本的稀疏性和高维度性,同时提升文本聚类质量,提出了一种结合词对主题模型(Biterm Topic Model, BTM)与段落向量(Paragraph Vector, PV)的短文本聚类方法。该方法主要包括两个重要步骤:一是利用由词对主题模型所求出的词-文... 为了克服短文本的稀疏性和高维度性,同时提升文本聚类质量,提出了一种结合词对主题模型(Biterm Topic Model, BTM)与段落向量(Paragraph Vector, PV)的短文本聚类方法。该方法主要包括两个重要步骤:一是利用由词对主题模型所求出的词-文档-主题概率分布,并结合局部离群因子与JS散度对整个文本集合中的词语进行语义拆分;二是将经过词语语义拆分后的文本输入至向量化模型PV-DBOW(Distributed Bag of Words Version of Paragraph Vector)得到段落向量,并将其与对应的文档-主题概率分布拼接起来构成文本特征向量。实验结果表明,本文方法得到的特征向量对短文本具有较强的区分能力,能有效改善短文本的聚类效果,同时也能避免受到短文本的稀疏性影响。 展开更多
关键词 词对主题模型 段落向量 局部离群因子 JS散度 短文本聚类
在线阅读 下载PDF
基于增量式鲁棒非负矩阵分解的短文本在线聚类 被引量:6
4
作者 贺超波 汤庸 +2 位作者 张琼 刘双印 刘海 《电子学报》 EI CAS CSCD 北大核心 2019年第5期1086-1093,共8页
对社会化媒体产生的大量短文本进行聚类分析具有重要的应用价值,但短文本往往具有噪音数据多、增长迅速且数据量大的特点,导致现有相关算法难于有效处理.提出一种基于增量式鲁棒非负矩阵分解的短文本在线聚类算法STOCIRNMF.STOCIRNMF基... 对社会化媒体产生的大量短文本进行聚类分析具有重要的应用价值,但短文本往往具有噪音数据多、增长迅速且数据量大的特点,导致现有相关算法难于有效处理.提出一种基于增量式鲁棒非负矩阵分解的短文本在线聚类算法STOCIRNMF.STOCIRNMF基于非负矩阵分解构建短文本聚类模型,通过l_(2,1)范数设计模型的优化求解目标函数提高鲁棒性,同时应用增量式迭代更新规则实现短文本的在线聚类.在搜狐新闻标题和微博短文本数据集上进行相关实验,结果表明STOCIRNMF不仅比现有代表性算法具有更好的聚类性能,而且能够有效对微博话题进行在线检测. 展开更多
关键词 短文本聚类 鲁棒非负矩阵分解 在线 l2 1范数 增量式迭代更新规则
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部