-
题名基于关键语义驱动和对比学习的文本聚类方法
- 1
-
-
作者
张士举
郭朝阳
吴承亮
吴凌俊
杨丰玉
-
机构
南昌航空大学软件学院
江西省航空制造数字化仿真工程研究中心
-
出处
《计算机科学》
北大核心
2025年第8期171-179,共9页
-
基金
江西省重点研发计划(20202BBEL53002)。
-
文摘
文本聚类是指将大量文本数据按照它们的相似性进行分组的过程,其可以帮助理解文本数据的结构和内容,发现其中的模式和趋势,通常用于信息检索、文档管理等。现有文本聚类模型在信息抽取过程中存在过度依赖原始数据质量和容易造成关键信息提取不充分的问题,而且不同类别的数据在表示空间中会相互重叠。针对以上问题,提出了一种基于关键语义驱动和对比学习的文本聚类方法(KSD-CLTC)。该方法在数据处理环节通过数据增强模块丰富原始数据来提高泛化性,并设计了一个关键语义驱动模块提取文本中的关键词,补足关键语义信息的丢失;在特征提取环节借助预训练模型和自动编码器对数据进行高质量表征;然后,在聚类学习环节借助聚类模块将聚类损失与关键语义驱动模块的重构损失相结合,进一步学习更适用于聚类的特征表示,并利用对比学习模块来实现更好的类别划分效果。实验结果表明,KSD-CLTC在公共数据集和工业数据集上的聚类效果优于对比的聚类算法,相比先进的SCCL方法,其在所有数据集上的ACC平均提高了2.92%,NMI平均提高了1.99%。聚类结果也证明了关键语义驱动模块对文本聚类的重要性。
-
关键词
信息抽取
表示空间
文本聚类
关键语义驱动
对比学习
-
Keywords
Information extraction
Denote space
Text clustering
Key semantic-driven
Contrastive learning
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-