摘要
文本特征分割过程中,主要依靠规则分割进行处理,对于文本中语句的长距离依赖关系较难捕捉,导致F1值难以达到预期的标准,为此提出对基于高效谱聚类算法的文本特征分割方法的设计与研究。首先在数据集中表示文本语义,转换词向量为统一编码,筛选同类词特征向量,测算相似度。然后取最小特征向量作为新数据,采用聚类处理词向量,挖掘相邻文本关系与可分割度,进行文本分割。最后采用文字块二次处理,通过水平投影二次分割字块,输出分割结果。实验结果表明:所提方法对文本分割处理的F1值可以达到0.8,更加接近于1,具有更强的优越性。
Text feature segmentation mainly relies on regular methods,missing long-distance dependencies,hence F1 values fall short.Thus,a method based on efficient spectral clustering for text feature segmentation is proposed.First,text semantics are represented in the dataset,word vectors are unified,similar feature vectors are screened,and similarity is measured.The minimum feature vector is used as new data for clustering word vectors.This mines adjacent text relations and segmentation degrees for segmentation.Horizontal projection divides word blocks to output results.Experiments show our method's F1 value for text segmentation reaches 0.8,closer to 1 with strong advantages.
作者
原虹
张鸿雁
YUAN Hong;ZHANG Hongyan(Department of Information Technologyand Engineering,Jinzhong University,shanxi jinzhong,030619)
出处
《长江信息通信》
2025年第5期171-173,共3页
Changjiang Information & Communications
基金
晋中学院一流课程(KC202314)
晋中学院课程思政示范课(2024年人才培养质量提升项目)。
关键词
高效谱
聚类算法
文本特征
特征分割
特征匹配
efficient spectrum
clustering algorithm
text features
feature segmentation
feature matching
作者简介
原虹(1981-),女,山西临猗人,硕士,讲师,主要研究领域为数据挖掘、自然语言处理;张鸿雁(1979-),女,山西寿阳人,硕士,讲师,主要研究方向为数据挖掘、计算机应用。