基于高效谱聚类算法的文本特征分割研究

Research on Text Feature Segmentation Based on the Efficient Spectral Clustering Algorithm

在线阅读下载PDF

导出

摘要文本特征分割过程中,主要依靠规则分割进行处理,对于文本中语句的长距离依赖关系较难捕捉,导致F1值难以达到预期的标准,为此提出对基于高效谱聚类算法的文本特征分割方法的设计与研究。首先在数据集中表示文本语义,转换词向量为统一编码,筛选同类词特征向量,测算相似度。然后取最小特征向量作为新数据,采用聚类处理词向量,挖掘相邻文本关系与可分割度,进行文本分割。最后采用文字块二次处理,通过水平投影二次分割字块,输出分割结果。实验结果表明:所提方法对文本分割处理的F1值可以达到0.8,更加接近于1,具有更强的优越性。 Text feature segmentation mainly relies on regular methods,missing long-distance dependencies,hence F1 values fall short.Thus,a method based on efficient spectral clustering for text feature segmentation is proposed.First,text semantics are represented in the dataset,word vectors are unified,similar feature vectors are screened,and similarity is measured.The minimum feature vector is used as new data for clustering word vectors.This mines adjacent text relations and segmentation degrees for segmentation.Horizontal projection divides word blocks to output results.Experiments show our method's F1 value for text segmentation reaches 0.8,closer to 1 with strong advantages.

作者原虹张鸿雁 YUAN Hong;ZHANG Hongyan(Department of Information Technologyand Engineering,Jinzhong University,shanxi jinzhong,030619)

机构地区晋中学院信息技术与工程系

出处《长江信息通信》 2025年第5期171-173,共3页 Changjiang Information & Communications

基金晋中学院一流课程(KC202314) 晋中学院课程思政示范课(2024年人才培养质量提升项目)。

关键词高效谱聚类算法文本特征特征分割特征匹配 efficient spectrum clustering algorithm text features feature segmentation feature matching

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

作者简介原虹(1981-),女,山西临猗人,硕士,讲师,主要研究领域为数据挖掘、自然语言处理;张鸿雁(1979-),女,山西寿阳人,硕士,讲师,主要研究方向为数据挖掘、计算机应用。

引文网络
相关文献

参考文献10

1徐莹.基于实例分割方法的场景文本检测算法研究[J].现代计算机,2022,28(6):73-77. 被引量：3
2刘杰,乔文昇,朱佩佩,雷印杰,王紫轩.基于图像-文本大模型CLIP微调的零样本参考图像分割[J].计算机应用研究,2025,42(4):1248-1254. 被引量：2
3赵怡博,蒋峰,李培峰.一种基于BERT的多级连贯性文本分割方法[J].计算机应用与软件,2024,41(10):262-268. 被引量：2
4梁成名,李云红,李丽敏,苏雪平,朱绵云,朱耀麟.结合语义分割图的注意力机制文本生成图像[J].空军工程大学学报,2024,25(4):118-127. 被引量：2
5王家凯,黄佩卓,李勇乐,盛爽,刘洋,郑玲,魏振华.电力非结构化大文本特征提取研究[J].浙江电力,2024,43(6):117-124. 被引量：3
6郑剑,沈士涛,于祥春,庞庆威,吴宗錝.名词引导局部特征提取的基于文本的实例分割方法[J].计算机应用研究,2023,40(4):1263-1267. 被引量：3
7康厚良,杨玉婷.东巴象形文字文档图像的文本行自动分割算法研究[J].图学学报,2022,43(5):865-874. 被引量：2
8贡去卓么,才让加,三知加.基于语义分割的藏文古籍文档文本区域检测[J].计算机仿真,2022,39(5):448-454. 被引量：5
9赵航,尹铁源.基于HBase的中文短文本快速检索方案研究[J].长江信息通信,2024,37(3):125-129. 被引量：1
10童朝娣.基于卷积神经网络的多维特征微博文本情感研究[J].长江信息通信,2023,36(10):108-110. 被引量：1

二级参考文献47

1沃焱,韩国强,张见威.基于自适应预处理的图像分割方法[J].电子与信息学报,2007,29(1):87-91. 被引量：7
2罗希平,田捷,诸葛婴,王靖,戴汝为.图像分割方法综述[J].模式识别与人工智能,1999,12(3):300-312. 被引量：237
3周双飞,刘纯平,柳恭,龚声蓉.最小加权分割路径的古籍手写汉字多步切分方法[J].小型微型计算机系统,2012,33(3):614-620. 被引量：9
4胡瑞波,张晓松,徐人平,胡媛,王坤茜,索昕煜.纳西族东巴象形文字字体构造研究[J].郑州轻工业学院学报（社会科学版）,2013,14(2):94-100. 被引量：3
5刘建伟,刘媛,罗雄麟.深度学习研究进展[J].计算机应用研究,2014,31(7):1921-1930. 被引量：301
6王法胜,鲁明羽,赵清杰,袁泽剑.粒子滤波算法[J].计算机学报,2014,37(8):1679-1694. 被引量：195
7朱宗晓,杨兵.特征离散点计算在手写文本行分割中的应用[J].计算机工程与应用,2015,51(8):148-152. 被引量：3
8孙晓,彭晓琪,胡敏,任福继.基于多维扩展特征与深度学习的微博短文本情感分析[J].电子与信息学报,2017,39(9):2048-2055. 被引量：23
9罗欣,张爽.深度学习在电力潜在投诉识别分类中的应用[J].浙江电力,2017,36(10):83-86. 被引量：7
10段立娟,张西群,马龙龙,吴健.Text extraction method for historical Tibetan document images based on block projections[J].Optoelectronics Letters,2017,13(6):457-461. 被引量：3

共引文献14

1陈联忠,计虹,胡可云,张晨,王飞,席韩旭,赵士洁.基于人工智能技术的临床数据资源中心建设实践[J].中国数字医学,2023,18(1):28-32. 被引量：9
2宋传鸣,王一琦,武惠娟,何熠辉,洪飏,王相海.深度卷积网络的自然场景文本检测研究综述[J].小型微型计算机系统,2023,44(9):1996-2008. 被引量：2
3才让当知,黄鹤鸣,范玉涛,樊永红.基于双注意力YOLOv5的场景藏文检测[J].计算机工程与设计,2023,44(11):3411-3419. 被引量：1
4白玛旺久,格桑多吉,扎西多吉,杨欣.基于多粒度表征藏文古籍文档版面分析方法研究[J].电脑知识与技术,2023,19(36):1-3.
5郝玉胜,李健伟,王维兰,王筱娟,林强.面向文本检测的藏文古籍文档图像超分辨率重建[J].中文信息学报,2024,38(10):54-63. 被引量：1
6李晖,秦广久,王明刚,王立辉,谭启忠.基于移动终端的高校设备报修重复信息抽取研究[J].电子设计工程,2025,33(7):81-84.
7张丽芳,李兴森.基元潜部特征元挖掘的智能方法研究[J].智能系统学报,2025,20(2):457-464.
8杨玉婷,康厚良.东巴古籍译注版面分析与识别端到端系统的设计与实现[J].机电工程技术,2025,54(6):96-102.
9贡保加,安见才让.基于实例分割的手写藏文文本行检测方法研究[J].信息技术与信息化,2025(5):23-26.
10李珍,毋涛.利用BERT嵌入的视觉文本融合生成对抗网络[J].计算机技术与发展,2025,35(6):131-136.

长江信息通信

2025年第5期

浏览历史

内容加载中请稍等...

基于高效谱聚类算法的文本特征分割研究

参考文献10

二级参考文献47

共引文献14

相关作者

相关机构

相关主题

浏览历史