期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
一种基于语义相似度的文本聚类算法 被引量:18
1
作者 孙爽 章勇 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2006年第6期712-716,共5页
文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出... 文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出了一种基于语义相似度的文本聚类算法——TCU SS(Text clustering usingsem an ticsim ilarity)算法。TCU SS算法将文档表示成概念列表,有效地解决了数据维数高和聚簇描述难的问题,并给出如何利用概念列表进行聚簇描述的方法。TCU SS算法利用两个概念列表中单词间的语义相似度作为文档间相近程度的度量,并以图为基础进行聚类分析,避免有些聚类算法对聚簇形状的限制。实验证明,TCU SS算法提高了聚类质量。 展开更多
关键词 文本聚类 语义相似 文本表示 语义相似文本聚类算法
在线阅读 下载PDF
基于多模型集成的语义文本相似性判断 被引量:4
2
作者 苏锦钿 洪晓斌 余珊珊 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第4期1-9,共9页
作为目前自然语言处理及人工智能领域的主流方法,各种预训练语言模型由于在语言建模、特征表示、模型结构、训练目标及训练语料等方面存在差异,导致它们在下游任务中的表现各有优劣。为了更好地融合不同预训练语言模型中的知识及在下游... 作为目前自然语言处理及人工智能领域的主流方法,各种预训练语言模型由于在语言建模、特征表示、模型结构、训练目标及训练语料等方面存在差异,导致它们在下游任务中的表现各有优劣。为了更好地融合不同预训练语言模型中的知识及在下游任务中的学习能力,结合语义文本相似性判断任务的特点,提出一种多模型集成方法MME-STS,给出相应的模型总体架构及相应的特征表示,并针对多模型的集成问题分别提出基于平均值、基于全连接层训练和基于Adaboost算法的3种不同集成策略,同时在两个常用的经典基准数据集上验证该方法的有效性。实验结果表明,MME-STS在国际语义评测SemEval 2014任务4的SICK和SemEval 2017 STS-B数据集上的Pearson共关系值和Spearman相关系数值均超过单个预训练语言模型方法。 展开更多
关键词 学习 语义文本相似度 自然语言处理 预训练语言模型 多模型集成
在线阅读 下载PDF
基于WV-CNN的中文文本语义相似度计算方法 被引量:7
3
作者 张春英 李春虎 付其峰 《华北理工大学学报(自然科学版)》 CAS 2019年第1期123-132,共10页
为解决传统中文文本语义相似度计算存在的语义及句法信息缺失、人工提取特征误差较大等问题,融合词向量与卷积神经网络方法,构建中文文本语义相似度计算模型,并给出WV-CNN(Word Vector-Convolutional Neural Network)文本语义相似度计... 为解决传统中文文本语义相似度计算存在的语义及句法信息缺失、人工提取特征误差较大等问题,融合词向量与卷积神经网络方法,构建中文文本语义相似度计算模型,并给出WV-CNN(Word Vector-Convolutional Neural Network)文本语义相似度计算方法。通过Embedding层将词语向量化后的结果作为CNN的输入,CNN中设置了卷积、Dropout、池化和Flatten4层网络,经过参数选择、训练、调优后输出结果。选取第6届全国数据挖掘竞赛提供的数据集以及在百度的WebQa数据集作为实验对象,使用Accuracy值、F1值、AUC值、KS值4种评测指标进行对比实验。结果表明,WV-CNN具有更好的计算精度和效果。 展开更多
关键词 中文文本语义相似 词向量 学习 WV-CNN
在线阅读 下载PDF
一种自发性口语评测文本语义相似度评分特征提取方法
4
作者 宋阳 王岚 《集成技术》 2013年第1期29-34,共6页
自发性口语评测中如何提取文本语义相似度评分特征是一个非常困难的问题。针对这个问题本文采用基于词网络(WordNet)的Lesk算法计算词与词之间的语义相似度,在词义相似度的基础上提出了词与文本之间的语义相似度算法,提出了一种完整的... 自发性口语评测中如何提取文本语义相似度评分特征是一个非常困难的问题。针对这个问题本文采用基于词网络(WordNet)的Lesk算法计算词与词之间的语义相似度,在词义相似度的基础上提出了词与文本之间的语义相似度算法,提出了一种完整的基于词网络的文本语义相似度评分特征提取方法。实验利用该方法在考生答案与标准答案之间中提取文本语义相似度评分特征,并利用该特征与老师评分进行相关度分析,实验结果表明该算法可以有效的表征考生答案和标准答案之间的文本语义相似度。 展开更多
关键词 自发性口语评测 文本语义相似 词网络 Lesk算法
在线阅读 下载PDF
基于文本-视觉和信息熵最小化的对比学习模型
5
作者 蔡晓东 董丽芳 +1 位作者 黄业洋 周丽 《华南理工大学学报(自然科学版)》 北大核心 2025年第3期50-56,共7页
当前的无监督对比学习方法主要依赖纯文本信息来构建句子嵌入,在全面理解句子所表达的深层含义时存在局限性。同时,传统的对比学习方法过于注重最大化文本正实例之间的互信息,忽视了句子嵌入中潜在的噪声干扰。为了既能保留文本中的有... 当前的无监督对比学习方法主要依赖纯文本信息来构建句子嵌入,在全面理解句子所表达的深层含义时存在局限性。同时,传统的对比学习方法过于注重最大化文本正实例之间的互信息,忽视了句子嵌入中潜在的噪声干扰。为了既能保留文本中的有用信息,又能有效地剔除文本嵌入中的噪声干扰,该文提出了一种基于文本-视觉和信息熵最小化的对比学习模型。首先,将文本与对应的视觉信息在对比学习的框架下进行深度融合,共同映射到一个统一的地面空间,并确保它们的表示在该空间中保持一致,从而克服了仅依赖纯文本信息进行句子嵌入学习的限制,使得对比学习过程更加全面且精确;然后,遵循信息最小化原则,在最大化文本正实例间互信息的同时,基于信息熵最小化对文本正实例进行重构。在标准语义文本相似度(STS)任务上的实验结果表明,所提出的模型在Spearman相关系数评价指标上取得了显著提升,相较于现有先进方法具有显著的优势,同时也证明了该模型的有效性。 展开更多
关键词 无监督对比学习 互信息 文本-视觉 信息熵最小化 语义文本相似度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部