期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
结合混合特征提取与深度学习的长文本语义相似度计算 被引量:1
1
作者 徐捷 邵玉斌 +2 位作者 杜庆治 龙华 马迪南 《计算机工程与科学》 CSCD 北大核心 2024年第8期1513-1520,共8页
文本语义相似度计算是自然语言处理中一项非常重要的任务,但是目前对于文本语义相似度的研究多集中在短文本领域,而不是长文本。相较于短文本,长文本语义信息丰富,但同时语义信息容易分散。针对长文本语义信息分散的问题,提出一种特征... 文本语义相似度计算是自然语言处理中一项非常重要的任务,但是目前对于文本语义相似度的研究多集中在短文本领域,而不是长文本。相较于短文本,长文本语义信息丰富,但同时语义信息容易分散。针对长文本语义信息分散的问题,提出一种特征提取模型,提取出长文本的主要语义信息;对提取的语义信息使用滑窗重叠的方法输入BERT预训练模型得到文本向量表示;然后,通过双向长短期记忆网络建模长文本的前后语义联系,将其映射到语义空间内;再通过线性层增加模型表示能力;最后,通过相似语义向量内积最大化和交叉熵损失函数进行微调。实验结果表明,该模型在CNSE和CNSS数据集上F1分数分别为0.84和0.91,性能优于基线模型。 展开更多
关键词 文本语义相似 特征提取 BERT预训练模型 语义空间
在线阅读 下载PDF
一种基于语义相似度的文本聚类算法 被引量:18
2
作者 孙爽 章勇 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2006年第6期712-716,共5页
文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出... 文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出了一种基于语义相似度的文本聚类算法——TCU SS(Text clustering usingsem an ticsim ilarity)算法。TCU SS算法将文档表示成概念列表,有效地解决了数据维数高和聚簇描述难的问题,并给出如何利用概念列表进行聚簇描述的方法。TCU SS算法利用两个概念列表中单词间的语义相似度作为文档间相近程度的度量,并以图为基础进行聚类分析,避免有些聚类算法对聚簇形状的限制。实验证明,TCU SS算法提高了聚类质量。 展开更多
关键词 文本聚类 语义相似 文本表示 语义相似文本聚类算法
在线阅读 下载PDF
基于多模型集成的语义文本相似性判断 被引量:4
3
作者 苏锦钿 洪晓斌 余珊珊 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第4期1-9,共9页
作为目前自然语言处理及人工智能领域的主流方法,各种预训练语言模型由于在语言建模、特征表示、模型结构、训练目标及训练语料等方面存在差异,导致它们在下游任务中的表现各有优劣。为了更好地融合不同预训练语言模型中的知识及在下游... 作为目前自然语言处理及人工智能领域的主流方法,各种预训练语言模型由于在语言建模、特征表示、模型结构、训练目标及训练语料等方面存在差异,导致它们在下游任务中的表现各有优劣。为了更好地融合不同预训练语言模型中的知识及在下游任务中的学习能力,结合语义文本相似性判断任务的特点,提出一种多模型集成方法MME-STS,给出相应的模型总体架构及相应的特征表示,并针对多模型的集成问题分别提出基于平均值、基于全连接层训练和基于Adaboost算法的3种不同集成策略,同时在两个常用的经典基准数据集上验证该方法的有效性。实验结果表明,MME-STS在国际语义评测SemEval 2014任务4的SICK和SemEval 2017 STS-B数据集上的Pearson共关系值和Spearman相关系数值均超过单个预训练语言模型方法。 展开更多
关键词 学习 语义文本相似度 自然语言处理 预训练语言模型 多模型集成
在线阅读 下载PDF
基于文本-视觉和信息熵最小化的对比学习模型
4
作者 蔡晓东 董丽芳 +1 位作者 黄业洋 周丽 《华南理工大学学报(自然科学版)》 北大核心 2025年第3期50-56,共7页
当前的无监督对比学习方法主要依赖纯文本信息来构建句子嵌入,在全面理解句子所表达的深层含义时存在局限性。同时,传统的对比学习方法过于注重最大化文本正实例之间的互信息,忽视了句子嵌入中潜在的噪声干扰。为了既能保留文本中的有... 当前的无监督对比学习方法主要依赖纯文本信息来构建句子嵌入,在全面理解句子所表达的深层含义时存在局限性。同时,传统的对比学习方法过于注重最大化文本正实例之间的互信息,忽视了句子嵌入中潜在的噪声干扰。为了既能保留文本中的有用信息,又能有效地剔除文本嵌入中的噪声干扰,该文提出了一种基于文本-视觉和信息熵最小化的对比学习模型。首先,将文本与对应的视觉信息在对比学习的框架下进行深度融合,共同映射到一个统一的地面空间,并确保它们的表示在该空间中保持一致,从而克服了仅依赖纯文本信息进行句子嵌入学习的限制,使得对比学习过程更加全面且精确;然后,遵循信息最小化原则,在最大化文本正实例间互信息的同时,基于信息熵最小化对文本正实例进行重构。在标准语义文本相似度(STS)任务上的实验结果表明,所提出的模型在Spearman相关系数评价指标上取得了显著提升,相较于现有先进方法具有显著的优势,同时也证明了该模型的有效性。 展开更多
关键词 无监督对比学习 互信息 文本-视觉 信息熵最小化 语义文本相似度
在线阅读 下载PDF
基于《知网》义原空间的文本相似度计算 被引量:9
5
作者 肖志军 冯广丽 《科学技术与工程》 北大核心 2013年第29期8651-8656,共6页
针对向量空间模型特征项正交的假设和缺乏语义的缺点,在广义向量空间模型的基础上,提出了一种基于《知网》义原的向量空间模型,利用义原的相似度实现文本相似度的计算。通过文本特征项的TF-IDF权重将文本表示为《知网》义原空间中的向量... 针对向量空间模型特征项正交的假设和缺乏语义的缺点,在广义向量空间模型的基础上,提出了一种基于《知网》义原的向量空间模型,利用义原的相似度实现文本相似度的计算。通过文本特征项的TF-IDF权重将文本表示为《知网》义原空间中的向量,并利用义原向量之间的夹角实现对文本相似度的计算。通过文本聚类实验对比了本文提出的方法与VSM和GVSM模型,实验结果表明本文提出的方法在语义相似度计算方面相比GVSM和VSM有所提高。 展开更多
关键词 向量空间模型 广义向量空间模型 正交特征项 《知网》 文本语义相似
在线阅读 下载PDF
基于局部和全局语义融合的跨语言句子语义相似度计算模型 被引量:14
6
作者 李霞 刘承标 +1 位作者 章友豪 蒋盛益 《中文信息学报》 CSCD 北大核心 2019年第6期18-26,共9页
跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获... 跨语言句子语义相似度计算旨在计算不同语言句子之间的语义相似程度。近年来,前人提出了基于神经网络的跨语言句子语义相似度模型,这些模型多数使用卷积神经网络来捕获文本的局部语义信息,缺少对句子中远距离单词之间语义相关信息的获取。该文提出一种融合门控卷积神经网络和自注意力机制的神经网络结构,用于获取跨语言文本句子中的局部和全局语义相关关系,从而得到文本的综合语义表示。在SemEval-2017多个数据集上的实验结果表明,该文提出的模型能够从多个方面捕捉句子间的语义相似性,结果优于基准方法中基于纯神经网络的模型方法。 展开更多
关键词 跨语言文本句子语义相似 自注意力机制 门控卷积神经网络
在线阅读 下载PDF
支持活动语义度量的用户行为相似度计算方法
7
作者 林泽东 曾庆田 +2 位作者 段华 鲁法明 邹杰 《计算机集成制造系统》 EI CSCD 北大核心 2018年第7期1806-1815,共10页
针对基于活动序列的用户行为相似性度量方法未见考虑活动的语义相似性度量,提出一种支持活动语义度量的用户行为相似性计算方法。首先结合活动间的邻接关系与标签文本语义计算活动间的相似度;其次,定义了活动编辑权值函数和活动序列距离... 针对基于活动序列的用户行为相似性度量方法未见考虑活动的语义相似性度量,提出一种支持活动语义度量的用户行为相似性计算方法。首先结合活动间的邻接关系与标签文本语义计算活动间的相似度;其次,定义了活动编辑权值函数和活动序列距离;最后,利用活动序列多重集建模用户行为并利用推土机距离计算用户行为相似度。与目前主流算法在度量性质可满足性、现实数据集实验评估等方面进行对比分析,验证了所提方法的可行性和有效性。 展开更多
关键词 用户行为相似 文本语义相似 相似 EMD距离
在线阅读 下载PDF
基于改进SimCSE的无监督句嵌入方法 被引量:3
8
作者 郭江华 苑迎春 +1 位作者 王克俭 何晨 《计算机工程与设计》 北大核心 2023年第8期2382-2388,共7页
针对无监督SimCSE相同语义正样本差异性不足、模型训练与预测阶段具有不一致性的问题,基于SimCSE提出一种改进的无监督句嵌入方法SimCSE-PSER。采用dropout和位置嵌入扰动联合进行数据增强,提升正样本质量;引入R-Drop正则化方法,降低无... 针对无监督SimCSE相同语义正样本差异性不足、模型训练与预测阶段具有不一致性的问题,基于SimCSE提出一种改进的无监督句嵌入方法SimCSE-PSER。采用dropout和位置嵌入扰动联合进行数据增强,提升正样本质量;引入R-Drop正则化方法,降低无监督SimCSE使用dropout作为数据增强方法带来的训练与预测阶段不一致性。实验基于BERT模型在跨领域的4个中文语义文本相似度任务数据集上进行,结果表明该方法优于其它主流无监督句嵌入方法。 展开更多
关键词 语义文本相似度 无监督 句嵌入 对比学习 数据增强 正则化 预训练语言模型
在线阅读 下载PDF
面向问答社区的答案摘要方法研究综述 被引量:6
9
作者 刘秉权 徐振 +3 位作者 刘峰 刘铭 孙承杰 王晓龙 《中文信息学报》 CSCD 北大核心 2016年第1期1-7 15,共8页
社区问答系统(Community-Based Question Answering Portal,CQA)的兴起,不仅为用户提供了信息获取与知识分享的平台,同时也积累了大量的问答资源。近年来对于问答社区中的问题匹配、专家发现、用户满意度分析、答案质量评价等方面的研... 社区问答系统(Community-Based Question Answering Portal,CQA)的兴起,不仅为用户提供了信息获取与知识分享的平台,同时也积累了大量的问答资源。近年来对于问答社区中的问题匹配、专家发现、用户满意度分析、答案质量评价等方面的研究也逐渐加深,特别是答案质量研究已经从通过答案质量评价改善用户体验,逐步过渡到使用答案摘要提升答案质量。该文阐述了答案摘要对于社区问答系统中问答对资源再利用的重要意义,概括了答案摘要的主要任务,分析了答案摘要和多文档自动文摘的异同点,对答案摘要国内外的研究现状进行了概述,并且总结了答案摘要中需要进一步解决的关键技术问题。 展开更多
关键词 答案摘要 问答社区 问句分类 文本语义相似
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部