题名 基于RBBLA混合模型的文本相似度计算方法
1
作者
任喜伟
杜丰怡
向启怀
李兆允
赵杉
机构
陕西科技大学电子信息与人工智能学院陕西省人工智能联合实验室
大唐移动通信设备有限公司西安分公司
出处
《陕西科技大学学报》
北大核心
2024年第4期184-190,198,共8页
基金
国家自然科学基金项目(61971272)
陕西科技大学博士科研启动基金项目(2020BJ-01)。
文摘
文本相似度计算是两个或多个文本之间相似程度的度量,它被广泛用于多个场景.针对现有研究存在的缺乏上下文交互特征捕获、语义结构信息表示不足等问题,提出一种基于RBBLA(RoBERTa-BiLSTM-Attention)混合模型的文本相似度计算方法,该模型基于RoBERTa模型预训练,获得词语的向量化表示,并提取句子中的语义特征;接着使用双向长短期记忆网络及注意力机制提取上下文依赖关系;最后将两句子的文本特征经聚合操作后由Softmax函数处理得到相似度评分结果.将RBBLA模型与RoBERTa等基准模型在LCQMC数据集上进行对比实验,结果表明,与最优模型相比,RBBLA模型在准确率、精确率等指标上分别提升了2.9、2.1个百分点.
关键词
文本相似度
RoBERTa
双向长短期记忆网络(BiLSTM)
注意力机制
Keywords
text similarity
RoBERTa
bidirectional long short -term memory network(BiLSTM)
attention mechanism
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于词项语义映射的短文本相似度算法
被引量:11
2
作者
黄贤英
张金鹏
刘英涛
赵明军
机构
重庆理工大学计算机科学与工程学院
出处
《计算机工程与设计》
北大核心
2015年第6期1514-1518,1534,共6页
基金
国家自然科学基金项目(61173184)
重庆市教委科技计划基金项目(KJ100821)
+1 种基金
重庆理工大学研究生创新基金项目(YCX2012317)
重庆市科委自然科学基金项目(csct2012jjA40030)
文摘
针对HowNet语义词典对词项收录数量的有限性在一定程度上制约文本相似度运算准确性的问题,提出一种词项语义维度映射的方法。从词项词性的角度出发,按词性对短文本中词项进行切分,按词性特征对短文本之间进行词项归并,构建词性向量,依据词频和HowNet语义词典,词项完成词性向量中权值映射,将短文本之间相似度运算转换为词性向量之间相似度运算。将该算法运用于信箱测试数据集,实验结果表明,该算法提高了文本相似度运算的准确率和相似度平均值。
关键词
How
Net语义词典
词性向量
语义维度映射
词项词频
短文本相似度算法
Keywords
HowNet semantic library
part of speech vector
semantic space mapping
term frequency
short text similarity al-gorithm
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种融合词项关联关系和统计信息的短文本建模方法
3
作者
马慧芳
曾宪桃
李晓红
贠宁
机构
西北师范大学计算机科学与工程学院
出处
《计算机应用与软件》
CSCD
2016年第10期28-31,56,共5页
基金
国家自然科学基金项目(61363058
61163039)
+1 种基金
甘肃省自然科学基金青年科技基金项目(145RJZA232)
中国科学院计算技术研究所智能信息处理重点实验室开放基金项目(IIP2014-4)
文摘
传统文本表示方法通常基于词袋模型,而词袋模型是基于文本中词项之间是相互独立的假设。最近也提出一些通过词共现来获取词项之间关系的统计分析方法,却忽略了词项之间的隐含语义。为了解决传统文本表示方法词袋模型对文本语义的忽略问题,提出一种融合词项关联关系和统计信息的短文本建模方法。通过词语之间的内联及外联关系耦合得到词语关联关系,充分挖掘了显示和隐含的语义信息;同时以关联关系作为初始词语相似度,迭代计算词语之间及文本之间的相似度,改善了短文本的表示。实验证明,该方法显著地提高了短文本聚类的性能。
关键词
内联关系
外联关系
词语相似度
文本相似度
短文本相似度
Keywords
intra-relation;inter-relation;term similarity;text similarity;short text similarity
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
题名 基于CNN图像识别与语义可靠性的路径搜索方法
被引量:10
4
作者
李宇霞
孙永奇
闫茹
朱卫国
机构
北京交通大学计算机与信息技术学院
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第1期255-263,274,共10页
基金
国家自然科学基金(61572005,61672086,61272004)。
文摘
光学字符识别技术可有效提高票据应用中票据信息录入的工作效率。针对票据的复杂背景与不规范手写字符降低票据识别准确率的问题,结合卷积神经网络图像识别与语义可靠性,提出一种可靠性优先的路径搜索方法,以降低模糊字符对搜索路径的干扰。利用基于公司名结构特点的前后缀推断策略,有效解决公司名前后缀识别错误问题。采用结巴中文分词与字符位置信息检查识别结果中的错误,并将长短期记忆语言模型与在传统字形相似度基础上引入的汉字部件相似度相结合进行纠错。实验结果表明,通过将纠错策略与该方法相结合可有效提高公司名识别准确率至93.08%。
关键词
文本识别
语言模型
卷积神经网络
长短期记忆网络
字形相似度
结巴中文分词
Keywords
text recognition
language model
Convolutional Neural Network(CNN)
Long short -term Memory(LSTM)network
character pattern similarity
Jieba Chinese word segmentation
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于神经网络的定值名称智能比对方法
被引量:1
5
作者
曹海欧
崔玉
易新
李萍
朱鹏宇
李金铄
戴志辉
机构
国网江苏省电力有限公司
国网淮安供电公司
华北电力大学电气与电子工程学院
出处
《现代电力》
北大核心
2023年第4期587-595,共9页
基金
国家自然科学基金项目(51877084)
国网江苏省电力有限公司科技项目(SGJSWA00KJJS2100674)。
文摘
保护定值的正确性对充分发挥继电保护系统的作用至关重要,但目前定值比对仍采用人工方式,工作量大、时间长且结果正确性无法保证。对此,梳理了定值名称的命名特点,提出了一种基于神经网络的继电保护定值名称智能比对方法。首先进行文本预处理,然后将预处理后的定值文本向量化,最后使用双向长短时记忆(bi-directional long short-term memory,Bi-LSTM)神经网络计算定值名称语义特征向量相似度。算例表明,基于神经网络的定值名称智能比对方法能有效完成定值单和运行定值名称的匹配,且神经网络比模糊匹配处理定值名称匹配问题准确率更高,速度更快。
关键词
定值名称
文本相似度
双向长短时记忆(Bi-LSTM)
分布式表示
词向量
Keywords
setting value name
text similarity
Bi-directional long short -term memory(Bi-LSTM)
distributed representation
word vector
分类号
TM77
[电气工程—电力系统及自动化]
题名 多特征融合的文本相似度方法
被引量:1
6
作者
邹丽强
何月顺
机构
东华理工大学
出处
《现代电子技术》
2023年第11期103-108,共6页
基金
国家自然科学基金资助项目(41872243)。
文摘
通过从多方面考虑在自然语言处理中文本相似度的问题,从而提升文本相似度计算的准确性。提出一种多特征融合的文本相似度方法,该方法使用Jaro Distance编辑距离算法结合相同词计算文本结构相似度,使用长短时记忆网络的双塔模型算法计算文本语义相似度,使用融合多向量模型的双向长短时记忆网络的注意力算法计算文本相似度。考虑上述三种特征,通过线性加权调整模型的权重以避免其中任意一种方法计算出的相似度过大或者过小对最终的文本相似度造成不好的影响。以文本相似度的实验值与真实值的均方误差作为衡量标准,均方误差越小方法效果越好。实验结果表明,MFTM算法比WBLSA、MVBLSA算法的MSE值在SICK数据集上平均降低了5.4%、1.276%,因此,提出的算法在文本相似度计算上的效果更好。
关键词
特征融合
文本相似度
改进编辑距离
长短时记忆网络
双塔模型
注意力机制
Keywords
multi⁃feature fusion
text similarity
improved edit distance
long short ⁃term memory
deep structured semantic model
attention mechanism
分类号
TN911.1-34
[电子电信—通信与信息系统]
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 融合共现距离和区分度的短文本相似度计算方法
被引量:9
7
作者
刘文
马慧芳
脱婷
陈海波
机构
西北师范大学计算机科学与工程学院
桂林电子科技大学广西可信软件重点实验室
出处
《计算机工程与科学》
CSCD
北大核心
2018年第7期1281-1286,共6页
基金
国家自然科学基金(61762078
61363058)
+1 种基金
广西可信软件重点实验室研究课题(KX201705)
西北师范大学学生创新能力计划(CX2018Y054)
文摘
针对短文本内容简短、特征稀疏等特点,提出一种融合共现距离和区分度的短文本相似度计算方法。一方面,该方法在整个短文本语料库中利用两个共现词之间距离计算它们的共现距离相关度。另一方面通过计算共现区分度来提高距离相关度的准确度,然后对每个文本中词项进行相关性加权,最后通过词项的权重和词项之间的共现距离相关度计算两个文本的相似度。实验结果表明,本文提出的方法能够提高短文本相似度计算的准确率。
关键词
短文本
共现距离相关度
共现区分度
词项加权
相似度计算
Keywords
short text
co occurrence distance correlation
co occurrence discrimination
term weighting
similarity calculation
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于多重相关信息交互的文本相似度计算方法
被引量:2
8
作者
袁野
廖薇
机构
上海工程技术大学电子电气工程学院
出处
《计算机工程与科学》
CSCD
北大核心
2022年第7期1313-1320,共8页
基金
国家自然科学基金(62001282)
“上海高校青年东方学者”岗位计划(QD2017043)。
文摘
文本相似度计算是自然语言处理的核心任务之一,传统的文本相似度计算方法只考虑文本的结构或者语义等单方面特征,缺少对文本多特征的深度分析,导致性能较低。提出一种基于多重相关信息交互的文本相似度计算方法,在文本嵌入矩阵中增加余弦相关性特征,使用自注意力机制考虑文本自身的相关性和词语依赖关系,进而使用交替协同注意力机制提取文本之间的语义交互信息,从不同角度获得更深层、更丰富的文本表征。实验结果表明,所提方法在2个数据集上的F1值分别为0.9161和0.7695,其性能优于基准方法的。
关键词
文本相似度
信息交互
双向长短时记忆
自注意力机制
协同注意力机制
Keywords
text similarity
information interaction
bi-directional long and short -term memory
self-attention mechanism
co-attention mechanism
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]