基于视觉与文本语义增强的多模态命名实体识别方法

A Multi-Modal Named Entity Recognition Method Based on Visual and Textual Semantic Enhancement

在线阅读下载PDF

导出

摘要为了解决视觉特征和文本特征融合后存在部分语义缺失从而导致视觉信息对文本信息的补充有较大偏差的问题,提出了一种基于视觉与文本语义增强的多模态命名实体识别方法。融合BERT文本特征提取和CLIP(contrastive language–image pre-training)视觉特征提取方法,设计了基于协同交叉注意力机制的特征交互单元,以增强视觉信息和文本信息之间的语义关系。CLIP通过对比学习框架进行预训练,优化模型以正确匹配视觉和对应的文本描述,最大化正样本(匹配的视觉-文本对)的相似性,同时最小化负样本(不匹配的视觉-文本对)的相似性。采用通用领域数据集TWITTER-2015和TWITTER-2017作为实验数据集。实验结果表明,本模型相比传统方法在多模态命名实体识别任务中的准确率、召回率、F1值均有显著提升。 In view of a solution of the partial semantic loss in the fusion of visual and textual features,which leads to a significant deviation in the supplementation of visual information to textual information,a multimodal named entity recognition method has thus been proposed based on visual and textual semantic enhancement.A feature interaction unit based on collaborative cross attention mechanism is designed for an enhancement of the semantic relationship between visual information and textual information by integrating BERT text feature extraction and CLIP(contrastive language image pre-training)visual feature extraction methods.CLIP pre-trains through a contrastive learning framework to optimize the model for a correct matching of visual and corresponding text descriptions,thus maximizing the similarity of positive samples(matched visual text pairs)while minimizing the similarity of negative samples(mismatched visual text pairs).The general domain datasets TWITTER-2015 and TWITTER-2017 are adopted as experimental datasets in this article.Experimental results show that compared with traditional methods,this model is characterized with a significantly improved accuracy,recall,and F1 score in multi-modal named entity recognition tasks.

作者满芳滕朱艳辉张志轩应旭剑陈豪 MAN Fangteng;ZHU Yanhui;ZHANG Zhixuan;YING Xujian;CHEN Hao(College of Computer Science,Hunan University of Technology,Zhuzhou Hunan 412007,China;College of Rail Transit,Hunan University of Technology,Zhuzhou Hunan 412007,China)

机构地区湖南工业大学计算机学院湖南工业大学轨道交通学院

出处《湖南工业大学学报》 2025年第1期64-71,共8页 Journal of Hunan University of Technology

基金国家自然科学基金资助项目(52272347) 湖南省教育厅科学研究基金资助重点项目(22A0408)。

关键词多模态命名实体识别特征融合语义增强 multi-modal named entity recognition feature fusion semantic enhancement

分类号 TP391 [自动化与计算机技术—计算机应用技术]

作者简介满芳滕,男,湖南工业大学硕士生,主要研究方向为自然语言处理与命名实体识别,E-mail:1243874203@qq.com;通信作者:朱艳辉,女,湖南工业大学教授,主要研究方向为自然语言处理与知识工程,E-mail:swayhzhu@163.com。

引文网络
相关文献

参考文献4

1陈烨,周刚,卢记仓.多模态知识图谱构建与应用研究综述[J].计算机应用研究,2021,38(12):3535-3543. 被引量：56
2孙影影,贾振堂,朱昊宇.多模态深度学习综述[J].计算机工程与应用,2020,56(21):1-10. 被引量：39
3韩普,陈文祺.多模态命名实体识别研究进展[J].数据分析与知识发现,2024,8(4):50-63. 被引量：4
4李耕,王梓烁,何相腾,彭宇新.从ChatGPT到多模态大模型:现状与未来[J].中国科学基金,2023,37(5):724-734. 被引量：41

二级参考文献27

1王景中,胡贝贝.归一化算法在文字识别系统中的应用研究[J].计算机应用与软件,2011,28(3):95-97. 被引量：8
2胡峰松,张璇.基于梅尔频率倒谱系数与翻转梅尔频率倒谱系数的说话人识别方法[J].计算机应用,2012,32(9):2542-2544. 被引量：23
3闫利,胡修兵,陈长军,马振玲.多模态图像配准的梯度一致性算子[J].武汉大学学报（信息科学版）,2013,38(8):969-972. 被引量：7
4刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：1072
5徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606. 被引量：557
6刘宇鹏,马春光,张亚楠.深度递归的层次化机器翻译模型[J].计算机学报,2017,40(4):861-871. 被引量：28
7梁斌,刘全,徐进,周倩,章鹏.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展,2017,54(8):1724-1735. 被引量：142
8邓佩,谭长庚.基于转移变量的图文融合微博情感分析[J].计算机应用研究,2018,35(7):2038-2041. 被引量：7
9李志义,黄子风,许晓绵.基于表示学习的跨模态检索模型与特征抽取研究综述[J].情报学报,2018,37(4):422-435. 被引量：21
10闫河,王鹏,董莺艳,罗成,李焕.改进的卷积神经网络图片分类识别方法[J].计算机应用与软件,2018,35(12):193-198. 被引量：16

共引文献134

1张雅妮,徐曼,王懿.我国生成式人工智能发展进展、问题及建议[J].新一代信息技术,2023,6(20):30-33.
2李华昱,付亚凤,闫阳,李家瑞.基于LEBERT的多模态领域知识图谱构建[J].计算机系统应用,2022,31(11):79-90. 被引量：4
3赵豆豆,王宇骏,刘蕤,刘昶.基于多模态知识图谱的药用植物智能问答系统构建[J].知识管理论坛,2024(5):487-504.
4赵智慧,周毅,李炜弘,汤朝晖,郭强,陈日高.基于深度学习多模态融合的2型糖尿病中医证素辨证模型的构建[J].世界科学技术-中医药现代化,2024,26(4):908-918. 被引量：2
5郝雪丽,李会宾,段玉林,尚国琲,余强毅.基于SAM的田块提取方法在田块平整成效评价中的应用研究[J].中国农业信息,2023,35(5):1-10.
6武夫波,刘飏.生成式人工智能技术应用下短视频创作的法律规制[J].西南法律评论,2023(1):199-211.
7吴锐,黄明,杨玉涛.知识图谱辅助历史建筑信息模型自动化建构[J].测绘科学,2024,49(1):163-180. 被引量：2
8田雄军,崔佳斌,袁礼,杨凯锋.大规模预训练模型在信息安全领域的应用研究[J].网络空间安全,2024,15(3):68-71.
9查思雨.基于交互层次理论的远程学习情感化设计研究[J].工业工程设计,2021,3(2):21-30. 被引量：7
10刘继明,张培翔,刘颖,张伟东,房杰.多模态的情感分析技术综述[J].计算机科学与探索,2021,15(7):1165-1182. 被引量：41

1刘俊珍.新课程背景下小学语文作文指导方法的创新实践探索[J].中华活页文选（教师）,2024(16):40-42.
2赵智男,张健毅,池亚平.基于深度森林的BGP异常检测方法[J].计算机应用与软件,2024,41(10):372-378.
3Madhur Arora,Sanjay Agrawal,Ravindra Patel.Location Prediction from Social Media Contents using Location Aware Attention LSTM Network[J].Journal of Harbin Institute of Technology(New Series),2024,31(5):68-77. 被引量：1
4马万民,王杉文,陈建林,牛浩青,欧鸥.基于HoFiBiAFM的点击率预测模型[J].计算机应用与软件,2024,41(10):170-176.
5韩志凌.基于解耦预测和计数定位的密集行人检测算法[J].航空计算技术,2024,54(5):33-37.
6涂文奇,李柏岩,刘晓强,郑佳明.NL2SQL融合知识图谱在设备运维数据检索中的应用[J].智能计算机与应用,2024,14(9):118-124. 被引量：1
7郭瑞强,杨世龙,贾晓文,魏谦强.基于标签增强的细粒度文本分类[J].计算机工程与应用,2024,60(21):134-141. 被引量：1
8朱丹浩,赵志枭,张一平,孙光耀,刘畅,胡蝶,王东波.面向古文自然语言处理生成任务的大语言模型评测研究[J].信息资源管理学报,2024,14(5):45-58. 被引量：2
9William Macdonald,Yuksel Asli Sari,Majid Pahlevani.Grow-light smart monitoring system leveraging lightweight deep learning for plant disease classification[J].Artificial Intelligence in Agriculture,2024(2):44-56.
10陈于飞,蔡文剑,蔡慧,黄瑶瑶.基于GA-XGBoost模型的水下螺旋盘管换热器换热量预测分析[J].低温工程,2024(5):98-103.

湖南工业大学学报

2025年第1期

浏览历史

内容加载中请稍等...

基于视觉与文本语义增强的多模态命名实体识别方法

参考文献4

二级参考文献27

共引文献134

相关作者

相关机构

相关主题

浏览历史