期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
一种图文协同层级融合的多模态命名实体识别方法
1
作者 冯广 刘天翔 +4 位作者 杨燕茹 郑润庭 钟婷 林健忠 黄荣灿 《计算机应用研究》 北大核心 2025年第8期2390-2397,共8页
多模态命名实体识别(MNER)旨在结合文本和图像等信息,提高命名实体识别的准确性。然而,现有方法因文本表达不规范以及图像特征提取聚焦于局部信息,导致图文语义特征利用不充分。针对该问题,提出了一种图文协同层级融合(VTCHF)的命名实... 多模态命名实体识别(MNER)旨在结合文本和图像等信息,提高命名实体识别的准确性。然而,现有方法因文本表达不规范以及图像特征提取聚焦于局部信息,导致图文语义特征利用不充分。针对该问题,提出了一种图文协同层级融合(VTCHF)的命名实体识别模型,不仅利用全局视觉特征来补充视觉语义,还通过协同自变分编码器充分利用图像与文本特征,协同生成包含视觉语境信息的特征,从而增补文本语义。随后,设计了层级融合模块,预融合图文特征及其语义特征,自适应增强图文语义粒度,缓解后续模态融合中的对齐偏差。在多个公开数据集上的实验结果表明,该模型显著提升了命名实体识别的准确率、召回率和F 1值,验证了其优越的性能。 展开更多
关键词 多模态命名实体识别 语义对齐偏差 语义增强 模态协同 注意力机制
在线阅读 下载PDF
多尺度视觉语义增强的多模态命名实体识别方法
2
作者 王海荣 徐玺 +1 位作者 王彤 陈芳萍 《自动化学报》 EI CAS CSCD 北大核心 2024年第6期1234-1245,共12页
为解决多模态命名实体识别(Multimodal named entity recognition,MNER)方法研究中存在的图像特征语义缺失和多模态表示语义约束较弱等问题,提出多尺度视觉语义增强的多模态命名实体识别方法(Multi-scale visual semantic enhancement f... 为解决多模态命名实体识别(Multimodal named entity recognition,MNER)方法研究中存在的图像特征语义缺失和多模态表示语义约束较弱等问题,提出多尺度视觉语义增强的多模态命名实体识别方法(Multi-scale visual semantic enhancement for multimodal named entity recognition method,MSVSE).该方法提取多种视觉特征用于补全图像语义,挖掘文本特征与多种视觉特征间的语义交互关系,生成多尺度视觉语义特征并进行融合,得到多尺度视觉语义增强的多模态文本表示;使用视觉实体分类器对多尺度视觉语义特征解码,实现视觉特征的语义一致性约束;调用多任务标签解码器挖掘多模态文本表示和文本特征的细粒度语义,通过联合解码解决语义偏差问题,从而进一步提高命名实体识别准确度.为验证该方法的有效性,在Twitter-2015和Twitter-2017数据集上进行实验,并与其他10种方法进行对比,该方法的平均F1值得到提升. 展开更多
关键词 多模态命名实体识别 多任务学习 多模态融合 TRANSFORMER
在线阅读 下载PDF
CLGLF:置信学习引导标签融合的多模态命名实体识别方法
3
作者 王海荣 王彤 +2 位作者 徐玺 荆博祥 陈芳萍 《电子学报》 EI CAS CSCD 北大核心 2024年第7期2429-2437,共9页
为解决多模态命名实体识别中存在的视觉语义理解和多模态语义的偏差问题,本文提出了置信学习引导标签融合的多模态命名实体识别方法 .该方法调用BLIP-2预训练模型生成图像描述,将其与输入的文本拼接,进行图文联合编码实现多模态特征融合... 为解决多模态命名实体识别中存在的视觉语义理解和多模态语义的偏差问题,本文提出了置信学习引导标签融合的多模态命名实体识别方法 .该方法调用BLIP-2预训练模型生成图像描述,将其与输入的文本拼接,进行图文联合编码实现多模态特征融合,对多模态表征和文本表征解码后得到候选标签和文本标签;在采用KL散度损失函数对齐两组标签的基础上,计算置信分数用来评估多模态表征质量,设置置信阈值辅助筛选出有偏差的候选标签,并使用相应位置的文本标签替换有偏差的候选标签,实现标签的融合,最终完成多模态命名实体识别.为了验证本文方法,在Twitter-2015和Twitter-2017多模态数据集上进行实验,并将实验结果与MSB、UMT等7种主流方法进行对比,实验结果证明了本文方法的有效性. 展开更多
关键词 多模态命名实体识别 图像描述 置信学习 多模态语义偏差 信息抽取
在线阅读 下载PDF
基于对比学习的视觉增强多模态命名实体识别 被引量:1
4
作者 于碧辉 谭淑月 +3 位作者 魏靖烜 孙林壮 卜立平 赵艺曼 《计算机科学》 CSCD 北大核心 2024年第6期198-205,共8页
多模态命名实体识别(MNER)的目的是在给定的图像-文本对中检测实体范围并将其分类为相应的实体类型。尽管现存的MNER方法取得了成功,但它们都集中在使用图像编码器提取视觉特征后,不做增强或过滤处理,直接送入跨模态交互机制。此外,由... 多模态命名实体识别(MNER)的目的是在给定的图像-文本对中检测实体范围并将其分类为相应的实体类型。尽管现存的MNER方法取得了成功,但它们都集中在使用图像编码器提取视觉特征后,不做增强或过滤处理,直接送入跨模态交互机制。此外,由于文本和图像的表示来自不同的编码器,很难弥合两种模态之间的语义鸿沟,因此,提出了一个基于对比学习的视觉增强多模态命名实体识别模型(MCLAug)。首先,使用ResNet收集图像特征,在此基础上提出金字塔双向融合策略,将低层次高分辨率和高层次强语义的图像信息结合起来,以增强视觉特征。其次,利用CLIP模型中的多模态对比学习思想,计算并最小化对比损失,使两种模态的表示更加一致。最后,利用跨模态注意力机制和门控融合机制获得融合后的图像和文本表示,并通过CRF解码器来执行MNER任务。在两个公开数据集上进行了对比实验并进行消融研究和案例研究,结果证明了所提模型的有效性。 展开更多
关键词 多模态命名实体识别 CLIP 多模态对比学习 特征金字塔 TRANSFORMER 门控融合机制
在线阅读 下载PDF
图文语义增强的多模态命名实体识别方法 被引量:1
5
作者 徐玺 王海荣 +1 位作者 王彤 马赫 《计算机应用研究》 CSCD 北大核心 2024年第6期1679-1685,共7页
为了解决多模态命名实体识别方法中存在的图文语义缺失、多模态表征语义不明确等问题,提出了一种图文语义增强的多模态命名实体识别方法。其中,利用多种预训练模型分别提取文本特征、字符特征、区域视觉特征、图像关键字和视觉标签,以... 为了解决多模态命名实体识别方法中存在的图文语义缺失、多模态表征语义不明确等问题,提出了一种图文语义增强的多模态命名实体识别方法。其中,利用多种预训练模型分别提取文本特征、字符特征、区域视觉特征、图像关键字和视觉标签,以全面描述图文数据的语义信息;采用Transformer和跨模态注意力机制,挖掘图文特征间的互补语义关系,以引导特征融合,从而生成语义补全的文本表征和语义增强的多模态表征;整合边界检测、实体类别检测和命名实体识别任务,构建了多任务标签解码器,该解码器能对输入特征进行细粒度语义解码,以提高预测特征的语义准确性;使用这个解码器对文本表征和多模态表征进行联合解码,以获得全局最优的预测标签。在Twitter-2015和Twitter-2017基准数据集的大量实验结果显示,该方法在平均F 1值上分别提升了1.00%和1.41%,表明该模型具有较强的命名实体识别能力。 展开更多
关键词 多模态命名实体识别 多模态表示 多模态融合 多任务学习 命名实体识别
在线阅读 下载PDF
多模态命名实体识别方法研究进展 被引量:1
6
作者 王海荣 徐玺 +1 位作者 王彤 荆博祥 《郑州大学学报(工学版)》 CAS 北大核心 2024年第2期60-71,共12页
为了解决多模态命名实体识别(MNER)研究中存在的文本特征语义不足、视觉特征语义缺失、图文特征融合困难等问题,多模态命名实体识别方法相继被提出。首先,总结了多模态命名实体识别方法的整体框架以及各部分常用的技术,随后对其进行梳... 为了解决多模态命名实体识别(MNER)研究中存在的文本特征语义不足、视觉特征语义缺失、图文特征融合困难等问题,多模态命名实体识别方法相继被提出。首先,总结了多模态命名实体识别方法的整体框架以及各部分常用的技术,随后对其进行梳理并分类为基于BiLSTM的MNER方法和基于Transformer的MNER方法,并根据模型结构将其划分为前融合模型、后融合模型、Transformer单任务模型、Transformer多任务模型等4类模型结构。其次,在Twitter-2015、Twitter-2017 2个数据集上,分别对这2类方法进行实验,结果表明:多特征协同表示能增强各模态特征的语义,多任务学习能够促进模态特征融合或者结果融合,从而提升MNER的准确性。建议在MNER的未来研究中,着重关注通过多特征协同表示来增强模态语义,通过多任务学习促进模态特征融合或结果融合等方向的研究。 展开更多
关键词 多模态命名实体识别 TRANSFORMER BiLSTM 多模态融合 多任务学习
在线阅读 下载PDF
基于去偏对比学习的多模态命名实体识别 被引量:1
7
作者 张鑫 袁景凌 +1 位作者 李琳 刘佳 《中文信息学报》 CSCD 北大核心 2023年第11期49-59,共11页
命名实体识别作为信息抽取的关键环节,在自然语言处理领域有着广泛应用。随着互联网上多模态信息的不断涌现,研究发现视觉信息有助于文本实现更加准确的命名实体识别。现有工作通常将图像视为视觉对象的集合,试图将图像中的视觉对象与... 命名实体识别作为信息抽取的关键环节,在自然语言处理领域有着广泛应用。随着互联网上多模态信息的不断涌现,研究发现视觉信息有助于文本实现更加准确的命名实体识别。现有工作通常将图像视为视觉对象的集合,试图将图像中的视觉对象与文本中的实体显式对齐。然而,当二者在数量或语义上不一致时,这些方法往往不能很好地应对模态偏差,从而难以实现图像和文本之间的准确语义对齐。针对此问题,该文提出了一种基于去偏对比学习的多模态命名实体识别方法(DebiasCL),利用视觉对象密度指导视觉语境丰富的图文作为扩充样本,通过去偏对比学习优化图文共享的潜在语义空间学习,实现图像与文本间的隐式对齐。在Twitter-2015和Twitter-2017上进行实验,DebiasCL的F1值分别达到75.04%和86.51%,在“PER.”和“MISC.”类别数据中F1分别提升了5.23%和5.2%。实验结果表明,该方法可以有效缓解模态偏差,从而提升多模态命名实体识别系统性能。 展开更多
关键词 多模态命名实体识别 对比学习 模态对齐
在线阅读 下载PDF
基于深度迁移学习的地方志多模态命名实体识别研究 被引量:17
8
作者 范涛 王昊 陈玥彤 《情报学报》 CSSCI CSCD 北大核心 2022年第4期412-423,共12页
地方志作为中华文化的组成部分,是建设文化强国的重要一环,对其进行挖掘研究具有重要意义;同时,有效识别实体对地方志知识组织和知识图谱构建有着重要影响。当前地方志命名实体识别研究主要基于文本,缺乏文本对应的图片,而图片中的内容... 地方志作为中华文化的组成部分,是建设文化强国的重要一环,对其进行挖掘研究具有重要意义;同时,有效识别实体对地方志知识组织和知识图谱构建有着重要影响。当前地方志命名实体识别研究主要基于文本,缺乏文本对应的图片,而图片中的内容能够为识别文本中的实体提供额外的信息,从而提升模型识别实体的性能,并且实体识别还面临着已标注语料匮乏的问题。基于此,本文提出了利用深度迁移学习方法,结合地方志中的文本和图片进行多模态命名实体识别。首先,基于人民日报语料库和中文推特多模态数据集,分别预训练结合了自注意力机制的BiLSTM-attention-CRF模型和自适应联合注意力模型,利用基于神经网络的深度迁移学习方法将权重迁移至地方志多模态命名识别模型中,使模型获得提取文本和图片语义特征的能力;然后,结合过滤门对多模态融合特征去噪;最后,将融合后的多模态特征输入CRF (conditional random fields)层进行解码。本文将提出的模型在地方志多模态数据中进行了实证研究,并同相关基线模型作对比,实验结果表明,本文所提出的模型具有一定优势。 展开更多
关键词 深度迁移学习 多模态命名实体识别 地方志
在线阅读 下载PDF
多模态命名实体识别方法研究进展
9
作者 王彤 王海荣 +2 位作者 王艺焱 陈芳萍 杨建玲 《燕山大学学报》 2025年第4期283-293,共11页
多模态命名实体识别是多模态信息抽取的核心任务,广泛应用于情感分析、多模态检索等领域。跟踪最新研究成果,给出了多模态命名实体识别方法的一般处理流程,将现有方法归纳为单任务方法和多任务方法两类。单任务方法主要通过注意力机制... 多模态命名实体识别是多模态信息抽取的核心任务,广泛应用于情感分析、多模态检索等领域。跟踪最新研究成果,给出了多模态命名实体识别方法的一般处理流程,将现有方法归纳为单任务方法和多任务方法两类。单任务方法主要通过注意力机制关注不同模态之间的交互,进而实现多模态特征的有效融合,多任务方法是在单任务基础上扩展了跨模态匹配、模态优化网络和文本模态辅助任务,从而更好地减少视觉偏差,进一步增强模型的通用性。在Twitter-2015和Twitter-2017数据集上对两类方法进行对比实验分析,结果表明,引入辅助任务的多任务方法识别效果更好。 展开更多
关键词 多模态命名实体识别 注意力机制 多模态融合 多任务学习
在线阅读 下载PDF
基于增强异构图融合的多模态医学实体识别研究 被引量:1
10
作者 韩普 李雄 《现代情报》 北大核心 2025年第6期34-45,共12页
[目的/意义]为充分挖掘医学图像与文本间语义关联信息,本文利用增强异构图融合方法提升图像特征表示并进行模态信息交互实现特征融合,进而提升多模态医学实体识别效果。[方法/过程]首先利用RoBERTa和ResNet分别提取医学文本与图像特征,... [目的/意义]为充分挖掘医学图像与文本间语义关联信息,本文利用增强异构图融合方法提升图像特征表示并进行模态信息交互实现特征融合,进而提升多模态医学实体识别效果。[方法/过程]首先利用RoBERTa和ResNet分别提取医学文本与图像特征,接着通过视觉增强模块捕获图像关键信息并过滤无关噪声,然后构建基于图像与文本节点和对应边的异构图以获取模态间细粒度语义关联,并通过自注意力机制、跨模态门控机制和位置前馈网络实现医学多模态特征融合,最后在中文多模态医学数据集上验证实体识别效果。[结果/结论]所构建的RMGFM模型在中文多模态医学数据集上F1值达到88.99%,相比UMT、AGBAN和UMGF等多模态基线模型的F1值分别提高了5.52%、5.28%和5.08%。实验表明Ro-UMGF*+Manifold(RMGFM)模型能有效挖掘医学图像和文本间语义关联信息,在中文多模态医学实体识别任务中表现优异。 展开更多
关键词 异构图融合 视觉增强 多模态命名实体识别 语义融合 医疗健康
在线阅读 下载PDF
多模态语义协同交互的图文联合命名实体识别方法 被引量:6
11
作者 钟维幸 王海荣 +1 位作者 王栋 车淼 《广西科学》 CAS 北大核心 2022年第4期681-690,共10页
针对现有多模态命名实体识别(Multimodal Named Entity Recognition, MNER)研究中存在的噪声影响和图文语义融合不足问题,本文提出一个多模态语义协同交互的图文联合命名实体识别(Image-Text Joint Named Entity Recognition, ITJNER)... 针对现有多模态命名实体识别(Multimodal Named Entity Recognition, MNER)研究中存在的噪声影响和图文语义融合不足问题,本文提出一个多模态语义协同交互的图文联合命名实体识别(Image-Text Joint Named Entity Recognition, ITJNER)模型。ITJNER模型加入图像描述作为额外特征丰富了多模态特征表示,图像描述可以帮助过滤掉从图像特征中引入的噪声并以文本形式总结图像语义信息;还构建了多模态协同交互的多模态语义融合模型,可以加强多模态信息融合,并减少图像信息的语义偏差。在Twitter-2015和Twitter-2017数据集上进行方法实验,分析实验结果并与AdaCAN、UMT、UMGF、Object-AGBAN等方法进行对比。相较于对比方法中的最优方法UMGF,本方法在Twitter-2017数据集上的准确率、召回率、F1值分别提高了0.67%、2.26%、0.93%;在Twitter-2015数据集上,召回率提高了0.19%。实验结果验证了本方法的有效性。 展开更多
关键词 多模态命名实体识别 图文数据 多模态注意力 图像描述 语义融合
在线阅读 下载PDF
多模态信息抽取研究综述 被引量:3
12
作者 王永胜 李培峰 +1 位作者 王中卿 朱巧明 《软件学报》 北大核心 2025年第4期1665-1691,共27页
多模态信息抽取任务是指从非结构化或半结构化的多模态数据(包含文本和图像等)中提取结构化知识.其研究内容主要包含多模态命名实体识别、多模态实体关系抽取和多模态事件抽取.首先对多模态信息抽取任务进行分析,然后对多模态命名实体... 多模态信息抽取任务是指从非结构化或半结构化的多模态数据(包含文本和图像等)中提取结构化知识.其研究内容主要包含多模态命名实体识别、多模态实体关系抽取和多模态事件抽取.首先对多模态信息抽取任务进行分析,然后对多模态命名实体识别、多模态实体关系抽取和多模态事件抽取这3个子任务的共同部分,即多模态表示和融合模块进行归纳和总结.随后梳理上述3个子任务的常用数据集和主流研究方法.最后总结多模态信息抽取的研究趋势并分析该研究存在的问题和挑战,为后续相关研究提供参考. 展开更多
关键词 多模态信息抽取 多模态命名实体识别 多模态实体关系抽取
在线阅读 下载PDF
基于多模态和知识蒸馏的教材知识图谱构建方法 被引量:4
13
作者 刘军 冷芳玲 +1 位作者 吴旺旺 鲍玉斌 《计算机科学与探索》 CSCD 北大核心 2024年第11期2901-2911,共11页
为了高效构建教育领域多模态学科知识图谱,提出了基于大模型知识蒸馏和多模型协作推理的教材文本实体关系抽取算法。在模型训练阶段,利用闭源的千亿参数模型对文本数据进行标注,实现隐式知识蒸馏。然后对开源十亿规模参数模型进行领域... 为了高效构建教育领域多模态学科知识图谱,提出了基于大模型知识蒸馏和多模型协作推理的教材文本实体关系抽取算法。在模型训练阶段,利用闭源的千亿参数模型对文本数据进行标注,实现隐式知识蒸馏。然后对开源十亿规模参数模型进行领域数据指令微调,提升开源模型实体关系抽取任务的指令遵循能力。在模型推理阶段,闭源模型作为指导模型,开源的十亿规模参数模型作为执行模型。实验结果表明知识蒸馏、多模型协作、领域数据指令微调具有有效性,显著提高了基于指令提示的教材文本实体关系抽取任务的效果。提出了显隐式知识增强的教材示意图多模态命名实体识别算法。利用图像OCR、视觉语言模型等技术提取了教材示意图中的文字信息、全局内容描述信息。通过显式知识库检索增强和隐式LLM提示增强的方法,得到图像-标题对中可能关联的辅助知识,并将显式知识库和隐式LLM得到的知识进一步融合,形成最终的辅助知识。将示意图辅助知识和示意图标题进行拼接,实现教材示意图标题的多模态命名实体识别。实验结果表明,该算法具有先进性,同时增强了算法的可解释性。 展开更多
关键词 大语言模型 学科知识图谱 实体关系抽取 多模态命名实体识别 知识蒸馏
在线阅读 下载PDF
基于视觉语言Transformer的社交媒体命名实体识别研究
14
作者 王震宇 朱学芳 +1 位作者 夏思洋 刘子溪 《现代情报》 2025年第9期46-57,共12页
[目的/意义]近年来,随着社交媒体平台的快速发展,多模态命名实体识别(Multimodal Named Entity Recognition,MNER)成为一个备受关注的研究课题。最新研究表明,基于视觉Transformer的视觉语言模型在性能上优于传统的基于目标检测器的方法... [目的/意义]近年来,随着社交媒体平台的快速发展,多模态命名实体识别(Multimodal Named Entity Recognition,MNER)成为一个备受关注的研究课题。最新研究表明,基于视觉Transformer的视觉语言模型在性能上优于传统的基于目标检测器的方法,但目前尚缺乏对基于视觉语言Transformer的MNER模型的系统性研究。[方法/过程]为了解决上述问题,本文提出一种新的端到端框架,旨在深入研究如何设计和训练完全基于Transformer的视觉语言MNER模型。该框架充分考虑了模型设计中的所有关键要素,包括多模态特征提取、多模态融合模块以及解码架构。[结果/结论]实验结果表明,本文模型的表现优于所有基线模型,包括基于大语言模型的方法,并在两个数据集上取得了最佳整体指标。具体而言,该模型在Twitter-2015和Twitter-2017数据集上分别获得了80.06%和94.27%的整体F1分数,相较于目前最先进的视觉语言模型,分别提高了1.34%和3.80%。此外,该模型在跨数据集评估中表现出优于基线模型的出色泛化能力。 展开更多
关键词 多模态命名实体识别 视觉Transformer 多模态融合 社交媒体 交叉注意力机制
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部