期刊文献+
共找到57篇文章
< 1 2 3 >
每页显示 20 50 100
基于通用大模型的民族语言大模型构建技术
1
作者 余杰 飞龙 +9 位作者 郭陆祥 尼玛扎西 汤勇韬 李莎莎 郑思 刘晓东 马俊 李琢 王倚晴 李剑峰 《中文信息学报》 北大核心 2025年第8期75-81,共7页
通用大模型是人工智能领域中的一项重要且基础性的研究工作。该文根据民族语言结构特征,在分析民族语言规则、难点以及创新方法的基础上,建立大模型语料库,提出一种基于通用大模型的民族语言大模型构建方法。首先,通过民族语言信息嵌入... 通用大模型是人工智能领域中的一项重要且基础性的研究工作。该文根据民族语言结构特征,在分析民族语言规则、难点以及创新方法的基础上,建立大模型语料库,提出一种基于通用大模型的民族语言大模型构建方法。首先,通过民族语言信息嵌入将输入序列映射到通用大模型的语义空间,解决了民族语言输入适配大模型的难题;其次,通用大模型将不同的民族语言的表示作为输入,并进行语义理解和推理;然后,利用4层Transformer和编码器实现语言的输出对齐;最后,对整体模型进行指令微调,提升民族语言大模型的句子级语义理解能力、Token级语义理解能力和翻译能力。该文以启元国家实验室的九格大模型和内蒙古大学的蒙古文语料为基础,基于上述方法实现了蒙古文大模型。实验表明,该模型的分类评估F 1值和生成能力评估BLEU值分别为82.9%和39.5%,并通过12组组合实验进一步验证了其通用性与有效性。 展开更多
关键词 民族语言大模型 语义对齐 指令微调
在线阅读 下载PDF
一种图文协同层级融合的多模态命名实体识别方法
2
作者 冯广 刘天翔 +4 位作者 杨燕茹 郑润庭 钟婷 林健忠 黄荣灿 《计算机应用研究》 北大核心 2025年第8期2390-2397,共8页
多模态命名实体识别(MNER)旨在结合文本和图像等信息,提高命名实体识别的准确性。然而,现有方法因文本表达不规范以及图像特征提取聚焦于局部信息,导致图文语义特征利用不充分。针对该问题,提出了一种图文协同层级融合(VTCHF)的命名实... 多模态命名实体识别(MNER)旨在结合文本和图像等信息,提高命名实体识别的准确性。然而,现有方法因文本表达不规范以及图像特征提取聚焦于局部信息,导致图文语义特征利用不充分。针对该问题,提出了一种图文协同层级融合(VTCHF)的命名实体识别模型,不仅利用全局视觉特征来补充视觉语义,还通过协同自变分编码器充分利用图像与文本特征,协同生成包含视觉语境信息的特征,从而增补文本语义。随后,设计了层级融合模块,预融合图文特征及其语义特征,自适应增强图文语义粒度,缓解后续模态融合中的对齐偏差。在多个公开数据集上的实验结果表明,该模型显著提升了命名实体识别的准确率、召回率和F 1值,验证了其优越的性能。 展开更多
关键词 多模态命名实体识别 语义对齐偏差 语义增强 模态协同 注意力机制
在线阅读 下载PDF
基于GAN的语义对齐网络半监督跨模态哈希方法
3
作者 刘华咏 朱婷 《计算机科学》 北大核心 2025年第6期159-166,共8页
监督方法在跨模态检索中已有不少成果,是比较热门的方法。然而,这类方法过于依赖标记的数据,没有充分利用无标签数据所包含的丰富信息。为了解决这一问题,人们开始研究无监督方法,但是仅依靠未标记数据的效果并不理想。对此,提出了基于... 监督方法在跨模态检索中已有不少成果,是比较热门的方法。然而,这类方法过于依赖标记的数据,没有充分利用无标签数据所包含的丰富信息。为了解决这一问题,人们开始研究无监督方法,但是仅依靠未标记数据的效果并不理想。对此,提出了基于GAN的语义对齐网络半监督跨模态哈希方法(GAN-SASCH)。该模型基于生成对抗网络,结合了语义对齐的概念。生成对抗网络分为两个模块,分别是生成器和判别器,生成器学习拟合未标记数据的相关性分布并生成虚假的数据样本,判别器则用于判断数据对样本是来自数据集还是生成器。通过这两个模块之间展开极大极小的对抗博弈游戏,不断提升生成对抗网络的性能。语义对齐能充分利用不同模态之间的相互作用和对称性,统一不同模态的相似性信息,有效地指导哈希代码的学习过程。除此之外,还引入了自适应学习优化参数以提升模型性能。在NUS-WIDE和MIRFLICKR25K数据集上,对比了所提方法与9种相关前沿方法,使用MAP与PR图两种评价指标验证了所提方法的有效性。 展开更多
关键词 跨模态哈希 生成对抗网络 语义对齐 半监督 自适应学习
在线阅读 下载PDF
反向聚焦细粒度多模态语义对齐的视频字幕模型
4
作者 蔡霞 罗会兰 万斯奇 《计算机应用研究》 北大核心 2025年第7期1986-1993,共8页
现有视频字幕方法常通过引入多模态信息,辅助模型从复杂多变的视觉内容中提取关键且细粒度的信息,却忽略了因不同模态间表征差异引发的语义鸿沟问题。为弥合模态间的表征差异,促进跨模态信息有效对齐和高效融合,并提升对细粒度语义信息... 现有视频字幕方法常通过引入多模态信息,辅助模型从复杂多变的视觉内容中提取关键且细粒度的信息,却忽略了因不同模态间表征差异引发的语义鸿沟问题。为弥合模态间的表征差异,促进跨模态信息有效对齐和高效融合,并提升对细粒度语义信息的提取能力,提出了一个反向聚焦细粒度多模态语义对齐视频字幕模型(RM4Cap)。该模型结合图像-文本对语料库,通过实现视频与图像的语义对齐,间接完成视频与图像-文本对中文本的跨模态对齐,并设计了反向注意力聚焦算法,削弱冗余场景信息的同时,突出不显著目标及其交互关系。实验结果表明,该模型在MSVD和MSRVTT数据集上,CIDEr和BLEU-4等指标均显著优于现有方法,有效解决了多模态信息融合中的对齐困难和冗余问题,进一步验证了其在缩小跨模态语义鸿沟方面的能力。 展开更多
关键词 视频字幕 多模态 反向注意力 语义对齐 语义鸿沟
在线阅读 下载PDF
基于多粒度共享语义中心关联的文本到人物检索方法
5
作者 康斌 陈斌 +3 位作者 王俊杰 李昱林 赵军智 咸伟志 《计算机应用》 北大核心 2025年第3期808-814,共7页
基于文本的人物检索旨在通过使用文本描述作为查询来识别特定人物。现有的先进方法通常设计多种对齐机制实现跨模态数据在全局和局部的对应关系,然而忽略了不同对齐机制之间的相互影响。因此,提出一种多粒度共享语义中心关联机制,深入... 基于文本的人物检索旨在通过使用文本描述作为查询来识别特定人物。现有的先进方法通常设计多种对齐机制实现跨模态数据在全局和局部的对应关系,然而忽略了不同对齐机制之间的相互影响。因此,提出一种多粒度共享语义中心关联机制,深入探索全局对齐和局部对齐之间的促进和抑制效应。首先,引入一个多粒度交叉对齐模块,并通过增强图像-句子和局部区域-分词之间的交互,实现跨模态数据在联合嵌入空间的多层次对齐;其次,建立一个共享语义中心,将它作为一个可学习的语义枢纽,并通过全局特征和局部特征的关联,增强不同对齐机制之间的语义一致性,促进全局和局部特征的协同作用。在共享语义中心内,计算图像特征和文本特征之间的局部和全局跨模态相似性关系,提供一种全局视角与局部视角的互补度量,并最大限度地促进多种对齐机制之间的正向效应;最后,在CUHK-PEDES数据集上进行实验。结果表明:所提方法在Rank-1指标上较基线方法显著提升了8.69个百分点,平均精度均值(mAP)提升了6.85个百分点。在ICFG-PEDES和RSTPReid数据集上所提方法也取得了优异的性能,明显超越了所有对比方法。 展开更多
关键词 视觉-语言模型 人物检索 全局对齐 局部对齐 共享语义中心
在线阅读 下载PDF
面向图像修复的桥式注意力取证网络
6
作者 张澜 朱新山 +1 位作者 王泽平 薛俊韬 《哈尔滨工业大学学报》 北大核心 2025年第4期62-70,共9页
为提升多媒体信息的可靠性,减轻图像伪造事件对于社会造成的负面影响,亟需发展图像修复取证技术,检测并定位图像的篡改区域。本研究提出了一种面向图像修复的桥式注意力取证网络,该网络直接接收篡改后的图像,端到端的输出图像中被篡改... 为提升多媒体信息的可靠性,减轻图像伪造事件对于社会造成的负面影响,亟需发展图像修复取证技术,检测并定位图像的篡改区域。本研究提出了一种面向图像修复的桥式注意力取证网络,该网络直接接收篡改后的图像,端到端的输出图像中被篡改的区域,网络采用编码器-解码器架构作为基础框架。首先,编码器选用Swin Transformer和RepVGG两个主干网络以提取多域修复特征。然后,使用桥式注意力模块连接两个主干网络的同级阶段,来增加编码器在局部和全局维度上的建模能力。最后,在编码器和解码器中间搭建了语义对齐融合模块,消除了两个主干网络提取的特征之间的语义不一致,有助于提高网络的取证性能。在不同修复取证数据集上的实验结果表明,所提出的模型与其他主流取证模型相比,能够更准确地对修复区域进行定位。特别是在有挑战性的DeepFillV2数据集和Diffusion数据集上,所提出的BAFNet分别取得了91.37%和82.34%的IoU分数,相比于主流的取证网络MVSS-Net, IoU指标分别提升了8.77%和10.46%。另外,综合多个实验结果,BAFNet在取证性能和模型复杂度之间取得了很好的平衡。 展开更多
关键词 图像修复取证 深度取证网络 操作痕迹 多域修复特征 桥式注意力 语义对齐融合
在线阅读 下载PDF
基于无人机冠层三维重建的田间白菜表型研究
7
作者 任添翼 彭勃 +1 位作者 袁帅 范晓飞 《农机化研究》 北大核心 2025年第10期226-232,242,共8页
植物表型研究在农业科学和植物育种领域具有重要意义,传统的人工测量效率低、精度低、重复性差且具有局限性。为了实现对白菜表型数据的高效、准确和大规模获取,提出了一种基于无人机(UAV)RGB图像的单株白菜株长、株宽和株高的高通量自... 植物表型研究在农业科学和植物育种领域具有重要意义,传统的人工测量效率低、精度低、重复性差且具有局限性。为了实现对白菜表型数据的高效、准确和大规模获取,提出了一种基于无人机(UAV)RGB图像的单株白菜株长、株宽和株高的高通量自动获取方法。利用无人机拍摄的田间白菜RGB图像,并通过运动恢复结构算法(SfM)对白菜生长场景进行三维点云的重构;通过训练点云语义分割网络,能够将白菜冠层区域从田间地块背景中分割出来;采用K-Means聚类算法提取出单株白菜点云模型,并利用轴对齐包围盒方法计算出白菜的株长、株宽和株高。将得到的白菜株长、株宽和株高与人工测量值进行比较,结果显示:所提出方法的决定系数R 2分别为0.94337、0.90554和0.92461,获得了令人满意的数据,为大白菜数字化育种的研究提供了科学、可靠的表型分析工具。这种自动化的高通量方法有利于农业科学和植物育种领域的研究和实践,为提高作物品质和增加产量提供支持。 展开更多
关键词 白菜表型 无人机RGB图像 三维点云 点云语义分割 K-MEANS聚类 轴对齐包围盒
在线阅读 下载PDF
组织战略匹配管理中的语义建模方法研究综述
8
作者 王涛 林木 +3 位作者 李小波 朱智 朱一凡 王维平 《系统工程与电子技术》 EI CSCD 北大核心 2024年第10期3383-3397,共15页
战略匹配是战略规划的一个子内容,侧重于检查战略规划与战略行动的一致性。通过战略匹配,组织的项目、计划或个人的计划与组织的长期业务目标保持一致。主要从语义建模角度阐述了这一领域的最新发展。为了引出这一关键技术领域对于组织... 战略匹配是战略规划的一个子内容,侧重于检查战略规划与战略行动的一致性。通过战略匹配,组织的项目、计划或个人的计划与组织的长期业务目标保持一致。主要从语义建模角度阐述了这一领域的最新发展。为了引出这一关键技术领域对于组织战略匹配的重要性,首先讨论战略匹配的基本概念及其发展,特别是通过核心要素分析军事组织战略匹配问题的特征,有助于理解大型组织战略匹配问题的复杂性。然后,分析现有语义建模的主要方法,受限于当时的技术发展水平,这些方法仍有许多缺陷和不足,当前的语义技术应用也有一大部分是为解决这些遗留问题而产生。最后,总结战略匹配管理中的语义技术应用,希望为该领域技术的后续发展提供参考。 展开更多
关键词 战略匹配 组织 企业架构 概念建模 语义建模 本体
在线阅读 下载PDF
基于图文细粒度对齐语义引导的多模态神经机器翻译方法 被引量:2
9
作者 叶俊杰 郭军军 +2 位作者 谭凯文 相艳 余正涛 《中文信息学报》 CSCD 北大核心 2024年第10期24-34,共11页
多模态神经机器翻译旨在利用视觉信息来提高文本翻译质量。传统多模态机器翻译将图像的全局语义信息融入翻译模型,而忽略了图像的细粒度信息对翻译质量的影响。对此,该文提出一种基于图文细粒度对齐语义引导的多模态神经机器翻译方法,... 多模态神经机器翻译旨在利用视觉信息来提高文本翻译质量。传统多模态机器翻译将图像的全局语义信息融入翻译模型,而忽略了图像的细粒度信息对翻译质量的影响。对此,该文提出一种基于图文细粒度对齐语义引导的多模态神经机器翻译方法,该方法首先采用跨模态交互图文信息,以提取图文细粒度对齐语义信息,然后以图文细粒度对齐语义信息为枢纽,采用门控机制将多模态细粒度信息对齐到文本信息上,实现图文多模态特征融合。在多模态机器翻译基准数据集Multi30K英语到德语、英语到法语以及英语到捷克语翻译任务上的实验结果表明,该文提出的方法是有效的,并且优于大多数先进的多模态机器翻译方法。 展开更多
关键词 多模态神经机器翻译 图文细粒度 语义交互 对齐语义
在线阅读 下载PDF
基于E-DCPose的视频人体姿态估计 被引量:5
10
作者 徐博 蒲东兵 +1 位作者 王一可 孙英娟 《东北师大学报(自然科学版)》 CAS 北大核心 2024年第4期53-61,共9页
针对视频人体姿态估计中遮挡、关节运动模糊等问题,提出了基于DCPose的人体姿态估计改进算法E-DCPose.E-DCPose在DCPose基础上引入了姿态语义传播、时序热图对齐方法,利用上下文时序信息缓解人体运动过程中关节遮挡和关节运动模糊导致... 针对视频人体姿态估计中遮挡、关节运动模糊等问题,提出了基于DCPose的人体姿态估计改进算法E-DCPose.E-DCPose在DCPose基础上引入了姿态语义传播、时序热图对齐方法,利用上下文时序信息缓解人体运动过程中关节遮挡和关节运动模糊导致的关节定位不准确问题.同时,通过增加视频帧数为模型提供充分的时序信息,提升人体关键点检测精度.在数据集PoseTrack2017与PoseTrack2018上对E-DCPose各改进模块的有效性进行了消融研究,并与现有模型进行了对比实验分析.实验结果表明,E-DCPose的检测精度优于所有对比模型,并显著优于基线模型DCPose. 展开更多
关键词 人体姿态估计 E-DCPose 姿态语义传播 时序热图对齐
在线阅读 下载PDF
基于分层特征对齐网络的小样本马铃薯病害叶片检测 被引量:2
11
作者 牛玉霞 孙宙红 +2 位作者 任伟 陈林琳 陈莉莉 《中国农机化学报》 北大核心 2024年第2期250-258,共9页
针对传统马铃薯病害叶片检测方法过度依赖大量训练数据以及对未知病害识别泛化性不强的问题,提出一种基于分层特征对齐网络的小样本马铃薯病害叶片检测模型。首先,收集并整理包含多种病害类型的弱标注马铃薯病害叶片数据集。其次,在支... 针对传统马铃薯病害叶片检测方法过度依赖大量训练数据以及对未知病害识别泛化性不强的问题,提出一种基于分层特征对齐网络的小样本马铃薯病害叶片检测模型。首先,收集并整理包含多种病害类型的弱标注马铃薯病害叶片数据集。其次,在支持分支中建立文本语义和视觉语义的多模态双层特征语义表示,并利用预训练网络生成多个候选框。再次,利用卷积神经网络将候选框区域映射到深度特征空间,并借助无参数的度量方法实现文本语义与视觉语义的特征对齐。最后,将查询分支中的未知类病害图片与多模态视觉和文本语义关联集进行度量计算,根据相似度值快速给出待测图片中未知新类的病害类别。通过在自建的马铃薯病害叶片数据集和开源数据集上进行测试,所提出模型分别可以实现93.55%和96.35%的识别精度,在跨域数据集上可以实现95.15%和94.06%的识别精度,优于当前经典的目标检测模型,具有一定的实际应用价值。 展开更多
关键词 马铃薯病害 叶片检测 分层特征对齐网络 文本语义 视觉语义
在线阅读 下载PDF
基于机器视觉的岩块自动化识别检测方法 被引量:1
12
作者 薛山 段岳飞 +1 位作者 胡天亮 马嵩华 《中国矿业》 北大核心 2024年第6期129-136,共8页
在隧道施工过程中,岩体参数的获取是实现隧道掘进机参数调整和智能决策的前提,因此,要对掘进过程中获得的岩块进行采样和检测,而岩块识别和检测目前主要由人工完成。本文针对岩块的自动化识别和检测问题,提出了一种基于机器视觉的岩块... 在隧道施工过程中,岩体参数的获取是实现隧道掘进机参数调整和智能决策的前提,因此,要对掘进过程中获得的岩块进行采样和检测,而岩块识别和检测目前主要由人工完成。本文针对岩块的自动化识别和检测问题,提出了一种基于机器视觉的岩块自动化识别检测方法,通过融合岩块区域检测和语义分割算法能够快速准确获取岩块的形心坐标和过形心最小直径。首先,使用YOLOv3网络对岩块进行识别,实现岩块的区域检测。其次,针对每个区域的岩块采用FCN-DenseNet网络进行语义分割和图像处理,并对全卷积神经网络进行改进,减少了语义分割模型的参数量,提高了语义分割效率,提升了岩块轮廓获取的精度和速度。最后,根据获得的岩块轮廓点,计算其形心坐标及过形心的最小直径,为机械臂抓取和岩块点荷载强度的计算提供支持。搭建实验平台,完成机械臂手眼标定和深度相机坐标下岩块图像与岩块点云对齐,获取岩块形心坐标在机械臂坐标下的位置。实验结果表明,本文所提算法能够快速准确地获取岩块的形位参数,对10次实验中的102块岩块识别检测成功率为91.18%,在所有完成识别检测岩块中的吸取成功率为92.47%,可以应用于岩体的自动化检测,提高岩体检测的效率和智能化水平。 展开更多
关键词 岩块识别 区域检测 语义分割 岩块定位 点云对齐
在线阅读 下载PDF
基于双向语义嵌入的细粒度图文匹配方法
13
作者 尹晶晶 潘丽丽 +2 位作者 王朝 熊思宇 瞿栋梁 《南京大学学报(自然科学版)》 CSCD 北大核心 2024年第5期804-814,共11页
图像-文本匹配旨在实现图像与文本的高质量语义对齐,是计算机视觉与自然语言处理交叉领域的一种重要任务.图像与文本是两种不同的信息载体,其信息内容和数据分布的差异容易造成跨模态细粒度信息关联的不确定和模糊.为了解决上述问题,根... 图像-文本匹配旨在实现图像与文本的高质量语义对齐,是计算机视觉与自然语言处理交叉领域的一种重要任务.图像与文本是两种不同的信息载体,其信息内容和数据分布的差异容易造成跨模态细粒度信息关联的不确定和模糊.为了解决上述问题,根据图像-文本对的语义一致性,提出了基于双向语义嵌入的细粒度图文匹配方法(Bidirectional Semantic Embedding for Fine-Grained Image-Text Matching,BSEM-Net),通过图像到文本和文本到图像双向语义嵌入的方式来提升图像和文本细粒度对齐的准确性.第一,为了减少图像信息冗余,构造了图像语义嵌入模块,利用文本单词作为监督信号,引导模型限制不相关图像区域的表达;第二,为了减少模态间信息分布差异,更好地建立细粒度语义对齐,构造了文本语义嵌入模块,利用图像区域选择单词形成集合体,进而转化为与图像区域信息分布相似的短语.此外,两个模块分别利用图像区域关系连通图和短语关系连通图挖掘模态内特征之间的上下文信息,减少语义发散.在公开的跨模态检索数据集Flickr30k和MSCOCO上与现有方法进行对比实验,结果表明所提方法在图像-文本匹配任务上具有显著的优越性. 展开更多
关键词 图文匹配 跨模态 语义嵌入 细粒度信息关联 语义对齐
在线阅读 下载PDF
基于节点语义相似度的本体映射方法 被引量:3
14
作者 何杰 王佳蓉 王恒恒 《吉林大学学报(理学版)》 CAS 北大核心 2024年第2期399-409,共11页
针对本体映射特别是大尺度的异构本体映射由于语义异质性导致的映射精度和效率较低的问题,提出一种基于节点语义相似度的本体映射方法.首先,研究基于网络的本体解析和表示、本体自动分块、相似子本体快速识别、基于节点语义的子本体映... 针对本体映射特别是大尺度的异构本体映射由于语义异质性导致的映射精度和效率较低的问题,提出一种基于节点语义相似度的本体映射方法.首先,研究基于网络的本体解析和表示、本体自动分块、相似子本体快速识别、基于节点语义的子本体映射等关键技术;其次,以本体对齐评估倡议评估数据集中会议本体集进行实验,结果表明,该方法在性能上优于传统映射方法,在精度上高于基于片段的映射方法. 展开更多
关键词 语义相似度 本体映射 本体分块 本体对齐估计倡议 精度 效率
在线阅读 下载PDF
基于多模态对齐融合的车厢部件语义分割算法
15
作者 赵梓云 高晓蓉 罗林 《现代电子技术》 北大核心 2024年第16期150-156,共7页
车厢部件的定期情况监测是列车安全运行的重要保证之一,基于深度学习的语义分割方法可以用于相关部件的位置形态确定,以便后续进行螺栓和管线是否松动或变形的检查,但这对分割精度有较高的要求。另外,仅基于普通图像的纹理特征难以应对... 车厢部件的定期情况监测是列车安全运行的重要保证之一,基于深度学习的语义分割方法可以用于相关部件的位置形态确定,以便后续进行螺栓和管线是否松动或变形的检查,但这对分割精度有较高的要求。另外,仅基于普通图像的纹理特征难以应对各种实际复杂场景,会出现分割不连续、边缘轮廓不清晰的问题。为此,提出一种基于多模态数据对齐融合的语义分割算法,额外引入车厢深度图来补充普通图像中缺失的几何特征信息,再将两种模态的特征对齐后作为互补的特征融合学习,最终达到准确分割部件的目的。通过车厢部件的RGBD语义分割数据集的建立,对所提算法在实际应用场景下的效果进行验证,得到97.2%的召回率以及87.4%的平均交并比。同时,所设计模型在NYUDV2数据集上达到了53.5%的平均交并比,与同类型算法相比处于先进水平。这些结果表明,所提算法在有挑战性的车厢部件分割任务中,可以达到良好的分割效果,也具有较好的泛化性,有助于提升车厢部件检测的自动化水平,减轻人工压力。 展开更多
关键词 RGBD语义分割 车厢部件 多模态特征融合 特征对齐 螺栓 管线 注意力机制
在线阅读 下载PDF
模态间关系促进的行人检索方法
16
作者 李博 张飞飞 徐常胜 《软件学报》 EI CSCD 北大核心 2024年第10期4766-4780,共15页
基于文本描述的行人检索是一个新兴的跨模态检索子任务,由传统行人重识别任务衍生而来,对公共安全以及人员追踪具有重要意义.相比于单模态图像检索的行人重识别任务,基于文本描述的行人检索解决了实际应用中缺少查询图像的问题,其主要... 基于文本描述的行人检索是一个新兴的跨模态检索子任务,由传统行人重识别任务衍生而来,对公共安全以及人员追踪具有重要意义.相比于单模态图像检索的行人重识别任务,基于文本描述的行人检索解决了实际应用中缺少查询图像的问题,其主要挑战在于该任务结合了视觉内容和文本描述两种不同模态的数据,要求模型同时具有图像理解能力和文本语义学习能力.为了缩小行人图像和文本描述的模态间语义鸿沟,传统的基于文本描述的行人检索方法多是对提取的图像和文本特征进行机械地分割,只关注于跨模态信息的语义对齐,忽略了图像和文本模态内部的潜在联系,导致模态间细粒度匹配的不准确.为了解决上述问题,提出模态间关系促进的行人检索方法,首先利用注意力机制分别构建模态内自注意力矩阵和跨模态注意力矩阵,并将注意力矩阵看作不同特征序列间的响应值分布.然后,分别使用两种不同的矩阵构建方法重构模态内自注意力矩阵和跨模态注意力矩阵.其中自注意力矩阵的重构利用模态内逐元素重构的方式可以很好地挖掘模态内部的潜在联系,而跨模态注意力矩阵的重构用模态间整体重构矩阵的方法,以跨模态信息为桥梁,可充分挖掘模态间的潜在信息,缩小语义鸿沟.最后,用基于任务的跨模态投影匹配损失和KL散度损失联合约束模型优化,达到模态间信息相互促进的效果.在基于文本描述的行人检索公开数据库CUHK-PEDES上进行了定量以及检索结果的可视化,均表明所提方法可取得目前最优的效果. 展开更多
关键词 行人检索 跨模态任务 文本语义学习 关系对齐 注意力机制
在线阅读 下载PDF
基于语义对齐和层次优化的非机动车车牌识别定位方法
17
作者 谭若琦 董明刚 +1 位作者 赵唯肖 武天昊 《计算机工程》 CAS CSCD 北大核心 2024年第11期142-151,共10页
对非机动车违规行为依法追究责任是提高城市交通安全的有效手段。由于非机动车车牌具有尺寸小、分布密集、易遮挡等特点,导致应用传统的深度学习方法会出现特征信息大量丢失的现象。为此,提出一种基于语义对齐和层次优化的非机动车车牌... 对非机动车违规行为依法追究责任是提高城市交通安全的有效手段。由于非机动车车牌具有尺寸小、分布密集、易遮挡等特点,导致应用传统的深度学习方法会出现特征信息大量丢失的现象。为此,提出一种基于语义对齐和层次优化的非机动车车牌识别定位方法。首先设计底层信息融合的语义对齐模块,在上采样过程中利用底层目标信息引导高层语义向下融合,以解决高底层语义冲突带来的小目标特征丢失问题;然后构建CSP结构的层次优化模块替代深层ELAN模块,使用堆叠少量卷积核模块提取目标信息以减少网络层数,避免特征信息在深层丢失;最后,为减少训练过程中的匹配误差,使用K-Means++算法聚类得到适合非机动车车牌的初始锚框,提高小目标识别定位准确率。实验结果表明,所提方法在自制非机动车车牌数据集上的识别定位准确率为90.95%,与YOLOv7、YOLOv8等代表性方法相比至少提升3.58%,为非机动车车牌识别定位提供了一种有效的方法。 展开更多
关键词 小目标检测 非机动车车牌 语义对齐 层次优化 K-Means++算法
在线阅读 下载PDF
跨模态语义对齐和信息细化的多模态情感分析
18
作者 丁美荣 陈鸿业 曾碧卿 《计算机工程与应用》 CSCD 北大核心 2024年第22期114-125,共12页
为了解决多模态情感分析中存在异构鸿沟和语义鸿沟,以及模态无法有效融合等问题,提出了一个新的框架,基于跨模态Transformer的语义对齐和信息细化的多模态情感分析模型CM-SAIR(cross-modal semantic alignment and information refineme... 为了解决多模态情感分析中存在异构鸿沟和语义鸿沟,以及模态无法有效融合等问题,提出了一个新的框架,基于跨模态Transformer的语义对齐和信息细化的多模态情感分析模型CM-SAIR(cross-modal semantic alignment and information refinement for multi-modal sentiment analysis),可以有效地解决多模态语义不对齐、语义噪声等问题,实现多模态数据更好地交互融合。使用多模态特征嵌入模块(multi-modal feature embedding,MFE)增强视觉和听觉模态的情感信息。通过一个定义良好的模态间语义对齐模块(inter-modal semantic alignment,ISA)进行双模态时间维度的对齐。通过一个模态内的信息细化模块(intra-modal information refinement,IIR)进行情感解析和情感细化。通过多模态门控融合模块(multi-modal gated fusion,MGF)实现模态的有效融合。在流行的多模态情感分析数据集上进行实验,证明了CM-SAIR框架与最先进的基线相比的优势。 展开更多
关键词 多模态特征嵌入 语义对齐 信息细化 多模态门控融合 多模态情感分析
在线阅读 下载PDF
基于双序列比对的中文术语语义相似度计算的新方法 被引量:6
19
作者 徐硕 朱礼军 +1 位作者 乔晓东 薛春香 《情报学报》 CSSCI 北大核心 2010年第4期701-708,共8页
针对中文术语的语义相似度计算问题,本文首先用数学语言对其进行了描述,然后仔细分析了求解该问题的传统计算方法,结果发现传统计算方法大都做了一个隐式假设:组成两个术语的原子术语的顺序必须大体一致。换句话说,传统计算方法并没有... 针对中文术语的语义相似度计算问题,本文首先用数学语言对其进行了描述,然后仔细分析了求解该问题的传统计算方法,结果发现传统计算方法大都做了一个隐式假设:组成两个术语的原子术语的顺序必须大体一致。换句话说,传统计算方法并没有考虑原子术语顺序的差异对构建两个术语的原子术语间对应关系质量的影响。为克服这个问题,通过类比分析,本文认为可将该问题看作一个全局双序列比对问题,因而引入生物信息学领域中著名的全局双序列比对算法(NW算法)。理论及实验研究均表明,在绝大多数情况下,该方法优于传统方法,或至少与传统方法的效果相当。 展开更多
关键词 语义相似度计算 序列比对 语义知识库
在线阅读 下载PDF
医联网应用中异源健康数据语义融合方法研究 被引量:7
20
作者 徐博艺 金初阳 +2 位作者 胡代平 张鹏翥 蔡鸿明 《计算机应用研究》 CSCD 北大核心 2020年第7期2063-2067,2071,共6页
医疗物联网及移动医疗应用中多种传感器采集的生命体征数据,以及各类健康医疗数据彼此之间存在语义异构性,导致智能医疗物联设备数据融合困难。针对这一问题,研究了基于开放关联数据的语义消歧方法。首先对设备数据进行本体建模,形成局... 医疗物联网及移动医疗应用中多种传感器采集的生命体征数据,以及各类健康医疗数据彼此之间存在语义异构性,导致智能医疗物联设备数据融合困难。针对这一问题,研究了基于开放关联数据的语义消歧方法。首先对设备数据进行本体建模,形成局部本体;然后利用图匹配算法将局部本体与开放医疗关联数据进行概念对齐,间接消除异源数据间的语义异构性;最后,在运动手环与体重计数据融合实验中,通过与开放关联数据源的关联匹配判定血压和体重等异构概念属于语义相关概念。实验结果表明,通过与开放关联数据源关联,可以实现局部本体语义扩展,进一步实现异源医联网设备数据融合。 展开更多
关键词 开放关联数据 移动健康 语义建模 物联网 概念对齐
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部