期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
模态间关系促进的行人检索方法
1
作者 李博 张飞飞 徐常胜 《软件学报》 EI CSCD 北大核心 2024年第10期4766-4780,共15页
基于文本描述的行人检索是一个新兴的跨模态检索子任务,由传统行人重识别任务衍生而来,对公共安全以及人员追踪具有重要意义.相比于单模态图像检索的行人重识别任务,基于文本描述的行人检索解决了实际应用中缺少查询图像的问题,其主要... 基于文本描述的行人检索是一个新兴的跨模态检索子任务,由传统行人重识别任务衍生而来,对公共安全以及人员追踪具有重要意义.相比于单模态图像检索的行人重识别任务,基于文本描述的行人检索解决了实际应用中缺少查询图像的问题,其主要挑战在于该任务结合了视觉内容和文本描述两种不同模态的数据,要求模型同时具有图像理解能力和文本语义学习能力.为了缩小行人图像和文本描述的模态间语义鸿沟,传统的基于文本描述的行人检索方法多是对提取的图像和文本特征进行机械地分割,只关注于跨模态信息的语义对齐,忽略了图像和文本模态内部的潜在联系,导致模态间细粒度匹配的不准确.为了解决上述问题,提出模态间关系促进的行人检索方法,首先利用注意力机制分别构建模态内自注意力矩阵和跨模态注意力矩阵,并将注意力矩阵看作不同特征序列间的响应值分布.然后,分别使用两种不同的矩阵构建方法重构模态内自注意力矩阵和跨模态注意力矩阵.其中自注意力矩阵的重构利用模态内逐元素重构的方式可以很好地挖掘模态内部的潜在联系,而跨模态注意力矩阵的重构用模态间整体重构矩阵的方法,以跨模态信息为桥梁,可充分挖掘模态间的潜在信息,缩小语义鸿沟.最后,用基于任务的跨模态投影匹配损失和KL散度损失联合约束模型优化,达到模态间信息相互促进的效果.在基于文本描述的行人检索公开数据库CUHK-PEDES上进行了定量以及检索结果的可视化,均表明所提方法可取得目前最优的效果. 展开更多
关键词 行人检索 跨模态任务 文本语义学习 关系对齐 注意力机制
在线阅读 下载PDF
融合大规模医学事实的跨语言双层知识图谱 被引量:4
2
作者 王楚童 李明达 +5 位作者 孙孟轩 王静 杨雪冰 牛景昊 贺志阳 张文生 《软件学报》 北大核心 2025年第3期1240-1253,共14页
得益于信息化技术的快速发展和医疗信息系统的普及,医学数据库中积淀了海量的医学事实,如患者临床诊疗事件以及医学专家共识等.如何从医学事实中提炼出知识,进而对其管理和合理利用,是推进诊疗自动化和智能化的关键.知识图谱作为一种新... 得益于信息化技术的快速发展和医疗信息系统的普及,医学数据库中积淀了海量的医学事实,如患者临床诊疗事件以及医学专家共识等.如何从医学事实中提炼出知识,进而对其管理和合理利用,是推进诊疗自动化和智能化的关键.知识图谱作为一种新型的知识表示工具,能够有效地挖掘和组织大规模医学事实中的信息,受到医疗领域从业人员的广泛关注.然而,现有医疗知识图谱普遍存在规模小、限制多、可扩展性差等问题,面向医学事实的知识表达能力有限.为此,提出一种双层医疗知识图谱架构,通过对英文患者诊疗事件和中文专家共识进行信息抽取,构建得到一个跨语言、多模态、动态更新、可拓展性强的10亿级医疗知识图谱,可提供更加精准的智能医疗服务. 展开更多
关键词 医学事实 医疗知识图谱 双层知识表示 信息抽取 知识融合
在线阅读 下载PDF
视觉语言模型引导的文本知识嵌入的小样本增量学习 被引量:2
3
作者 姚涵涛 余璐 徐常胜 《软件学报》 EI CSCD 北大核心 2024年第5期2101-2119,共19页
真实场景往往面临数据稀缺和数据动态变化的问题,小样本增量学习的目的是利用少量数据推理数据知识并减缓模型对于旧知识的灾难性遗忘.已有的小样本增量学习的算法(CEC和FACT等)主要是利用视觉特征来调整特征编码器或者分类器,实现模型... 真实场景往往面临数据稀缺和数据动态变化的问题,小样本增量学习的目的是利用少量数据推理数据知识并减缓模型对于旧知识的灾难性遗忘.已有的小样本增量学习的算法(CEC和FACT等)主要是利用视觉特征来调整特征编码器或者分类器,实现模型对于新数据的迁移和旧数据的抗遗忘.但是少量数据的视觉特征往往难以建模一个类别的完整特征分布,导致上述算法的泛化能力较弱.相比于视觉特征,图像类别描述的文本特征具有较好的泛化性和抗遗忘性.因此,在视觉语言模型的基础上,研究基于文本知识嵌入的小样本增量学习,通过在视觉特征中嵌入具有抗遗忘能力的文本特征,实现小样本增量学习中新旧类别数据的有效学习.具体而言,在基础学习阶段,利用视觉语言模型抽取图像的预训练视觉特征和类别的文本描述,并通过文本编码器实现预训练视觉特征到文本空间的映射.进一步利用视觉编码器融合学习到的文本特征和预训练视觉特征抽象具有高辨别能力的视觉特征.在增量学习阶段,提出类别空间引导的抗遗忘学习,利用旧数据的类别空间编码和新数据特征微调视觉编码器和文本编码器,实现新数据知识学习的同时复习旧知识.在4个数据集(CIFAR-100,CUB-200,Car-196和mini Image Net)上验证算法的有效性,证明基于视觉语言模型文本知识嵌入可以在视觉特征的基础上进一步提升小样本增量学习的鲁棒性. 展开更多
关键词 小样本增量学习 视觉语言模型 文本知识嵌入 类别空间引导的抗遗忘学习
在线阅读 下载PDF
基于混合注意力机制的动态人脸表情识别 被引量:4
4
作者 刘希未 宫晓燕 +4 位作者 赵红霞 边思宇 邵帅 戴亚平 代文鑫 《计算机应用》 CSCD 北大核心 2023年第S01期1-7,共7页
针对自然环境中存在人脸遮挡、姿势变化等复杂因素,以及卷积神经网络(CNN)中的卷积滤波器由于空间局部性无法学习大多数神经层中不同面部区域之间的长程归纳偏差的问题,提出一种用于动态人脸表情识别(DFER)的混合注意力机制模型(HA-Mode... 针对自然环境中存在人脸遮挡、姿势变化等复杂因素,以及卷积神经网络(CNN)中的卷积滤波器由于空间局部性无法学习大多数神经层中不同面部区域之间的长程归纳偏差的问题,提出一种用于动态人脸表情识别(DFER)的混合注意力机制模型(HA-Model),以提升DFER的鲁棒性和准确性。HA-Model由空间特征提取和时序特征处理两部分组成:空间特征提取部分通过两种注意力机制——Transformer和包含卷积块注意力模块(CBAM)的网格注意力模块,引导网络从空间角度学习含有遮挡、姿势变化的鲁棒面部特征并关注人脸局部显著特征;时序特征处理部分通过Transformer引导网络学习高层语义特征的时序联系,用于学习人脸表情特征的全局表示。实验结果表明,HA-Model在DFEW和AFEW基准上的准确率分别达到了67.27%和50.41%,验证了HA-Model可以有效提取人脸特征并提升动态人脸表情识别的精度。 展开更多
关键词 动态人脸表情识别 深度学习 卷积神经网络 注意力机制 TRANSFORMER 卷积块注意力模块
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部