期刊文献+
共找到150篇文章
< 1 2 8 >
每页显示 20 50 100
基于反向投影的zero-shot learning目标分类算法研究 被引量:1
1
作者 冯鹏 庹红娅 +2 位作者 乔凌峰 王洁欣 敬忠良 《计算机应用研究》 CSCD 北大核心 2017年第11期3291-3294,共4页
Zero-shot learning(ZSL)是针对没有训练样本的类别进行分类的问题。传统回归方法的核心是将视觉特征投影到语义空间,没有充分利用视觉特征自身包含的样本信息,同时训练计算量大。提出基于反向投影的ZSL目标分类方法,将类别原型投影到... Zero-shot learning(ZSL)是针对没有训练样本的类别进行分类的问题。传统回归方法的核心是将视觉特征投影到语义空间,没有充分利用视觉特征自身包含的样本信息,同时训练计算量大。提出基于反向投影的ZSL目标分类方法,将类别原型投影到视觉空间,利用视觉特征的语义性学习出映射函数,参数优化过程仅通过解析解就可以获得。在两个基准数据集的实验结果表明,提出的反向投影方法分类结果较传统回归方法和其他现有方法有大幅提升,并且训练时间大大减少,可以更好地推广到未知类别的分类问题上。 展开更多
关键词 zero-shot LEARNING 目标分类 反向投影 解析解
在线阅读 下载PDF
基于图像-文本大模型CLIP微调的零样本参考图像分割 被引量:3
2
作者 刘杰 乔文昇 +2 位作者 朱佩佩 雷印杰 王紫轩 《计算机应用研究》 北大核心 2025年第4期1248-1254,共7页
近年来,以CLIP为代表的视觉-语言大模型在众多下游场景中显示出了出色的零样本推理能力,然而将CLIP模型迁移至需要像素水平图-文理解的参考图像分割中非常困难,其根本原因在于CLIP关注图像-文本整体上的对齐情况,却丢弃了图像中像素点... 近年来,以CLIP为代表的视觉-语言大模型在众多下游场景中显示出了出色的零样本推理能力,然而将CLIP模型迁移至需要像素水平图-文理解的参考图像分割中非常困难,其根本原因在于CLIP关注图像-文本整体上的对齐情况,却丢弃了图像中像素点的空间位置信息。鉴于此,以CLIP为基础模型,提出了一种单阶段、细粒度、多层次的零样本参考图像分割模型PixelCLIP。具体地,采取了多尺度的图像特征融合,既聚集CLIP中不同视觉编码器提取的图像像素级特征,同时又考虑CLIP中固有的图像整体语义特征。在文本信息表征上,不但依靠CLIP-BERT来保持物体种类信息,还引入LLaVA大语言模型进一步注入上下文背景知识。最后,PixelCLIP通过细粒度跨模态关联匹配,实现像素水平的参考图像分割。充分的数值分析结果验证了该方法的有效性。 展开更多
关键词 零样本 CLIP 像素级 单阶段 参考图像分割
在线阅读 下载PDF
基于多模态融合Transformer的视听广义零次学习方法 被引量:1
3
作者 杨静 李小勇 +3 位作者 阮小利 李少波 唐向红 徐计 《电子与信息学报》 北大核心 2025年第7期2375-2384,共10页
视听零次学习需要理解音频和视觉信息之间的关系,以便能够推理未见过的类别。尽管领域做出了许多努力并取得了重大进展,但往往专注于学习强大的表征,从而忽视了音频和视频之间的依赖关系和输出分布与目标分布不一致的问题。因此,该文提... 视听零次学习需要理解音频和视觉信息之间的关系,以便能够推理未见过的类别。尽管领域做出了许多努力并取得了重大进展,但往往专注于学习强大的表征,从而忽视了音频和视频之间的依赖关系和输出分布与目标分布不一致的问题。因此,该文提出了基于Transformer的视听广义零次学习方法。具体来说,使用注意力机制来学习数据的内部信息,增强不同模态的信息交互,以捕捉视听数据之间的语义一致性;为了度量不同概率分布之间的差异和类别之间的一致性,引入了Kullback-Leibler(KL)散度和余弦相似度损失。为了评估所提方法,在VGGSound-GZSL^(cls),UCF-GZSL^(cls)和ActivityNet-GZSL^(cls)3个基准数据集上进行测试。大量的实验结果表明,所提方法在3个数据集上都取得了最先进的性能。 展开更多
关键词 视听零次学习 视频分类 注意力机制 KL散度
在线阅读 下载PDF
CGR-BERT-ZESHEL:基于中文特征的零样本实体链接模型 被引量:1
4
作者 潘建 吴志伟 李燕君 《计算机科学》 北大核心 2025年第4期262-270,共9页
目前,在实体链接任务的研究中,对中文实体链接、新兴实体与不知名实体链接的研究较少。此外,传统的BERT模型忽略了中文的两个关键方面,即字形和部首,这两者为语言理解提供了重要的语法和语义信息。针对以上问题,提出了一种基于中文特征... 目前,在实体链接任务的研究中,对中文实体链接、新兴实体与不知名实体链接的研究较少。此外,传统的BERT模型忽略了中文的两个关键方面,即字形和部首,这两者为语言理解提供了重要的语法和语义信息。针对以上问题,提出了一种基于中文特征的零样本实体链接模型CGR-BERT-ZESHEL。该模型首先通过引入视觉图像嵌入和传统字符嵌入,分别将字形特征和部首特征输入模型,从而增强词向量特征并缓解未登录词对模型性能的影响;然后采用候选实体生成和候选实体排序两阶段的方法得到实体链接的结果。在Hansel和CLEEK两个数据集上进行实验,结果表明,与基线模型相比,CGR-BERT-ZESHEL模型在候选实体生成阶段的性能指标Recall@100提高了17.49%和7.34%,在候选实体排序阶段的性能指标Accuracy提高了3.02%和3.11%;同时,在Recall@100和Accuracy指标上的性能均优于其他对比模型。 展开更多
关键词 实体链接 中文零样本 BERT 候选实体生成 候选实体排序
在线阅读 下载PDF
提升零样本工业异常检测方法泛化性的属性无关提示学习分析 被引量:2
5
作者 刘桂雄 闫奕樸 +1 位作者 陈贵龙 邢星奥 《激光杂志》 北大核心 2025年第5期64-70,共7页
工业异常检测是制造过程质量控制核心环节,零样本工业异常检测属性无关提示学习是提升泛化性有效途径。本文面向工业生产应用,针对零样本工业异常检测属性无关提示学习,从可学习文本提示、物体解耦文本提示两个方面的基本原理、框架、... 工业异常检测是制造过程质量控制核心环节,零样本工业异常检测属性无关提示学习是提升泛化性有效途径。本文面向工业生产应用,针对零样本工业异常检测属性无关提示学习,从可学习文本提示、物体解耦文本提示两个方面的基本原理、框架、流程与应用性能等内容,系统分析比较各方法应用特点,指出图像与文本共同优化提示,以及细化异常特征描述是该领域值得关注方向,对工业异常检测技术研究人员具有指导参考价值。 展开更多
关键词 工业异常检测 属性无关提示学习 大模型 零样本
在线阅读 下载PDF
面向零样本图像分类的交互式类属性构建方法
6
作者 刘真 徐景胜 +2 位作者 颜菁 徐润森 吴向阳 《计算机辅助设计与图形学学报》 北大核心 2025年第2期243-253,共11页
零样本图像分类解决了训练和测试数据类别不相交的问题,人类标注属性是一种常用的实现零样本图像分类的辅助知识.为协助专家设计类属性矩阵,提出了一种交互式构建方法,简化了烦琐且缺乏指导的流程.首先,通过一种基于概念的深度学习可解... 零样本图像分类解决了训练和测试数据类别不相交的问题,人类标注属性是一种常用的实现零样本图像分类的辅助知识.为协助专家设计类属性矩阵,提出了一种交互式构建方法,简化了烦琐且缺乏指导的流程.首先,通过一种基于概念的深度学习可解释性方法,在训练集图像数据中提取出可理解的属性信息;然后,采用多视图协作的交互方式,探索和分析已提取属性的重要性.系统提供了全局和局部2种方式,辅助用户设计测试集数据类别的属性值;最后,通过在数据集Animals with Attributes2上进行的案例分析,以及采用李克特量表的用户评估实验,验证了设计方法的有效性和实用性,可以帮助专家用户高效且便捷地完成类属性构建工作. 展开更多
关键词 零样本学习 零样本图像分类 可视分析 可解释人工智能 人机协作
在线阅读 下载PDF
融合CLIP和3D高斯的多模态场景编辑算法
7
作者 曹仰杰 王伟平 +2 位作者 李振强 谢俊 吕润峰 《郑州大学学报(工学版)》 北大核心 2025年第5期35-42,共8页
针对3D场景编辑算法对标注数据过度依赖和计算复杂度高的问题,提出了一种融合CLIP与3D高斯的多模态场景编辑算法(CLIP2Gaussian)。首先,利用SAM从多视角图像中提取目标掩码,并引入双向传播策略实现不同视角之间的掩码一致性;其次,将提... 针对3D场景编辑算法对标注数据过度依赖和计算复杂度高的问题,提出了一种融合CLIP与3D高斯的多模态场景编辑算法(CLIP2Gaussian)。首先,利用SAM从多视角图像中提取目标掩码,并引入双向传播策略实现不同视角之间的掩码一致性;其次,将提取的掩码通过CLIP进行语义标签分配,并映射到3D高斯点,实现3D场景的语义嵌入;最后,采用可微分渲染机制对3D高斯参数进行优化,同时引入空间一致性正则化策略,通过聚类增强语义标签在3D空间中的一致性与稳定性。实验结果表明:CLIP2Gaussian在LERF数据集上IoU达到61.23%,语义分割任务中单次文本查询响应时间为0.57 s,准确率和效率均优于LERF。消融实验进一步验证了所提算法在最小扰动原始场景的前提下对目标区域的精准编辑。 展开更多
关键词 3D重建 零样本学习 场景理解 场景编辑 3D高斯
在线阅读 下载PDF
基于注意力机制和能量函数的动作识别算法
8
作者 王丽芳 吴荆双 +1 位作者 尹鹏亮 胡立华 《计算机应用》 北大核心 2025年第1期234-239,共6页
针对零样本动作识别(ZSAR)算法的框架缺乏结构性指导的问题,以基于能量的模型(EBM)指导框架设计,提出基于注意力机制和能量函数的动作识别算法(ARAAE)。首先,为了得到EBM的输入,设计了光流加3D卷积(C3D)架构的组合以提取视觉特征,从而... 针对零样本动作识别(ZSAR)算法的框架缺乏结构性指导的问题,以基于能量的模型(EBM)指导框架设计,提出基于注意力机制和能量函数的动作识别算法(ARAAE)。首先,为了得到EBM的输入,设计了光流加3D卷积(C3D)架构的组合以提取视觉特征,从而达到空间去冗余的效果;其次,将视觉Transformer(ViT)用于视觉特征的提取以减少时间冗余,同时利用ViT配合光流加C3D架构的组合以减少空间冗余,从而获得非冗余视觉空间;最后,为度量视觉空间和语义空间的相关性,实现能量评分评估机制,设计联合损失函数来进行优化实验。采用6个经典ZSAR算法及近年文献里的算法在两个数据集HMDB51和UCF101进行实验的结果表明:相较于CAGE(Coupling Adversarial Graph Embedding)、Bi-dir GAN(Bi-directional Generative Adversarial Network)和ETSAN(Energy-based Temporal Summarized Attentive Network)等算法,在平均分组的HMDB51数据集上,ARAAE平均识别准确率提升至(22.1±1.8)%,均明显优于对比算法;在平均分组的UCF101数据集上,ARAAE的平均识别准确率提升至(22.4±1.6)%,略优于对比算法;在以81/20为分割方式的UCF101数据集上,ARAAE的平均识别准确率提升至(40.2±2.6)%,均大于对比算法。可见,ARAAE在ZSAR中能有效提高识别性能。 展开更多
关键词 零样本动作识别 能量函数 注意力机制 光流法 视觉特征
在线阅读 下载PDF
融合扩散模型的生成式零样本钢表面缺陷检测
9
作者 季瑞瑞 杨思凡 +2 位作者 华羽垚 耿屹 白晨羲 《计算机工程与应用》 北大核心 2025年第12期333-343,共11页
针对生成式零样本目标检测模型难以应对复杂场景下的钢材表面缺陷检测,存在语义混淆和鲁棒性低的问题,提出一种融合扩散模型的生成式零样本钢材表面缺陷检测模型。设计多模态缺陷特征对齐模块,通过监督对比学习、缺陷特征对齐和语义一... 针对生成式零样本目标检测模型难以应对复杂场景下的钢材表面缺陷检测,存在语义混淆和鲁棒性低的问题,提出一种融合扩散模型的生成式零样本钢材表面缺陷检测模型。设计多模态缺陷特征对齐模块,通过监督对比学习、缺陷特征对齐和语义一致性重建,使生成器生成的缺陷特征与原始语义信息充分对齐,提高生成模型的鲁棒性;引入缺陷特征去噪扩散模块,通过逐步添加、去除噪声来生成多样化的特征表征,并筛选出具有代表性的生成缺陷特征。将得到的生成缺陷特征用于更新缺陷检测网络的分类器,实现零样本钢材表面缺陷检测。通过在NEU和GC10两个钢材表面缺陷数据集上的实验结果显示,零样本检测设置下,检测精度相较于基线模型分别提升11.5和17.4个百分点;广义零样本检测设置下,调和平均值分别提升3.0和9.8个百分点,有效提升了模型在复杂场景下的钢材表面缺陷检测能力;可视化结果表明,模型能够生成分离特征明显的未见缺陷特征,缓解了语义混淆问题;此外,与目前先进的零样本目标检测模型相比,该模型在钢材表面缺陷检测中表现出了更高的准确率和鲁棒性。 展开更多
关键词 缺陷检测 零样本学习 生成式模型 语义对齐 扩散模型
在线阅读 下载PDF
基于特征增强和对比嵌入的零样本图像分类算法
10
作者 刘颖 冯小东 何敬鲁 《计算机科学与探索》 北大核心 2025年第8期2123-2134,共12页
零样本图像分类旨在利用训练过程中可见类的信息实现未见类的预测。特征生成的方法在语义特征的指导下,利用生成模型合成未见类的视觉特征,并在视觉特征空间训练一个有监督学习模型完成预测。但是,视觉特征空间缺乏足够的判别性信息,得... 零样本图像分类旨在利用训练过程中可见类的信息实现未见类的预测。特征生成的方法在语义特征的指导下,利用生成模型合成未见类的视觉特征,并在视觉特征空间训练一个有监督学习模型完成预测。但是,视觉特征空间缺乏足够的判别性信息,得到的分类结果不是最优的。为此,构建一个基于对比学习的对比嵌入模块,将生成的特征与真实的特征映射至对比嵌入空间,在对比嵌入空间分别进行实例嵌入与类嵌入,利用对比学习更好地学习实例之间的差异以及类之间的区别,获得更具判别性信息的特征,并最终在对比嵌入空间训练一个有监督学习模型完成预测。此外,为了充分利用视觉特征的数据分布,获得更接近真实特征及其语义信息的生成特征,利用Vision Transformer提取图像的视觉特征,并在特征生成的过程中加入双原型约束策略,利用聚类原型和类别原型帮助生成模型更好地学习数据分布。该策略分别约束生成特征接近真实特征的聚类原型以及生成特征的类别原型接近真实特征的聚类原型。在三个公共数据集上的实验结果验证了提出算法的有效性。 展开更多
关键词 零样本图像分类 生成模型 对比学习 聚类原型 类别原型
在线阅读 下载PDF
VALL-E R:利用单调对齐策略的鲁棒且高效零样本语音合成 被引量:1
11
作者 韩冰 钱彦旻 《信号处理》 北大核心 2025年第9期1537-1546,共10页
借助离散神经音频编解码器的能力,大型语言模型(Large language model,LLM)已被广泛认为是一种零样本语音合成(Text-to-Speech,TTS)的潜在方法。然而,基于采样的解码策略虽然能够为语音生成带来丰富的多样性,但同时也引入了诸如拼写错... 借助离散神经音频编解码器的能力,大型语言模型(Large language model,LLM)已被广泛认为是一种零样本语音合成(Text-to-Speech,TTS)的潜在方法。然而,基于采样的解码策略虽然能够为语音生成带来丰富的多样性,但同时也引入了诸如拼写错误、遗漏和重复等鲁棒性问题。为了解决上述问题,我们提出了VALL-E R,一个鲁棒且高效的零样本TTS系统,并以VALL-E为基础进行构建。具体而言,我们引入了一种音素单调对齐策略,通过约束声学标记与其对应的音素严格匹配,增强了音素与声学序列之间的映射关系,从而确保更精确的对齐。此外,我们采用编解码器合并的方法,在浅层量化层对离散码进行降采样,以减少解码计算量,同时保持语音输出的高质量。受益于这些策略,VALL-E R在音素可控性方面取得了显著提升,并通过逼近真实语音的词错误率展现了卓越的鲁棒性。此外,该系统仅需较少的自回归推理步骤,推理时间降低超过60%,极大提升了推理效率。 展开更多
关键词 零样本语音合成 单调对齐 合并编码 鲁棒性 高效性
在线阅读 下载PDF
工业异常检测大模型方法研究进展 被引量:4
12
作者 闫奕樸 刘桂雄 邢星奥 《中国测试》 北大核心 2025年第1期1-10,23,共11页
工业异常检测是制造过程质量控制核心环节之一,其中零样本大模型检测方法是发展趋势。文章针对工业异常检测大模型方法面向工业生产应用,介绍目前国内外主要工业异常的数据集、检测大模型方法评价指标,评述工业异常检测少样本学习、工... 工业异常检测是制造过程质量控制核心环节之一,其中零样本大模型检测方法是发展趋势。文章针对工业异常检测大模型方法面向工业生产应用,介绍目前国内外主要工业异常的数据集、检测大模型方法评价指标,评述工业异常检测少样本学习、工业异常检测零样本学习大模型方法的基本原理、框架与应用性能等方面内容,总结比较各方法应用特点及发展趋势,指出工业异常检测零样本大模型方法值得研究及关注方向。 展开更多
关键词 工业异常检测 大模型 零样本 少样本
在线阅读 下载PDF
基于零样本学习的风力机故障诊断方法 被引量:1
13
作者 潘美琪 贺兴 《上海交通大学学报》 北大核心 2025年第5期561-568,共8页
在工程实践中,风力机故障诊断面临训练故障与实际故障类别不同的情况,为实现对风力机未知故障的诊断,需要将训练过程中习得的故障特征信息迁移至未知故障中.不同于直接建立故障样本与故障类别间映射关系的传统方法,提出一种基于零样本... 在工程实践中,风力机故障诊断面临训练故障与实际故障类别不同的情况,为实现对风力机未知故障的诊断,需要将训练过程中习得的故障特征信息迁移至未知故障中.不同于直接建立故障样本与故障类别间映射关系的传统方法,提出一种基于零样本学习的风力机故障诊断方法来完成故障特征迁移.通过描述每种故障的属性建立故障属性矩阵,将其嵌入故障样本空间与故障类别空间之中;并基于卷积神经网络建立故障属性学习器,基于欧氏距离建立故障分类器,形成从故障样本预测故障属性进而分类故障的诊断流程.最后通过与其他零样本学习方法的对比验证了所提故障诊断方法的有效性和优越性. 展开更多
关键词 风力机故障诊断 零样本学习 卷积神经网络 知识-数据混合驱动
在线阅读 下载PDF
基于无监督分类差异的零样本立场检测模型
14
作者 张浩 张绍武 +3 位作者 杨亮 卢俊宇 林鸿飞 徐博 《中文信息学报》 北大核心 2025年第5期22-30,共9页
立场检测旨在从文本中挖掘出用户对某一话题的立场态度。为了减少标注的成本,研究者们引入零样本学习进行立场检测,利用有标签的旧话题数据训练模型,并在新话题数据上评估模型的性能。然而,现有的方法没有为新数据训练特定的决策边界,... 立场检测旨在从文本中挖掘出用户对某一话题的立场态度。为了减少标注的成本,研究者们引入零样本学习进行立场检测,利用有标签的旧话题数据训练模型,并在新话题数据上评估模型的性能。然而,现有的方法没有为新数据训练特定的决策边界,导致模型的泛化性有限。鉴于此,该文提出了一种基于无监督分类差异的零样本立场检测模型,先进行话题的对抗判别训练,然后使用多个立场分类器从不同的视角对新话题数据进行分类,最后通过缩小分类器之间的输出差异,确立特定于新话题的决策边界。实验结果表明,该模型利用较少的计算成本取得了最优的效果,相比于TOAD等强基线模型,在五个话题的中文数据集上F1值平均提高了2.58%。 展开更多
关键词 零样本立场检测 无监督分类差异 决策边界
在线阅读 下载PDF
基于标签句子重构的多语言零样本神经机器翻译
15
作者 陈潇 杨雅婷 +3 位作者 董瑞 时现伟 马博 吐尔洪·吾司曼 《中文信息学报》 北大核心 2025年第2期80-88,共9页
针对当前多语言零样本翻译的标签策略难以提供丰富的翻译方向信息和模型对语言建模能力的不足,进而导致翻译脱靶的问题,该文提出了使用标签句子重构的多语言零样本神经机器翻译方法。具体而言,首先提出了一种词级别的标签策略,在编码器... 针对当前多语言零样本翻译的标签策略难以提供丰富的翻译方向信息和模型对语言建模能力的不足,进而导致翻译脱靶的问题,该文提出了使用标签句子重构的多语言零样本神经机器翻译方法。具体而言,首先提出了一种词级别的标签策略,在编码器端增加目标语言标签嵌入,在源语言句子每个词的嵌入表示中注入目标语言信息;其次设计了标签句子重构任务,对句子添加噪声和使用词级别的标签策略后进行重构操作,以达到增强模型语言建模能力的目的。在MultiUN数据集和Europarl数据集上的零样本实验结果表明,所提方法在零样本翻译上的平均BLEU值分别超过强基线0.7和0.3。消融实验结果表明,所提出的语言标签嵌入策略和标签句子重构均能有效提升模型的零样本翻译性能。 展开更多
关键词 零样本机器翻译 多语言神经机器翻译 自然语言处理
在线阅读 下载PDF
基于跨模态时序大模型的空间站科学装置健康管理研究与应用
16
作者 范梓萌 宋磊 +3 位作者 高颂 张竞菲 王红飞 李绪志 《载人航天》 北大核心 2025年第3期369-379,共11页
针对空间站科学装置遥测数据在健康管理中因时变性、关联性及概念漂移等带来的异常检测与趋势预测难题,提出了一种基于跨模态时序大模型的通用检测与预测方法。通过构建融合反向实例归一化与时间分块技术的特征对齐框架,将大语言模型在... 针对空间站科学装置遥测数据在健康管理中因时变性、关联性及概念漂移等带来的异常检测与趋势预测难题,提出了一种基于跨模态时序大模型的通用检测与预测方法。通过构建融合反向实例归一化与时间分块技术的特征对齐框架,将大语言模型在大规模预训练中形成的强泛化能力迁移至时序数据,实现跨装置、零样本时序数据分析,有效应对不同领域装置数据的多样性问题。在公开数据集与实际航天工程数据集上的实验结果表明:该方法在异常检测任务上的平均精度较次优基线模型提升5.2%,在趋势预测任务上的平均精度较次优基线模型提升15.4%,验证了所提出方法在零样本条件下对时序数据异常检测与趋势预测任务的应用效果。 展开更多
关键词 异常检测 趋势预测 跨模态 时序大模型 零样本学习
在线阅读 下载PDF
基于CLIP模型和知识数据库的零样本动作识别 被引量:2
17
作者 侯永宏 郑皓春 +1 位作者 高嘉俊 任懿 《天津大学学报(自然科学与工程技术版)》 EI CAS 北大核心 2025年第1期91-100,共10页
零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签... 零样本动作识别旨在从已知类别的动作样本数据中学习知识,并将其迁移到未知的动作类别上,从而实现对未知动作样本的识别和分类.现有的零样本动作识别模型依赖有限的训练数据,可学习到的先验知识有限,难以将视觉特征准确地映射到语义标签上,是限制零样本学习性能提升的关键因素.针对上述问题,本文提出了一种引入外部知识数据库和CLIP模型的零样本学习框架,利用多模态CLIP模型通过自监督对比学习方式积累的知识,来扩充零样本动作识别模型的先验知识.同时,设计了时序编码器,以弥补CLIP模型时序建模能力的欠缺.为了使模型学习到更丰富的语义特征,缩小视觉特征和语义标签之间的语义鸿沟,本文扩展了已知动作类别的语义标签,用更为详细的描述语句代替简单的文本标签,丰富了文本表示的语义信息;在此基础上,在模型外部构建了一个知识数据库,在不增加模型参数规模的条件下为模型提供额外的辅助信息,强化视觉特征与文本特征表示之间的关联关系.最后,本文遵循零样本学习规范,对模型进行微调,使其适应零样本动作识别任务,提高了模型的泛化能力.所提方法在HMDB51和UCF101两个主流数据集上进行了广泛实验,实验数据表明,该方法的识别性能相比目前的先进方法在上述两个数据集上分别提升了3.8%和2.3%,充分体现了所提方法的有效性. 展开更多
关键词 零样本学习 动作识别 CLIP模型 知识数据库
在线阅读 下载PDF
反馈对比生成的零样本滚动轴承复合故障诊断
18
作者 苑茹 马萍 +2 位作者 张宏立 王聪 王瑾春 《哈尔滨工业大学学报》 北大核心 2025年第8期115-124,共10页
为解决复杂工业场景中滚动轴承复合故障数据难以采集所导致模型识别故障困难的问题,提出基于反馈对比生成的零样本滚动轴承复合故障诊断模型。首先,采用连续小波变换将振动信号转换为时频图,更好地保留故障的时频信息。其次,引入注意力... 为解决复杂工业场景中滚动轴承复合故障数据难以采集所导致模型识别故障困难的问题,提出基于反馈对比生成的零样本滚动轴承复合故障诊断模型。首先,采用连续小波变换将振动信号转换为时频图,更好地保留故障的时频信息。其次,引入注意力引导ConvNeXt特征提取模块,利用通道和空间注意力机制强化故障特征的表征,消除无关信息干扰,增强故障特征的辨识性。然后,结合对抗训练和属性反馈对齐网络,确保生成的伪故障特征能够准确反映其对应的故障属性信息,实现高质量的故障特征生成。同时引入对比学习模块,生成接近正样本但远离其他样本的故障特征,进一步提高特征生成器的性能和特征的辨别力。最后,通过计算伪故障特征与未知复合故障特征的相似度,将相似度最高的类别标签作为未知复合故障标签,实现对未知复合故障的诊断。结果表明:加入注意力机制的特征提取网络相比其他网络,诊断精度提升8.42%;相比仅使用WGAN-GP生成模块,诊断精度提升14.67%;与其他模型相比,文中所提模型在故障诊断准确率上显著提高28.67%,从而验证了所提模型的有效性与优越性,为机械设备的智能维护提供了一种全新的解决方案。 展开更多
关键词 滚动轴承 复合故障诊断 零样本学习 特征生成 对比学习
在线阅读 下载PDF
基于系统分类学信息的鸟类音频零样本分类
19
作者 谢珊珊 张军国 +1 位作者 谢将剑 张长春 《林业科学》 北大核心 2025年第2期12-20,共9页
【目的】通过大量音频-文本对构建的鸟类音频预训练模型能基于物种类别辅助信息对缺乏训练样本的音频进行零样本分类,以减轻数据采集的负担,为鸟类音频零样本分类研究提供有效的理论依据,也为开放环境中的生态监测和物种分布变化分析提... 【目的】通过大量音频-文本对构建的鸟类音频预训练模型能基于物种类别辅助信息对缺乏训练样本的音频进行零样本分类,以减轻数据采集的负担,为鸟类音频零样本分类研究提供有效的理论依据,也为开放环境中的生态监测和物种分布变化分析提供参考。【方法】利用反映鸟类系统发育关系的系统分类学信息作为声音类的物种类别辅助信息,以预训练的RoBERTa文本编码器和HTSAT音频编码器分别提取系统分类学信息的语义嵌入和鸟类音频的声学嵌入,通过对比学习方法计算语义嵌入和声学嵌入的相似度,构建鸟类对比语言-音频预训练模型(CLAP-Bird),然后基于零样本类的物种类别辅助信息和CLAP-Bird模型实现零样本分类。【结果】在一个包含725 h的大型不平衡鸟类音频数据集上训练和评估了所提出的方法,在5个不同的8~10个类别的测试集上获得的平均F1_score为0.289,与以鸟类学名、鸟类生活史和基础特性信息作为物种类别辅助信息的基线模型相比,本文提出的模型对鸟类音频零样本分类性能明显提升。【结论】鸟类的系统分类学信息作为物种类别辅助信息,提供了关于鸟类的生物学遗传信息,有助于模型更好地理解鸟类鸣声之间的关系,提升了鸟类音频零样本学习的性能。且训练集与测试集的系统分类学关系越接近,则对测试集的零样本分类性能越好。 展开更多
关键词 鸟类音频分类 零样本学习 系统分类学信息 物种类别辅助信息 对比学习
在线阅读 下载PDF
基于自提示因果推理增强的跨域文本生成
20
作者 刘小明 黄柄涵 +1 位作者 杨关 刘杰 《中文信息学报》 北大核心 2025年第8期170-184,共15页
现有的大型语言模型(Large Language Models,LLMs)文本生成方法在面对缺乏大规模标注数据的特定领域时,缺少可学习的源域数据,这使得LLMs在处理特定术语和专业知识时容易产生虚假相关性问题。为解决这一问题,该文提出了一种基于自提示... 现有的大型语言模型(Large Language Models,LLMs)文本生成方法在面对缺乏大规模标注数据的特定领域时,缺少可学习的源域数据,这使得LLMs在处理特定术语和专业知识时容易产生虚假相关性问题。为解决这一问题,该文提出了一种基于自提示因果推理增强的专家协作框架,通过建立领域知识提取模块,以挖掘LLMs固有的领域背景知识,并通过设计因果关系提取模块来增强LLMs的因果关系发现能力,进一步提高模型对因果关系信息的利用,从而有效减轻了跨域文本生成中的虚假相关性问题;同时通过训练多个解码头实现并行解码,以减少框架带来的额外时间开销。实验结果表明,该框架在问答任务中的LogiQA、CommonsenseQA和MedQA数据集上的Acc值相较于Llama2-70b基准模型分别提高了16.57%、7.94%和16.32%。同时在HotpotQA数据集和其他6个低资源领域数据集上表现优异,证实了自提示因果推理在提高跨域文本生成准确性和减少虚假相关性方面的有效性。 展开更多
关键词 跨域文本生成 因果推理 零样本
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部