期刊文献+
共找到2,122篇文章
< 1 2 107 >
每页显示 20 50 100
CNN与Transformer协同的多模态边缘检测网络
1
作者 李永辉 赵耀 +2 位作者 加小红 魏琛珍 常文文 《计算机工程与应用》 北大核心 2025年第14期195-205,共11页
边缘检测在计算机视觉任务中扮演至关重要的角色,然而,现有边缘检测算法主要依赖CNN作为编码器,导致其在精细度、准确性以及噪声处理等方面存在缺陷。为了解决这些问题,提出了一个CNN与Transformer协同的多模态边缘检测网络。设计了一... 边缘检测在计算机视觉任务中扮演至关重要的角色,然而,现有边缘检测算法主要依赖CNN作为编码器,导致其在精细度、准确性以及噪声处理等方面存在缺陷。为了解决这些问题,提出了一个CNN与Transformer协同的多模态边缘检测网络。设计了一个基于无参数注意力残差结构的高分辨率特征融合模块,保留图像的底层属性,增强全局特征表示;设计了一种包含多尺度混洗注意力模块的轻量化CNN层来完成梯度编码,捕捉图像的高频属性,利用Transformer架构实现特征编码,构建高层的全局依赖关系,通过融合高频属性和全局依赖关系重构特征表达,将CNN、Transformer以及高分辨率特征融合模块的多尺度特征进行逐层聚合解码,从而高精度定位图像边界。与主流算法相比,所提模型在BSDS500、NYUD-v2上均获得较优指标。 展开更多
关键词 边缘检测 卷积神经网络(CNN) transformer 多模态 深度学习
在线阅读 下载PDF
基于多模态掩码Transformer网络的社会事件分类 被引量:1
2
作者 陈宏 钱胜胜 +2 位作者 李章明 方全 徐常胜 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期579-587,共9页
多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据... 多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据模态间的关系是不够的,还要考虑模态之间不相关的上下文信息(即区域或单词)。为克服这些局限性,提出一种新颖的基于多模态掩码Transformer网络(MMTN)模型的社会事件分类方法。通过图-文编码网络来学习文本和图像的更好的表示。将获得的图像和文本表示输入多模态掩码Transformer网络来融合多模态信息,并通过计算多模态信息之间的相似性,对多模态信息的模态间的关系进行建模,掩盖模态之间的不相关上下文。在2个基准数据集上的大量实验表明:所提模型达到了最先进的性能。 展开更多
关键词 多模态 社会事件分类 社交媒体 表示学习 多模态transformer网络
在线阅读 下载PDF
基于卷积和Transformer神经网络架构搜索的脑胶质瘤多组织分割网络 被引量:1
3
作者 陶永鹏 柏诗淇 周正文 《计算机应用》 北大核心 2025年第7期2378-2386,共9页
脑胶质瘤在磁共振成像(MRI)图像中的形状大小变化大、边界模糊且组织结构复杂,这些特点导致了脑肿瘤分割任务的挑战性,通常这种任务需要具备深厚专业知识的研究人员设计复杂定制的网络模型才能完成。这一过程不仅耗时,而且需要大量的人... 脑胶质瘤在磁共振成像(MRI)图像中的形状大小变化大、边界模糊且组织结构复杂,这些特点导致了脑肿瘤分割任务的挑战性,通常这种任务需要具备深厚专业知识的研究人员设计复杂定制的网络模型才能完成。这一过程不仅耗时,而且需要大量的人力资源。为了简化网络设计流程并自动获取最优的网络结构,提出一种基于卷积和Transformer神经网络架构搜索的脑胶质瘤多组织分割网络(NASCT-Net),以在构建用于多模态MRI脑肿瘤分割的网络架构的过程中,提高分割的精确度。首先,将神经架构搜索(NAS)技术应用于编码器的构建,形成可堆叠的NAS编解码模块,以自动优化适用于脑胶质瘤精准分割的网络架构;其次,在编码器底层集成基于Transformer的特征编码模块,以增强对肿瘤各组之间的相对位置和全局信息的表征能力;最后,通过构建体积加权Dice损失函数(VWDiceLoss),解决前景与背景的不平衡问题。在BraTS2019脑肿瘤数据集上与Swin-Unet等方法进行比较的实验结果表明,NASCT-Net的平均Dice相似系数(DSC)提高了0.009,同时平均Hausdorff距离(HD)降低了1.831 mm,验证了NASCT-Net在提高脑肿瘤多组织分割精度方面的有效性。 展开更多
关键词 网络架构 神经网络架构搜索 脑肿瘤分割 卷积神经网络 transformer
在线阅读 下载PDF
基于U-Net和Transformer结合的不完整多模态脑肿瘤分割方法
4
作者 汤占军 蹇洪 王健 《数据采集与处理》 北大核心 2025年第4期934-949,共16页
由于患者个体差异、采集协议多样性和数据损坏等因素,现有基于磁共振成像(Magnetic resonance imaging,MRI)的脑肿瘤分割方法存在模态数据丢失问题,导致分割精度不高。为此,本文提出了一种基于U-Net和Transformer结合的不完整多模态脑... 由于患者个体差异、采集协议多样性和数据损坏等因素,现有基于磁共振成像(Magnetic resonance imaging,MRI)的脑肿瘤分割方法存在模态数据丢失问题,导致分割精度不高。为此,本文提出了一种基于U-Net和Transformer结合的不完整多模态脑肿瘤分割(Incomplete multimodal brain tumor segmentation based on the combination of U-Net and Transformer,IM TransNet)方法。首先,针对脑肿瘤MRI的4个不同模态设计了单模态特定编码器,提升模型对各模态数据的表征能力。其次,在U-Net中嵌入双重注意力的Transformer模块,克服模态缺失引起的信息不完整问题,减少U-Net的长距离上下文交互和空间依赖性局限。在U-Net的跳跃连接中加入跳跃交叉注意力机制,动态关注不同层级和模态的特征,即使在模态缺失时,也能有效融合特征并进行重建。此外,针对模态缺失引起的训练不平衡问题,设计了辅助解码模块,确保模型在各种不完整模态子集上均能稳定高效地分割脑肿瘤。最后,基于公开数据集BRATS验证模型的性能。实验结果表明,本文提出的模型在增强型肿瘤、肿瘤核心和全肿瘤上的平均Dice评分分别为63.19%、76.42%和86.16%,证明了其在处理不完整多模态数据时的优越性和稳定性,为临床实践中脑肿瘤的准确、高效和可靠分割提供了一种可行的技术手段。 展开更多
关键词 注意力机制 脑肿瘤分割 多模态 U-Net transformer
在线阅读 下载PDF
基于Transformer网络多模态融合的密集视频描述方法 被引量:2
5
作者 李想 桑海峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第5期1061-1071,共11页
针对目前的密集视频描述模型大多使用两阶段的方法存在效率较低、忽略音频及语义信息,描述结果不全面的问题。提出了一种基于Transformer网络多模态和语义信息融合的密集视频描述方法。提取自适应R(2+1)D网络提取视觉特征,设计了语义探... 针对目前的密集视频描述模型大多使用两阶段的方法存在效率较低、忽略音频及语义信息,描述结果不全面的问题。提出了一种基于Transformer网络多模态和语义信息融合的密集视频描述方法。提取自适应R(2+1)D网络提取视觉特征,设计了语义探测器生成语义信息,加入音频特征进行补充,建立了多尺度可变形注意力模块,应用并行的预测头,加快模型收敛速度,提高模型精度。实验结果表明:模型在2个基准数据集上性能均有很好的表现,评价指标BLEU4上达到了2.17。 展开更多
关键词 密集事件描述 transformer网络 语义信息 多模态融合 可变形注意力
在线阅读 下载PDF
新解码器的CNNs-Transformers融合网络及其病理图像肿瘤分割应用 被引量:1
6
作者 马丽晶 王朝立 +2 位作者 孙占全 程树群 王康 《小型微型计算机系统》 北大核心 2025年第6期1442-1449,共8页
病理图像是肿瘤诊断的"金标准",但超高分辨率的病理图像使得医生需要消耗大量的精力和时间,而且诊断结果主观性比较强.随着人工智能技术的发展,深度学习模型提供了计算机代替人对病理图像进行快速、准确和可靠诊断的可能性.然... 病理图像是肿瘤诊断的"金标准",但超高分辨率的病理图像使得医生需要消耗大量的精力和时间,而且诊断结果主观性比较强.随着人工智能技术的发展,深度学习模型提供了计算机代替人对病理图像进行快速、准确和可靠诊断的可能性.然而,目前大多数的网络更注重如何在编码器部分提取更准确的特征,而对于同等重要的解码器部分的结构设计研究则稍显不足.针对该问题,本文提出了由三类上采样模块组成的新网络,而编码器部分采用Swin Transformer和ConvNeXt作为网络的双分支并行独立结构.三类上采样模块分别是多重转置卷积采样、双线性上采样和Swin Transformer上采样,其特点是可以充分利用病理图像特征之间局部和全局的依赖关系.该网络分别在肝癌数据集和GLAS数据集上进行了验证,并与不同类型的主流网络进行了对比,性能指标皆达到比较好的结果. 展开更多
关键词 医学图像分割 深度学习 卷积神经网络 Swin transformer
在线阅读 下载PDF
基于多模态视听融合的Transformer语音识别算法研究 被引量:2
7
作者 赵小芬 彭朋 《传感器与微系统》 北大核心 2025年第2期48-52,共5页
针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分... 针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分布不均的问题。通过将原始音频和视觉信号转换为Transformer模型可处理的特征表示,并结合编码器和解码器结构实现语音到文本的精确转换,利用多头自注意力机制捕捉序列间的内在相关性。实验结果表明,本算法在字错误率上降低了6%~22%,显著提升了语音识别率,验证了算法的有效性和优越性。 展开更多
关键词 多模态 视听融合 语音识别 transformer 动态权重分配机制
在线阅读 下载PDF
基于跨模态交互Transformer的多模态方面级情感分析 被引量:1
8
作者 甘卓浩 缪裕青 +2 位作者 刘同来 张万桢 周明 《计算机应用研究》 北大核心 2025年第9期2707-2713,共7页
针对现有多模态方面级情感分析模型存在的视觉信息提取不充分和方面情感语义缺失问题,提出一种基于跨模态交互Transformer的多模态方面级情感分析模型。该模型通过文本语义增强模块融合图像标题与原始文本以弥补情感语义缺失;利用依存... 针对现有多模态方面级情感分析模型存在的视觉信息提取不充分和方面情感语义缺失问题,提出一种基于跨模态交互Transformer的多模态方面级情感分析模型。该模型通过文本语义增强模块融合图像标题与原始文本以弥补情感语义缺失;利用依存句法分析与图卷积网络构建方面感知特征提取模块,捕获方面项与观点词间的长距离依赖;设计跨模态特征交互模块,结合top-n形容词-名词对分布约束策略及多模态融合Transfor-mer,实现图像与文本特征的深层交互。在Twitter-2015、Twitter-2017和ZOL三个数据集上的实验结果表明,CMIT模型在准确率和宏平均F 1值上均优于多个基准模型,验证了其有效性和泛化能力。 展开更多
关键词 多模态方面级情感分析 模态交互 transformer 图卷积网络 形容词-名词对
在线阅读 下载PDF
基于TCN-Bi-GRU和交叉注意Transformer的多模态情感识别 被引量:2
9
作者 李嘉华 陈景霞 白义民 《陕西科技大学学报》 北大核心 2025年第1期161-168,共8页
多模态语音情感识别是近年来在自然语言处理和机器学习领域备受关注的研究方向之一,不同模态的数据存在异构性和不一致性,将不同模态信息有效地融合起来并学习到高效的表示形式是一个挑战.为此,本文提出了一种新的基于时序信息建模和交... 多模态语音情感识别是近年来在自然语言处理和机器学习领域备受关注的研究方向之一,不同模态的数据存在异构性和不一致性,将不同模态信息有效地融合起来并学习到高效的表示形式是一个挑战.为此,本文提出了一种新的基于时序信息建模和交叉注意力的多模态语音情感识别模型.首先采用时间卷积网络(Time Convolutional Network,TCN)提取语音、文本和视频数据的深层时序特征,使用双向门控递归单元(Bidirectional Gated Recurrent Unit,Bi-GRU)捕捉序列数据的上下文信息,提高模型对序列数据的理解能力.然后基于交叉注意力机制和Transformer构建多模态融合网络,用于挖掘并捕获音频、文本和视觉特征之间交互的情感信息.此外,在训练过程中引入弹性网络正则化(Elastic Net Regularization)防止模型过拟合,最后完成情感识别任务.在IEMOCAP数据集上,针对快乐、悲伤、愤怒和中性四类情感的分类实验中,准确率分别为87.6%、84.1%、87.5%、71.5%,F1值分别为85.1%、84.3%、87.4%、71.4%.加权平均精度为80.75%,未加权平均精度为82.80%.结果表明,所提方法实现了较好的分类性能. 展开更多
关键词 语音识别 多模态情感识别 时间卷积网络 交叉注意力机制 弹性网络
在线阅读 下载PDF
基于改进Transformer模型的Ad Hoc网络MAC协议识别技术
10
作者 何文雯 李盛祥 +3 位作者 王莉 李浩 李盈达 马鹏飞 《电讯技术》 北大核心 2025年第8期1240-1247,共8页
针对现有的媒体访问控制(Media Access Control,MAC)协议识别模型存在特征数据选取不完善和只关注局部特征的问题,首先,基于Transformer模型提出了Conv-Transformer模型。该模型将卷积操作引入到模型中,对卷积后特征图中的特征值进行分... 针对现有的媒体访问控制(Media Access Control,MAC)协议识别模型存在特征数据选取不完善和只关注局部特征的问题,首先,基于Transformer模型提出了Conv-Transformer模型。该模型将卷积操作引入到模型中,对卷积后特征图中的特征值进行分割拼接,并添加类别信息编码。其次,基于Exata平台搭建不同拓扑结构的Ad Hoc网络仿真场景,收集所有物理层的数据对Conv-Transformer模型进行训练和测试。测试结果表明,在Ad Hoc网络中对ALOHA、CSMA/CA、MACA和TDMA 4种MAC协议的识别任务上,提出的模型与经典深度学习模型递归神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Network,CNN)和Transformer相比,比RNN模型的准确率提高了20.8%,比CNN模型的准确率提高了14.6%,比Transformer模型的准确率提高了68.8%。 展开更多
关键词 Ad Hoc网络 MAC协议识别 深度学习 transformer模型
在线阅读 下载PDF
Transformer融合CNN-SRU的工业控制网络入侵检测方法 被引量:3
11
作者 史长鑫 宗学军 +2 位作者 何戡 连莲 孙逸菲 《重庆理工大学学报(自然科学)》 北大核心 2025年第3期85-92,共8页
针对工业控制网络入侵检测的现有方法只关注网络流量的局部特征或全局特征,以及网络流量数据分布不平衡导致入侵检测模型准确率低的问题,提出一种Transformer融合卷积神经网络-简单循环单元(CNN-SRU)的工业控制网络入侵检测方法。采用... 针对工业控制网络入侵检测的现有方法只关注网络流量的局部特征或全局特征,以及网络流量数据分布不平衡导致入侵检测模型准确率低的问题,提出一种Transformer融合卷积神经网络-简单循环单元(CNN-SRU)的工业控制网络入侵检测方法。采用自适应合成采样方法(ADASYN)和高斯混合模型(GMM)对少数类样本进行过采样,达到样本平衡。通过CNN-SRU捕获网络流量数据的时空局部特征,Transformer编码器部分捕捉全局联系进行深层次特征提取。在NSL_KDD数据集上进行实验,模型的总体准确率达到99.61%,高于对比的神经网络模型。在密西西比州立大学天然气管道控制系统数据集和本实验室油气集输全流程工业攻防靶场上进行实验,总体准确率分别达到98.58%和96.89%,证明了所提方法在工业控制网络入侵检测中的科学性与可行性。 展开更多
关键词 工业控制网络 入侵检测 transformer 卷积神经网络 简单循环单元
在线阅读 下载PDF
多模态引导视觉Transformer的小样本农作物病害识别 被引量:1
12
作者 杨森 冯全 +2 位作者 阎文博 周文伟 杨婉霞 《农业工程学报》 北大核心 2025年第6期195-203,共9页
为解决现有基于小样本学习方法的农作物病害识别过程中模态信息单一、识别精度低等问题,该研究提出了一种多模态小样本学习(multimodal few-shot learning, MMFSL)模型,并将其应用于低数据场景下的作物病害识别。首先,该模型在小样本学... 为解决现有基于小样本学习方法的农作物病害识别过程中模态信息单一、识别精度低等问题,该研究提出了一种多模态小样本学习(multimodal few-shot learning, MMFSL)模型,并将其应用于低数据场景下的作物病害识别。首先,该模型在小样本学习图像分支中引入视觉Transformer(visual Transformer,ViT)替代传统卷积神经网络编码器,充分利用ViT全局感知特性增强小样本图像的特征提取能力;其次,设计了基于预训练语言模型的文本分支,将类标签嵌入手工设计的提示模板中,并提取模板中特定位置的隐藏向量作为文本嵌入,从而引导模型更精准地选择视觉特征;最后,构建图文对比模块对齐视觉嵌入与文本嵌入,并采用模型无关的元学习(model-agnostic meta-learning, MAML)算法优化网络参数,实现多模态信息的高效融合。试验结果表明,在5way-1shot设置下,MMFSL模型在PlantVillage数据集和自建大田病害数据集上的平均准确率分别为86.97%和56.78%;在5way-5shot设置下,模型在两种数据集上的平均准确率分别为96.33%和74.49%,均优于对比的小样本学习模型。此外,与单模态小样本学习模型相比,MMFSL模型在5way-1shot和5way-5shot设置下的平均准确率分别提升了2.77和0.80个百分点。研究表明,引入文本信息能够提高小样本学习模型的泛化性能,研究结果可为深度学习领域降低病害收集成本提供技术参考。 展开更多
关键词 病害 识别 小样本 多模态 视觉transformer 文本信息
在线阅读 下载PDF
基于Transformer的多模态个性化联邦学习 被引量:1
13
作者 曹行健 孙罡 虞红芳 《电子科技大学学报》 北大核心 2025年第2期242-249,共8页
在当前物联网飞速发展的背景下,处理来自各种信息采集设备的多模态数据,尤其是视觉、听觉信号和文本等多元感官信息的数据,对于机器学习落地应用至关重要。Transformer架构和其衍生的大模型在自然语言处理和计算机视觉中的卓越表现推动... 在当前物联网飞速发展的背景下,处理来自各种信息采集设备的多模态数据,尤其是视觉、听觉信号和文本等多元感官信息的数据,对于机器学习落地应用至关重要。Transformer架构和其衍生的大模型在自然语言处理和计算机视觉中的卓越表现推动了对复杂多模态数据处理能力的追求。然而,这也带来了数据隐私安全和满足个性化需求的挑战。为解决这些挑战,提出一种基于多模态Transformer的个性化联邦学习方法,它支持异构数据模态的联邦学习,在保护参与方数据隐私的前提下为其训练更符合其个性化需求的多模态模型。该方法显著提升了多模态个性化模型的性能:相较于对比方法,准确率提高了15%,这标志着多模态个性化联邦学习在应用场景限制上的突破。 展开更多
关键词 多模态 transformer 联邦学习 个性化
在线阅读 下载PDF
基于前置归一化Transformer的融合多模态行人过街意图预测模型
14
作者 陈振东 刘广聪 叶振宇 《计算机应用研究》 北大核心 2025年第5期1378-1384,共7页
预测行人的过街意图是自动驾驶系统中的行人与车辆交互重要环节之一,目的在于提前预测出道路两侧行人的过街行为,作出减速或避让的决策。为了能够提升识别行人过街意图的准确性,受到前置归一化注意力机制的启发,提出了一种基于前置归一... 预测行人的过街意图是自动驾驶系统中的行人与车辆交互重要环节之一,目的在于提前预测出道路两侧行人的过街行为,作出减速或避让的决策。为了能够提升识别行人过街意图的准确性,受到前置归一化注意力机制的启发,提出了一种基于前置归一化注意力机制的行人过街意图预测模型,对行人不同模态特征进行提取并互补融合。该模型使用单模态特征增强模块(UFE)对单一模态进行关键特征提取,随后使用多模态特征交互模块(MFI)进行不同模态之间的特征融合。实验证明,在PIE和JAAD数据集上的准确率均达到91%,并且对模态信息的不同融合策略进行了广泛的消融实验,证明了其有效性,为自动驾驶系统提供更准确的行人过街意图预测。 展开更多
关键词 行人过街 意图预测 多模态融合 transformer
在线阅读 下载PDF
融合图Transformer和Vina-GPU+的多模态虚拟筛选新方法
15
作者 张豪 张堃然 +2 位作者 阮晓东 沐勇 吴建盛 《南京大学学报(自然科学版)》 北大核心 2025年第1期83-93,共11页
现代药物发现面临对大规模化合物库进行虚拟筛选的挑战,提高分子对接的速度与精度是核心问题.AutoDock Vina是最受欢迎的分子对接工具之一,我们的Vina-GPU和Vina-GPU+方法在确保对接准确性的同时,分别实现了对AutoDock Vina最高50倍和6... 现代药物发现面临对大规模化合物库进行虚拟筛选的挑战,提高分子对接的速度与精度是核心问题.AutoDock Vina是最受欢迎的分子对接工具之一,我们的Vina-GPU和Vina-GPU+方法在确保对接准确性的同时,分别实现了对AutoDock Vina最高50倍和65.6倍的加速.近年来,大规模预训练模型在自然语言处理和计算机视觉领域取得了巨大成功,这种范式对解决虚拟筛选面临的重大挑战也具有巨大潜力.因此,提出一种多模态虚拟筛选新方法Vina-GPU GT,结合了Vina-GPU+分子对接技术和预训练的Graph Transformer(GT)模型,以实现快速精确的虚拟筛选.该方法包括三个连续步骤:(1)通过对已有分子属性预测的预训练GT模型进行知识蒸馏,学到一个小的SMILES Transformer(ST)模型;(2)通过ST模型推理化合物库中所有分子,并根据主动学习规则微调ST模型;(3)利用微调后的ST模型进行虚拟筛选.在三个重要靶点和两个化合物库上进行了虚拟筛选实验,并与两种虚拟筛选方法进行了比较,结果表明,Vina-GPU GT的虚拟筛选性能最优. 展开更多
关键词 虚拟筛选 Graph transformer Vina-GPU+ 多模态 知识蒸馏 主动学习
在线阅读 下载PDF
一种交互连接CNN和Transformer的肠道息肉图像分类网络
16
作者 曹博 叶淑芳 +3 位作者 饶钰君 汤晓恒 何熊熊 李胜 《小型微型计算机系统》 北大核心 2025年第4期932-939,共8页
利用内镜图像对结直肠息肉进行风险分类至关重要,能够提高临床诊断准确性并降低结直肠癌死亡率.然而,目前基于卷积神经网络(CNN)或视觉Transformer(ViT)的分类方法不能很好地区分类内尺度大和类间相似性高的息肉图像,针对息肉风险的分... 利用内镜图像对结直肠息肉进行风险分类至关重要,能够提高临床诊断准确性并降低结直肠癌死亡率.然而,目前基于卷积神经网络(CNN)或视觉Transformer(ViT)的分类方法不能很好地区分类内尺度大和类间相似性高的息肉图像,针对息肉风险的分类任务亟需改善.CNN中的卷积算子擅长提取局部特征.ViT通过级联自注意力模块可以捕获长距离依赖关系和全局特征.本文提出一个交互连接模块,以交互式的方式将CNN和ViT相连接,以整合多尺度特征;所设计的交互混合模型,能最大限度地保留局部特征和全局表示,显著缓解息肉多分类的类内差异性大、类间相似性高的问题;在大规模自然图像数据集中进行预训练;通过微调模型结构,使用预训练的交互混合模型参数初始化主干网络,并迁移至结直肠息肉数据集中再次训练,实现息肉多分类.在结直肠息肉私有数据集和Kvasir公共数据集上评估所提出模型,实验结果显示总体分类准确率分别达到了85.83%和96.84%,优于本文比较的其他算法;且引入迁移学习可以在降低训练成本的同时提升交互混合模型的分类性能和泛化性,在有限的训练数据集下有助于提高临床诊断效率. 展开更多
关键词 卷积神经网络(CNN) 视觉transformer(ViT) 结直肠息肉分类 多尺度特征 迁移学习
在线阅读 下载PDF
融合Transformer网络与卷积神经网络的稳态运动视觉诱发电位解码方法
17
作者 张焕卿 谢俊 +3 位作者 杨瀚林 杜方钊 金志伟 陈昱洁 《西安交通大学学报》 北大核心 2025年第5期44-53,共10页
针对卷积神经网络(CNN)在感受野有限、缺乏对全局信息的有效感知,以及在处理短时稳态运动视觉诱发电位(SSMVEP)信号时分类效果欠佳的问题,提出了一种紧凑EEGNet-Transformer(即EEGNetformer)网络。EEGNetformer网络融合了为脑电(EEG)信... 针对卷积神经网络(CNN)在感受野有限、缺乏对全局信息的有效感知,以及在处理短时稳态运动视觉诱发电位(SSMVEP)信号时分类效果欠佳的问题,提出了一种紧凑EEGNet-Transformer(即EEGNetformer)网络。EEGNetformer网络融合了为脑电(EEG)信号识别任务而设计的通用的卷积神经网络EEGNet网络和Transformer网络的优势,有效地捕捉与处理脑电信号中的局部和全局信息,增强网络对SSMVEP特征的学习,进而实现良好的解码性能。EEGNet网络用于提取SSMVEP的局部时间和空间特征,而Transformer网络用于捕捉脑电时间序列的全局信息。在基于SSMVEP-BCI范式采集的数据基础上,开展了实验以评估EEGNetformer网络的性能。实验结果显示,当在2 s SSMVEP数据条件下,EEGNetformer网络在基于被试者内情况的平均准确率为88.9%±6.6%,在基于跨被试者情况的平均准确率为69.1%±4.3%。与传统的CNN算法相比,EEGNetformer网络的分类性能提升了4.2%~17.4%。研究内容说明,EEGNetformer网络在有效提高SSMVEP-BCI识别准确率方面具有显著优势,为进一步提升SSMVEP-BCI解码性能提供了新的研究思路。 展开更多
关键词 稳态运动视觉诱发电位 EEGNet网络 transformer网络 EEGNetformer网络
在线阅读 下载PDF
Transformer和生成对抗网络相结合的图像修复
18
作者 林旭 王永雄 +3 位作者 陈俊帆 张凌樾 谢鑫宇 朱珺怡 《控制工程》 北大核心 2025年第7期1311-1319,共9页
现有图像修复模型无法高质量地修复大面积缺损的图像。针对此问题,提出了一种Transformer和生成对抗网络相结合的图像修复模型。首先,设计了一种新型掩码自适应输入模块,用于从输入图像中提取未被掩码遮蔽的图像块;其次,利用Transforme... 现有图像修复模型无法高质量地修复大面积缺损的图像。针对此问题,提出了一种Transformer和生成对抗网络相结合的图像修复模型。首先,设计了一种新型掩码自适应输入模块,用于从输入图像中提取未被掩码遮蔽的图像块;其次,利用Transformer从有效图像块中提取全局上下文信息,增强模型对缺损区域的补全能力;再次,使用快速傅里叶卷积(fast Fourier convolution,FFC)模块增强模型的细节修复能力,并消除输出图像中的伪影;最后,利用判别器网络对抗训练以提升整体网络的性能。利用所提模型对Place2数据集进行图像修复,测试结果表明:当掩码比例为50%~60%时,修复结果的峰值信噪比达到了19.7482 dB,结构相似性(structural similarity,SSIM)达到了0.7147。 展开更多
关键词 深度学习 图像修复 transformer 生成对抗网络 快速傅里叶卷积
在线阅读 下载PDF
多尺度特征融合的双阶段Transformer去雨网络
19
作者 李世平 周冬明 《小型微型计算机系统》 北大核心 2025年第4期898-906,共9页
图像去雨研究旨在提升图像质量,强化视觉感知.现有去雨算法由于通常采用单阶段实现,在去除雨纹干扰的同时会造成无雨背景的信息缺失,导致无法兼顾去雨效果和图像清晰度.为此,本文提出了一种基于Transformer的多尺度、双阶段U型去雨网络... 图像去雨研究旨在提升图像质量,强化视觉感知.现有去雨算法由于通常采用单阶段实现,在去除雨纹干扰的同时会造成无雨背景的信息缺失,导致无法兼顾去雨效果和图像清晰度.为此,本文提出了一种基于Transformer的多尺度、双阶段U型去雨网络,将去雨任务通过两个分别侧重于雨纹提取和细节修复的子网络逐步完成.第1阶段,引入反投射技术提出了一种特征融合模块,通过迭代逐渐融合不同尺度下的特征信息以弥补U型结构造成的信息缺失.同时,基于Boosting算法提出了一种增强连接的特征提取模块,以增强细节特征,提高输出信噪比.第2阶段,提出了一种细节增强注意力模块对粗糙去雨图像进行细节修复以生成轮廓清晰的无雨图像.实验结果表明,本文提出的算法在合成和真实数据集上都取得了出色的去雨效果,在Rain100H、SPA-data等数据集上相比近期其他优秀去雨算法均有一定程度的指标提升. 展开更多
关键词 图像去雨 transformer 多阶段网络 多尺度特征融合
在线阅读 下载PDF
基于Swin Transformer的生成对抗网络水下图像增强模型 被引量:1
20
作者 李慧 贾炳志 +4 位作者 王晨曦 董子宇 李纪龙 仲兆满 陈艳艳 《计算机应用》 北大核心 2025年第5期1439-1446,共8页
针对水下图像对比度低、噪声大和存在色彩偏差等问题,以生成对抗网络(GAN)为核心框架,提出一种基于Swin Transformer的生成对抗网络水下图像增强模型SwinGAN(GAN based on Swin Transformer)。首先,生成网络部分遵循编码器-瓶颈层-解码... 针对水下图像对比度低、噪声大和存在色彩偏差等问题,以生成对抗网络(GAN)为核心框架,提出一种基于Swin Transformer的生成对抗网络水下图像增强模型SwinGAN(GAN based on Swin Transformer)。首先,生成网络部分遵循编码器-瓶颈层-解码器的结构设计,在瓶颈层将输入的特征图分割成多个不重叠的局部窗口;其次,引入双路窗口多头自注意力机制(DWMSA),在加强捕获全局信息和长距离依赖关系的同时,增强局部注意力;最后,在解码器中将下采样后的特征图经过多个上采样窗口重新组合成原始尺寸的特征图,判别网络则采用马尔可夫判别器。实验结果表明,与URSCT-SESR模型相比,在UFO-120数据集上,SwinGAN的峰值信噪比(PSNR)提升了0.837 2 dB,结构相似度(SSIM)提高了0.003 6;在EUVP-515数据集上,SwinGAN的PSNR提升了0.843 9 dB,SSIM提高了0.005 1,水下图像质量评价指标(UIQM)增加了0.112 4,水下彩色图像质量评估指标(UCIQE)略有上升,增加了0.001 0。可见,SwinGAN的主观评价以及客观评价指标都表现出色,在改善水下图像的色彩偏差问题上取得了不错的效果。 展开更多
关键词 水下图像增强 Swin transformer 生成对抗网络 多头自注意力机制 马尔可夫判别器
在线阅读 下载PDF
上一页 1 2 107 下一页 到第
使用帮助 返回顶部