-
题名面向图像分类的视觉Transformer研究进展
被引量:14
- 1
-
-
作者
彭斌
白静
李文静
郑虎
马向宇
-
机构
北方民族大学计算机科学与工程学院
图像图形智能信息处理国家民委重点实验室
-
出处
《计算机科学与探索》
CSCD
北大核心
2024年第2期320-344,共25页
-
基金
国家自然科学基金(62162001,61762003)
宁夏自然科学基金(2022AAC02041)
宁夏优秀人才支持计划。
-
文摘
Transformer是一种基于自注意力机制的深度学习模型,在计算机视觉中展现出巨大的潜力。而在图像分类任务中,关键的挑战是高效而准确地捕捉输入图片的局部和全局特征。传统方法使用卷积神经网络的底层提取其局部特征,并通过卷积层堆叠扩大感受野以获取图像的全局特征。但这种策略在相对短的距离内聚合信息,难以建立长期依赖关系。相比之下,Transformer的自注意力机制通过直接比较特征在所有空间位置上的相关性,捕捉了局部和全局的长距离依赖关系,具备更强的全局建模能力。因此,深入探讨Transformer在图像分类任务中的问题是非常有必要的。首先以Vision Transformer为例,详细介绍了Transformer的核心原理和架构。然后以图像分类任务为切入点,围绕与视觉Transformer研究中的性能提升、计算成本和训练优化相关的三个重要方面,总结了视觉Transformer研究中的关键问题和最新进展。此外,总结了Transformer在医学图像、遥感图像和农业图像等多个特定领域的应用情况。这些领域中的应用展示了Transformer的多功能性和通用性。最后,通过综合分析视觉Transformer在图像分类方面的研究进展,对视觉Transformer的未来发展方向进行了展望。
-
关键词
深度学习
视觉Transformer
网络架构
图像分类
自注意力机制
-
Keywords
deep learning
Vision Transformer
network structure
image classification
self-attention mechanism
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名自调节图卷积UNet的三维人体姿态估计方法
- 2
-
-
作者
马金林
崔琦磊
马自萍
武江涛
曹浩杰
-
机构
北方民族大学计算机科学与工程学院
图像图形智能信息处理国家民委重点实验室
北方民族大学数学与信息科学学院
-
出处
《北京航空航天大学学报》
北大核心
2025年第1期63-74,共12页
-
基金
国家自然科学基金(62462001)
宁夏自然科学基金(2024AAC03147,2023AAC03264)
中央高校基本科研业务费专项资金(2023ZRLG02)。
-
文摘
基于图卷积网络的三维人体姿态估计方法无法提取关节点的多尺度特征和未充分利用相邻节点的拓扑关系问题,提出自调节图卷积UNet的三维人体姿态估计方法M-Joint-UNet。M-Joint-UNet方法由Joint-UNet、自调节图卷积和融合损失3部分组成:Joint-UNet通过关节点池化与去池化改变特征图大小,以提取关节点的不同尺度特征;自调节图卷积通过可学习矩阵自动调节相邻节点或人体骨架结构的关系;使用L_(1)和L_(2)融合的损失缓解梯度爆炸。对比实验表明:所提方法在参数量和估计性能方面均获得了最优的结果,以Human3.6M的二维真实关节点作为输入的参数量仅为0.54×10^(6),MPJPE和P-MPJPE值分别为37.81 mm和30.21 mm。
-
关键词
三维人体姿态估计
图卷积
Graph-UNet
关节点池化
权重矩阵
-
Keywords
3D human pose estimation
graph convolution
Graph-UNet
joint pool
weight matrix
-
分类号
V19
[航空宇航科学与技术—人机与环境工程]
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名预加权调制密集图卷积网络三维人体姿态估计
被引量:4
- 3
-
-
作者
马金林
崔琦磊
马自萍
闫琦
曹浩杰
武江涛
-
机构
北方民族大学计算机科学与工程学院
图像图形智能信息处理国家民委重点实验室
北方民族大学数学与信息科学学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2024年第4期963-977,共15页
-
基金
北方民族大学中央高校基本科研业务费专项(2021KJCX09,FWNX21)
宁夏自然科学基金(2022AAC03268,2020AAC3215)。
-
文摘
图卷积网络(GCN)日益成为三维人体姿态估计(3D HPE)的主要研究热点之一,使用GCN对人体关节点之间的关系建模的方法使三维人体姿态估计获得了良好的性能。然而,基于GCN的三维人体姿态估计方法存在过平滑和未区分关节点与相邻关节点重要性的问题。为解决这些问题,设计了调制密集连接模块(MDC)和预加权图卷积模块,并基于这两个模块提出了预加权调制密集图卷积网络的三维人体姿态估计方法(WMDGCN)。针对过平滑问题,调制密集连接通过超参数α和β更好地实现特征重用(超参数α表示第l层和之前各层总特征的权重比例,超参数β表示之前各层特征到第l层的传播策略),从而有效地提高特征的表达能力。针对未区分关节点与相邻关节点重要性的问题,使用预加权图卷积为当前关节点赋予更高的权重,并对当前关节点及其相邻关节点使用不同的权重矩阵,更有效地捕获人体关节点特征。Human3.6M数据集上的对比实验结果表明,该方法在参数量和性能上均取得了最佳性能,WMDGCN的参数量、MPJPE和P-MPJPE值分别为0.27 MB、37.46 mm和28.85 mm。
-
关键词
三维人体姿态估计
图卷积网络
预加权
-
Keywords
3D human pose estimation
graph convolution network
pre-weighted
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名MSDFTR:多阶段双分支融合的西夏文字识别方法
- 4
-
-
作者
马金林
闫琦
马自萍
-
机构
北方民族大学计算机科学与工程学院
北方民族大学图像图形智能信息处理国家民委重点实验室
北方民族大学数学与信息科学学院
-
出处
《计算机工程与设计》
北大核心
2024年第11期3390-3396,共7页
-
基金
北方民族大学中央高校基本科研业务费专项基金项目(2021KJCX09)
宁夏自然科学基金项目(2023AAC03264、2022AAC03268)
国家民委图像与智能信息处理创新团队开放课题基金项目(2022KF01)。
-
文摘
针对因字形复杂和图片质量不高导致的西夏文字识别准确率不佳的问题,提出一种多阶段双分支西夏文字识别方法MSDFTR。提出一种关注通道特征的CSA注意力机制与关注空间特征的SDA注意力机制,采用CSA与SDA分别构建提取西夏文字通道特征和空间特征的逆残差瓶颈模块。使用多阶段特征提取方式分阶段捕捉图像中的有效特征,增强特征重用和特征表达能力。为增强模型鲁棒性与可解释性,基于通道和空间特征提出一种双分支网络结构。使用密集Transformer块深入融合多层特征。实验结果表明,MSDFTR在TCD-E数据集上的准确率达99.43%,比其它方法更高。
-
关键词
西夏文字识别
多阶段
特征融合
深度学习
逆残差块
通道特征
空间特征
-
Keywords
Tangut character recognition
multi-stage
feature fusion
deep learning
inverted residual bottleneck
channel features
spatial features
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名西夏文字的多层掩码识别方法
- 5
-
-
作者
马金林
闫琦
马自萍
-
机构
北方民族大学计算机科学与工程学院
图像图形智能信息处理国家民委重点实验室
北方民族大学数学与信息科学学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2024年第12期2227-2238,共12页
-
基金
国家自然科学基金(62462001)
宁夏自然科学基金(2023AAC03264)
+1 种基金
北方民族大学中央高校基本科研业务费专项资金资助(2023ZRLG02)
宁夏高等学校科学研究项目(NYG2024066)。
-
文摘
针对现有方法对模糊、残缺西夏文字识别能力较差的问题,提出西夏文字识别模型MMSFTR。首先,提出多层掩码学习策略,分层次提取字符关键特征,帮助模型更有效地理解西夏文字内部结构,提高对复杂西夏文字的特征描述能力。其次,设计多尺度特征融合模块,以提取更丰富的多尺度特征。然后,提出通道自适应注意力模块,更好地选择和关注特定通道的信息,并设计掩码注意力模块改善模型感知能力。最后,设计特征增强模块,对网络进行多层次特征优化,并进行深层次特征增强。MMSFTR通过4个模块的协同作业,使得模型达到了预期效果。实验结果显示:MMSFTR在TCD-E数据集上达到99.40%的识别准确率,有效提升了对模糊、残缺西夏文字的识别效果。
-
关键词
西夏文字识别
多尺度特征融合
掩码学习
逆残差块
-
Keywords
Tangut character recognition
multi-scale feature fusion
mask learning
inverse residual block
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名新型冠状病毒肺炎的深度学习诊断方法综述
被引量:2
- 6
-
-
作者
马金林
裘硕
马自萍
陈勇
-
机构
北方民族大学计算机科学与工程学院
图像图形智能信息处理国家民委重点实验室
北方民族大学数学与信息科学学院
宁夏医科大学总医院放射介入科
-
出处
《计算机工程与应用》
CSCD
北大核心
2022年第12期51-65,共15页
-
基金
北方民族大学中央高校基本科研业务费专项(2021KJCX09,FWNX21)
宁夏自然科学基金(2020AAC3215)
北方民族大学“计算机视觉与虚拟现实”创新团队。
-
文摘
新型冠状病毒肺炎的高感染率导致其在全球范围内迅速传播,常用的逆转录-聚合酶反应(RT-PCR)检测方法存在耗时、假阴性率偏高和医学用具不足的缺陷,因此开发高效、准确、低成本的影像检测技术对新型冠状病毒肺炎的诊断和治疗至关重要。随着人工智能在医学领域的成功应用,深度学习技术成为辅助检验和识别新型冠状病毒肺炎的有效方法。对近年来涌现的新型冠状病毒肺炎的深度学习诊断方法进行了研究和总结:介绍了深度学习方法使用的两种新型冠状病毒肺炎数据集;介绍了基于VGGNet、Inception、ResNet、DenseNet、EfficientNet和CapsNet模型的六种深度学习诊断方法;介绍了三种深度学习与其他机器学习方法结合的诊断方法;对基于深度学习的新型冠状病毒肺炎诊断方法的研究趋势进行了展望。
-
关键词
新型冠状病毒肺炎
深度学习
X射线
CT
轻量化
-
Keywords
COVID-19
deep learning
X-ray
CT
lightweight
-
分类号
R563.1
[医药卫生—呼吸系统]
-
-
题名唇语识别的深度学习方法综述
被引量:6
- 7
-
-
作者
马金林
朱艳彬
马自萍
巩元文
陈德光
刘宇灏
-
机构
北方民族大学计算机科学与工程学院
图像图形智能信息处理国家民委重点实验室
北方民族大学数学与信息科学学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2021年第24期61-73,共13页
-
基金
北方民族大学中央高校基本科研业务费专项(2021KJCX09,FWNX21,ZDZX201801)
宁夏自然科学基金(2020AAC03215)
+1 种基金
北方民族大学“计算机视觉与虚拟现实”创新团队项目
国家自然科学基金(61462002)。
-
文摘
随着深度学习的不断发展,唇语识别领域的研究取得了重大进展,涌现了许多唇语识别的深度学习算法。依据识别对象的连续性,将唇语识别分为孤立唇语识别和连续唇语识别,并对各识别任务的深度学习方法进行了详细和深入的分析总结。从孤立唇语识别的深度学习方法和连续唇语识别的深度方法两个方面介绍了主流唇语识别方法,并对各方法的优缺点和性能进行比较;对不同数据集下代表性方法的特点和性能进行比较,对两类方法的优缺点和适用范围进行阐述;讨论了唇语识别方法存在的问题和挑战,并对唇语识别方法的研究趋势进行了展望。
-
关键词
唇语识别
深度学习
卷积神经网络
注意力机制
-
Keywords
lip recognition
deep learning
convolutional neural networks
attentional mechanisms
-
分类号
TP389.1
[自动化与计算机技术—计算机系统结构]
-
-
题名HSKDLR:同类自知识蒸馏的轻量化唇语识别方法
被引量:2
- 8
-
-
作者
马金林
刘宇灏
马自萍
巩元文
朱艳彬
-
机构
北方民族大学计算机科学与工程学院
图像图形智能信息处理国家民委重点实验室
北方民族大学数学与信息科学学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2023年第11期2689-2702,共14页
-
基金
宁夏自然科学基金(2022AAC03268,2020AAC3215)
北方民族大学中央高校基本科研业务费专项(2021KJCX09,FWNX21)
北方民族大学“计算机视觉与虚拟现实”创新团队项目。
-
文摘
针对唇语识别模型的识别率较低和计算量较大的问题,提出一种同类自知识蒸馏的轻量化唇语识别模型(HSKDLR)。首先,提出关注唇部图像空间特征的S-SE注意力模块,用其构建提取唇部图像通道特征和空间特征的i-Ghost Bottleneck模块,以提升唇语识别模型的准确率;其次,基于i-Ghost Bottleneck构建唇语识别模型,该模型通过优化瓶颈结构的组合方式降低模型计算量;然后,为提升模型准确率,减少模型运行时间,提出同类自知识蒸馏(HSKD)的模型训练方法;最后,使用同类自知识蒸馏方法训练唇语识别模型,并检验其识别性能。实验结果表明:与其他方法相比,HSKDLR具有更高的识别准确率和更低的计算量,在LRW数据集上的准确率达87.3%,浮点数运算量低至2.564 GFLOPs,参数量低至3.8723×107;同类自知识蒸馏可被应用于大多数唇语识别模型,帮助其有效提升识别准确率,减少训练时间。
-
关键词
唇语识别
轻量化
知识蒸馏
自知识
Ghost
Bottleneck
-
Keywords
lip reading
lightweight
knowledge distillation
self-knowledge
Ghost Bottleneck
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-