期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
GCTR:粒度统一的跨模态文本行人检索网络模型
1
作者 覃晓 张金勇 +4 位作者 龚远旭 吴琨生 黄豪杰 淳鑫 元昌安 《广西科学》 北大核心 2024年第5期988-1001,共14页
现有的文本行人检索网络模型在检索任务中缺乏对图文语义联系的关注,且容易忽略文本与图像特征之间的粒度差异,针对这两大问题,本研究提出一种粒度统一的跨模态文本行人检索网络模型(Granularity-unified Cross-modal Text-person Retri... 现有的文本行人检索网络模型在检索任务中缺乏对图文语义联系的关注,且容易忽略文本与图像特征之间的粒度差异,针对这两大问题,本研究提出一种粒度统一的跨模态文本行人检索网络模型(Granularity-unified Cross-modal Text-person Retrieval model, GCTR)。首先,GCTR利用具备跨模态迁移知识能力的视觉语言预训练模型来获取具有基础关联性的文本和图像特征;其次,本研究提出一个跨模态粒度特征增强模块(Cross-Model Feature Enhancement module, CMFE),它利用跨模态特征增强码表(Enhanced Cross-modal Feature Codebook, ECFC)获取具有统一粒度的图像文本特征,解决了图文特征粒度差异的问题;最后,结合局部和全局的匹配损失策略完成模型的训练。GCTR在CUHK-PEDES、ICFG-PEDES和RSTPReid 3个公开数据集上的表现均优于现有的主流模型,证明了GCTR在跨模态文本行人检索任务上的优越性。 展开更多
关键词 跨模态检索 图文检索 行人检索 视觉语言预训练 粒度特征增强
在线阅读 下载PDF
MSViT:融合多尺度特征的轻量化图像分类混合模型
2
作者 覃晓 彭磊 +6 位作者 廖惠仙 元昌安 赵剑波 邓超 钱泉梅 卢虹妃 龚远旭 《广西科学》 北大核心 2024年第5期912-924,共13页
针对现有Vision Transformer (ViT)模型在局部特征捕捉和多尺度特征融合方面的局限性,本文提出一种新型的融合多尺度特征的轻量化图像分类混合模型(Multi-Scale Vision Transformer, MSViT)。首先,在编码器中设计捕获通道特征的多尺度... 针对现有Vision Transformer (ViT)模型在局部特征捕捉和多尺度特征融合方面的局限性,本文提出一种新型的融合多尺度特征的轻量化图像分类混合模型(Multi-Scale Vision Transformer, MSViT)。首先,在编码器中设计捕获通道特征的多尺度前馈神经网络(Multi-Scale Feed Forward Network, MSFFN)模块,该模块能有效提取空间和多尺度通道特征。其次,设计一个新的级联特征融合解码器(Cascade Feature Fusion Decoder, CFFD),通过整合特征金字塔网络(Feature Pyramid Network, FPN)和多阶段特征融合解码器,显著提升模型对不同尺度特征的交互和融合能力。最后,模型引入多阶损失函数,以全面优化不同尺度特征在图像分类任务中的表现。为了验证MSViT的有效性,在4个实验数据集[ImageNet-1k的1个子集(Small_ImageNet)、Cifar 100、糖尿病视网膜病变数据集(APTOS 2019)、蘑菇数据集(Mushroom 66)]上进行大量的实验。其中在Small_ImageNet数据集上的实验结果显示,MSViT实现了87.58%的Top-1准确率,较EdgeViT-XXS提升了2.27%。实验结果证明了MSViT在图像分类任务中的有效性。 展开更多
关键词 图像分类 多尺度特征融合 多阶损失函数 特征金字塔网络(FPN) TRANSFORMER
在线阅读 下载PDF
一种基于人体姿态的新型中国交警手势识别网络
3
作者 覃晓 李永玉 +3 位作者 吴琨生 元昌安 谭思靖 刘善锐 《广西科学》 北大核心 2024年第5期1011-1024,共14页
交警手势识别对于自动驾驶技术至关重要,现有的基于人体姿态的交警手势识别方法在骨架特征提取中存在特征不完整、鲁棒性不足等问题;时序特征提取存在动态信息丢失、时序依赖性弱、实时性差等问题,其效果也极易受到环境背景的影响。本... 交警手势识别对于自动驾驶技术至关重要,现有的基于人体姿态的交警手势识别方法在骨架特征提取中存在特征不完整、鲁棒性不足等问题;时序特征提取存在动态信息丢失、时序依赖性弱、实时性差等问题,其效果也极易受到环境背景的影响。本研究提出一种基于人体姿态的新型交警手势识别网络(Pose Long Short-Term Memory, PoseLSTM)。PoseLSTM中的关节组合编码器(Compositional Tokens Multi-layer perceptron Mixer, CTMM)能够捕捉身体各关节间的关联特征,并通过依赖建模来转换这些关节信息,形成多部位特征表示,解决了基于长短期记忆(Long Short-Term Memory, LSTM)的算法无法有效提取骨架特征的问题;此外,PoseLSTM中的混合架构注意力LSTM (Attention LSTM),能更好地融合输入与隐藏状态的信息,其效果优于原始LSTM。实验结果表明,PoseLSTM在开源的中国交警手势数据集上的准确率为100.00%,实现了最优。为了证明PoseLSTM的泛化能力,在开放手语数据集LSA64、WLASL-100和CSL-500上进行实验,其准确率分别达到100.00%、59.69%和96.40%。 展开更多
关键词 交警手势识别 注意力机制 LSTM 关节组合
在线阅读 下载PDF
基于多尺度特征提取的密集型小目标检测网络
4
作者 元昌安 王文姬 +10 位作者 黄豪杰 覃正优 张金勇 廖惠仙 覃晓 李小森 李永玉 符云琴 谭思婧 钱泉梅 吴琨生 《广西科学》 北大核心 2024年第5期939-953,共15页
针对现有的无锚框目标检测算法难以在密集场景下有效提取多尺度目标特征的问题,本研究提出基于多尺度特征提取的密集型小目标检测网络(Intensive small target detection network based on Multi-Scale feature Extraction, IMSE)。本... 针对现有的无锚框目标检测算法难以在密集场景下有效提取多尺度目标特征的问题,本研究提出基于多尺度特征提取的密集型小目标检测网络(Intensive small target detection network based on Multi-Scale feature Extraction, IMSE)。本研究首先提出多尺度特征增强(Multi-scale Feature Enhancement, MFE)模块,其包括窗口注意力(Window Attention, WA)模块和多尺度信息融合(Multi-scale Information Fusion, MIF)模块,通过建立全局级别的上下文联系从而增强IMSE在密集场景下的特征表达,进而能够更有效地提取检测目标的多尺度特征;其次提出可变形卷积特征金字塔网络(Deformable Convolutional Feature Pyramid Networks, DCFPN)结构,引入空洞卷积进行特征增强,从而能够有效提高IMSE检测形状不规则、分布无规律物体的能力;最后将融合后的多尺度特征分别输入检测头进行分类与边界框的回归任务。IMSE在公共数据集MS COCO、CARPK与基于实际生产场景构建的WOOD数据集上进行验证,实验结果表明,IMSE在3个数据集上的平均精度(Average Precision, AP)分别达到了49.4%、75.8%和55.0%,分别比原始FCOS方法高出1.8%、1.4%和2.1%,验证了所提出模型的有效性。 展开更多
关键词 目标检测 自注意力机制 特征金字塔 空洞卷积 可变形卷积
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部