-
题名基于多特征融合的唇语识别模型
- 1
-
-
作者
张甜愉
吕博
周蓉
王琳
蒲梦杨
-
机构
华北电力大学控制与计算机工程学院
-
出处
《电子测量技术》
北大核心
2025年第12期166-175,共10页
-
基金
国家自然科学基金(62301220)项目资助。
-
文摘
在单词级唇语识别研究中,使用三维卷积神经网络与残差网络的主流模型往往难以捕捉唇运动的几何动态,并且对细节依赖性高。为了缓解该问题,本文提出了一种基于多特征融合的端到端单词级唇语识别模型,该模型集成了像素级纹理细节特征、几何级轮廓形状特征和词边界特征,实现了从时间和空间、像素级与几何级等多个维度的特征融合。其中,纹理细节特征提供精细化的局部信息;轮廓形状特征反应唇部几何结构及动态变化;词边界特征则引导模型关注有效时间帧。此外,本文将空间通道注意力机制整合到3D CNN和ResNet-18中以增强纹理细节特征提取,并利用全局上下文网络对时空图卷积网络进行改进后将其引入模型以捕捉几何级轮廓形状特征。实验表明,输入为灰度视频时,本文模型在公开的大规模单词级唇语识别数据集LRW上的准确率达到89.3%,相较于相同条件下单一或部分特征模型提升1.3%~3.9%,且高于大部分现有模型,验证了所提模型的有效性;同时,实验发现,使用彩色视频作为输入时,模型准确率进一步提高,为89.7%,验证了色彩信息对唇语识别的影响。
-
关键词
单词级唇语识别
多特征融合
像素级纹理细节特征
几何级轮廓形状特征
时空图卷积神经网络
-
Keywords
word-level lipreading
multi-feature fusion
texture detail features
geometric contour features
spatio-temporal graph convolutional neural network
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
TN911.73
[电子电信—通信与信息系统]
-
-
题名数字图像的分数阶微分掩模及其数值运算规则
被引量:71
- 2
-
-
作者
蒲亦非
王卫星
-
机构
电子科技大学电子工程学院
-
出处
《自动化学报》
EI
CSCD
北大核心
2007年第11期1128-1135,共8页
-
基金
中国博士后科学基金(20060401016)
法中科学与应用基金(FFCSA)资助~~
-
文摘
研究目的是提出并论述数字图像的分数阶微分掩模及其数值运算规则.首先,从信号处理角度论述了数字图像分数阶微分掩模的特性.其次,详细论述了在x轴负、x轴正、y轴负、y轴正、左下对角线、左上对角线、右下对角线、右上对角线8个相互中心对称的数字图像n×n分数阶微分掩模的构造.最后,论述了数字图像分数阶微分掩模的数值运算规则.计算机数值实验结果表明,对于纹理细节信息丰富的图像信号而言,分数阶微分对灰度变化不大的平滑区域中的纹理细节信息的提取效果明显优于整数阶微分运算.
-
关键词
分数阶微积分
分数阶偏微分
分数阶梯度向量
模板卷积
纹理细节特征
-
Keywords
Fractional calculus, partial fractional differential, fractional gradient vector, template convolution, texture characteristics
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-