-
题名基于多特征融合的唇语识别模型
- 1
-
-
作者
张甜愉
吕博
周蓉
王琳
蒲梦杨
-
机构
华北电力大学控制与计算机工程学院
-
出处
《电子测量技术》
北大核心
2025年第12期166-175,共10页
-
基金
国家自然科学基金(62301220)项目资助。
-
文摘
在单词级唇语识别研究中,使用三维卷积神经网络与残差网络的主流模型往往难以捕捉唇运动的几何动态,并且对细节依赖性高。为了缓解该问题,本文提出了一种基于多特征融合的端到端单词级唇语识别模型,该模型集成了像素级纹理细节特征、几何级轮廓形状特征和词边界特征,实现了从时间和空间、像素级与几何级等多个维度的特征融合。其中,纹理细节特征提供精细化的局部信息;轮廓形状特征反应唇部几何结构及动态变化;词边界特征则引导模型关注有效时间帧。此外,本文将空间通道注意力机制整合到3D CNN和ResNet-18中以增强纹理细节特征提取,并利用全局上下文网络对时空图卷积网络进行改进后将其引入模型以捕捉几何级轮廓形状特征。实验表明,输入为灰度视频时,本文模型在公开的大规模单词级唇语识别数据集LRW上的准确率达到89.3%,相较于相同条件下单一或部分特征模型提升1.3%~3.9%,且高于大部分现有模型,验证了所提模型的有效性;同时,实验发现,使用彩色视频作为输入时,模型准确率进一步提高,为89.7%,验证了色彩信息对唇语识别的影响。
-
关键词
单词级唇语识别
多特征融合
像素级纹理细节特征
几何级轮廓形状特征
时空图卷积神经网络
-
Keywords
word-level lipreading
multi-feature fusion
texture detail features
geometric contour features
spatio-temporal graph convolutional neural network
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
TN911.73
[电子电信—通信与信息系统]
-