-
题名多尺度门控时空增强的唇语识别方法
- 1
-
-
作者
马金林
郭兆伟
马自萍
吕鑫
-
机构
北方民族大学计算机科学与工程学院
-
出处
《计算机辅助设计与图形学学报》
2025年第7期1228-1238,共11页
-
基金
国家自然科学基金(62462001)
宁夏自然科学基金(2024AAC03147)
中央高校基本科研业务费专项资金(2023ZRLG02).
-
文摘
针对唇语识别模型中的普通卷积对唇部形变缺乏鲁棒性和不能有效地提取时间信息的问题,提出时空增强与多尺度时间卷积网络(MSTCN)结合的唇语识别方法.首先设计沙漏型卷积块(FCB),增强网络对唇部形变的鲁棒性;然后使用门控时移融合(GSF)模块提高前端网络的时间信息提取能力;再基于FCB和GSF设计混合3D和2D卷积的时空增强网络STABNet;最后将STABNet作为前端网络,MSTCN作为后端网络,设计唇语识别模型.在LRW数据集上的实验结果表明,与基线模型相比,所提方法的准确率提升4.15个百分点,达到89.45%,而模型的参数量仅增加3.17M.在GRID数据集上准确率达到97.45%,超过大部分对比模型.
-
关键词
唇语识别
多尺度时间卷积网络
时空增强
门控时移融合模块
-
Keywords
lip recognition
multi-scale temporal convolution network
spatio-temporal enhancement
gate-shift-fuse module
-
分类号
TP391
[自动化与计算机技术]
-