-
题名基于端到端句子级别的中文唇语识别研究
被引量:6
- 1
-
-
作者
张晓冰
龚海刚
杨帆
戴锡笠
-
机构
电子科技大学计算机科学与工程学院
-
出处
《软件学报》
EI
CSCD
北大核心
2020年第6期1747-1760,共14页
-
基金
国家自然科学基金(61572113)。
-
文摘
近年来,随着深度学习的广泛应用,唇语识别技术也取得了快速的发展.与传统的方法不同,在基于深度学习的唇语识别模型中,通常包含使用神经网络对图像进行特征提取和特征理解两个部分.根据中文唇语识别的特点,将识别过程划分为两个阶段——图片到拼音(P2P)以及拼音到汉字(P2CC)的识别.分别设计两个不同子网络针对不同的识别过程,当两个子网络训练好后,再把它们放在一起进行端到端的整体架构优化.由于目前没有可用的中文唇语数据集,因此采用半自动化的方法从CCTV官网上收集了6个月20.95GB的中文唇语数据集CCTVDS,共包含14975个样本.此外,额外采集了269558条拼音汉字样本数据对拼音到汉字识别模块进行预训练.在CCTVDS数据集上的实验结果表明,所提出的ChLipNet可分别达到45.7%的句子识别准确率和58.5%的拼音序列识别准确率.此外,ChLipNet不仅可以加速训练、减少过拟合,并且能够克服汉语识别中的歧义模糊性.
-
关键词
中文唇语识别
深度学习
中文汉语言的特征
数据集采集及处理
端到端模型
-
Keywords
Chinese lip reading recognition
deep learning
characteristics of Chinese language
data collecting and preprocessing
end-to-end model
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-