-
题名基于wav2vec预训练的样例关键词识别
被引量:5
- 1
-
-
作者
李昭奇
黎塔
-
机构
中国科学院声学研究所语言声学与内容理解重点实验室
中国科学院大学
-
出处
《计算机科学》
CSCD
北大核心
2022年第1期59-64,共6页
-
基金
国家重点研发计划(2020AAA0108002)。
-
文摘
样例关键词识别是将语音关键词片段与语音流中的片段匹配的任务。在低资源或零资源的情况下,样例关键词识别通常采用基于动态时间规正的方法。近年来,神经网络声学词嵌入已成为一种常用的样例关键词识别方法,但神经网络的方法受限于标注数据数量。使用wav2vec预训练可以减少神经网络对数据量的依赖,提升系统的性能。使用wav2vec模型提取的预训练特征直接替换梅尔频率倒谱系数特征后,在SwitchBoard语料库中提取的数据集上使双向长短时记忆网络的神经网络声学词嵌入系统的平均准确率提高了11.1%,等精度召回值提高了10.0%。将wav2vec特征与梅尔频率倒谱系数特征相融合以提取嵌入向量的方法进一步提高了系统的性能,与仅使用wav2vec的方法相比,融合方法的平均准确率提高了5.3%,等精度召回值提高了2.5%。
-
关键词
声学词嵌入
孤立词识别
wav2vec预训练
样例查询
语音片段查询
-
Keywords
Acoustic word embedding
Isolated word discrimination
wav2vec pretraining
Query-by-example
Spoken term detection
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-