-
题名针对口音识别中冗余特征及长尾效应的有效方法
- 1
-
-
作者
杨壮
颜永红
黄志华
-
机构
新疆大学计算机科学与技术学院信号检测与处理实验室
中国科学院声学研究所语言声学与内容理解重点实验室
-
出处
《应用声学》
CSCD
北大核心
2024年第3期498-504,共7页
-
基金
新疆维吾尔自治区自然科学基金面上项目(2022D01C59)
科技部重点研发项目(2018YFC0823402)。
-
文摘
口音识别是指在同一语种下识别不同的区域口音的过程。为了提高口音识别的准确率,采用了多种方法,取得了明显的效果。首先,为了解决声学特征中关键特征权重不突出的问题,引入了有效的注意力机制,并对多种注意力机制进行了比较和分析。通过模型自适应学习通道和空间维度的不同权重,提高了口音识别的性能。在Common Voice英语口音数据集上的实验结果表明,引入CBAM注意力模块是有效的,识别准确率相对提升了12.7%,精确度相对提升了17.9%,F1值相对提升了6.98%。之后,提出了一种树形分类方法来缓解数据集中的长尾效应,识别准确率最多相对提升了5.2%。受域对抗训练的启发,尝试通过对抗学习方法剔除口音特征中的冗余信息,使得准确率最多相对提升了3.4%,召回率最多相对提升了16.9%。
-
关键词
口音识别
注意力机制
树形分类
对抗学习
-
Keywords
Accent detection
Attention mechanism
Tree-Form classification
Adversarial learning
-
分类号
TN912.3
[电子电信—通信与信息系统]
-