-
题名基于自监督预训练模型和NWCE的口吃语音分类
- 1
-
-
作者
殷志鹏
徐新洲
-
机构
南京邮电大学物联网学院
-
出处
《中北大学学报(自然科学版)》
2025年第1期19-26,共8页
-
基金
中国博士后科学基金面上项目(2022M711693)
国家自然科学基金面上项目(62071242,62172235)
南京邮电大学校级自然科学基金(NY222158)。
-
文摘
口吃语音分类旨在利用语音信号对不同口吃类别进行分类识别,而现有相关研究没有充分考虑自监督预训练模型表示嵌入的时序特性,且只简单地表征了口吃语音数据的类别不平衡性。为此,本文提出一种基于自监督预训练模型和非线性加权交叉熵(NWCE)损失的口吃语音分类方法。该方法首先利用自监督预训练模型提取副语言表示嵌入,然后通过带自注意力机制的双向长短期记忆网络模型,捕捉嵌入中显著的时序特征和上下文信息,最后利用非线性加权交叉熵损失来关注样本较少的口吃语音类别。在口吃语音分类数据集上的实验结果表明,本文方法通过学习语音中自监督预训练模型多层表示嵌入的时序信息,并且通过NWCE充分描述了各口吃类别数据间的关系,取得了比现有方法更好的口吃语音分类性能。
-
关键词
计算副语言
口吃语音分类
自监督预训练模型
非线性加权交叉熵损失
-
Keywords
computational paralinguistics
stuttering speech classification
self-supervised pre-trained model
nonlinear weighted cross-entropy loss
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-