-
题名基于视觉变换网络的音乐流派自动分类
被引量:6
- 1
-
-
作者
董安明
刘宗银
禹继国
韩玉冰
周酉
-
机构
齐鲁工业大学大数据研究院
齐鲁工业大学数学与统计学院
齐鲁工业大学计算机科学与技术学院
山东海看新媒体研究院有限公司
-
出处
《计算机应用》
CSCD
北大核心
2022年第S01期54-58,共5页
-
基金
国家重点研发计划项目(2017YFB1400500)
山东省重点研发计划项目(2019JZZY020124)
+3 种基金
山东省自然科学基金资助项目(ZR2017BF012)
山东省高等学校青年创新团队发展计划(2019KJN010)
齐鲁工业大学(山东省科学院)计算机科学与技术学科基础研究加强计划项目(2021JC02014)
齐鲁工业大学(山东省科学院)计算机科学与技术学科人才培养提升计划项目(2021PY05001)。
-
文摘
随着网络音乐产业的快速发展,构筑音乐自动检索和分类系统的需求日益增加。利用计算机对音乐流派进行正确标注是实现音乐类型精准分类和保障音乐推荐系统性能的重要前提。针对卷积运算不具备提取全局表征的能力,深度卷积神经网络对音乐流派数据的全局建模能力较弱的问题,提出了一种基于视觉变换(ViT)神经网络的音乐流派自动分类方法。该方法对待分类的音频进行预处理后,利用短时傅里叶变换(STFT)转化为尺寸统一的语谱图切片,实现音乐频域特征的转换。为了避免训练过拟合,通过增加白噪声对语谱图切片集进行数据增强。然后利用所生成的语谱切片集及其增强后的数据集对所构建的ViT神经网络进行训练,从而实现音乐流派风格的自动分类。仿真结果表明,所构建的ViT网络在音乐流派分类公共数据集GTZAN上的测试识别准确率达到91.01%,比基于AlexNet、AlexNet-enhanced和VGG16等传统卷积神经网络(CNN)的音乐流派分类方法提升了1.00~5.00个百分点。
-
关键词
视觉变换网络
音乐流派
特征转换
语谱图
深度学习
数据增强
-
Keywords
vision transformer network
music genre
feature transform
spectrogram
deep learning
data enhancement
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—控制理论与控制工程]
J609.9
[艺术—音乐]
-
-
题名融合门控循环单元及自注意力机制的生成对抗语音增强
被引量:4
- 2
-
-
作者
张德辉
董安明
禹继国
赵恺
周酉
-
机构
齐鲁工业大学(山东省科学院)计算机科学与技术学院
齐鲁工业大学(山东省科学院)大数据研究院
中国科学院自动化研究所
山东海看新媒体研究院有限公司
-
出处
《计算机科学》
CSCD
北大核心
2023年第S02期350-358,共9页
-
基金
国家重点研发计划(2019YFB2102600)
国家自然科学基金(62272256)
+2 种基金
山东省科技型中小企业创新能力提升工程项目(2022TSGC2180,2022TSGC2123)
济南市“高校20条”自主培养创新团队(202228093)
齐鲁工业大学(山东省科学院)科教产融合试点工程项目(基础研究类)先导项目(2022XD001)。
-
文摘
因其通过两种网络对抗训练并不断提升网络映射能力的特性,生成对抗网络(Generative Adversarial Networks,GAN)具有强大的降噪能力,近年来被应用于语音增强领域。针对现有生成对抗网络语音增强方法未充分利用语音特征序列中的时间相关性和全局相关性这一不足,提出一种融合门控循环单元(Gated Recurrent Unit,GRU)和自注意力机制(self-attention)的语音增强GAN网络。该网络利用串联和并联两种方式构建了时间建模模块,可捕获语音特征序列的时间相关性和上下文信息。与基线算法相比,所设计的新型GAN网络语音质量听觉估计分数(PESQ)提高了4%,且在语音信号分段信噪比(SSNR)和短时客观可懂度(STOI)等多个客观评价指标上表现更优。该研究结果表明,融合语音特征序列中的时间相关性和全局相关性有助于提升GAN网络语音增强的性能。
-
关键词
语音增强
生成对抗网络
门控循环单元
自注意力机制
特征融合
-
Keywords
Speech enhancement
Generative adversarial network
Gated recurrent unit
Self-attention mechanism
Feature fusion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-