-
题名基于情感引导-扩散模型的藏族音乐生成网络
- 1
-
-
作者
宋子牛
彭春燕
王龙辉
郑钰辉
-
机构
青海师范大学计算机学院
青海师范大学藏语智能全国重点实验室
-
出处
《计算机应用研究》
北大核心
2025年第8期2283-2289,共7页
-
基金
国家自然科学基金资助项目(62441609,62262056)
青海省重点研发与成果转化项目(2022-GX-155)。
-
文摘
人工智能技术在音乐创作领域取得了显著进展,但针对藏族音乐自动生成的研究相对匮乏。现有研究在藏族音乐生成中主要面临三个挑战:缺乏特定情感的表达能力、高维特征处理效率低下,以及音乐上下文一致性不足。为解决上述问题,提出一种基于情感引导的扩散模型(emotion-driven diffusion model,EDDM)。该模型基于VAE-diffusion框架,利用变分自编码器提取音源数据关键潜在特征,并在扩散过程中对其进行建模。首先,设计情感特征编码器以提取音乐情感特征,并通过交叉注意力机制将情感特征嵌入到扩散模型中,实现藏族音乐特定情感和风格的精准表达;其次,引入token drop策略过滤冗余特征,提高音乐生成的鲁棒性和多样化;最后,提出self-conditioning机制增强上下文关联,利用上一步信息来指导下一步结果生成,确保音乐生成的一致性。实验结果表明,EDDM在藏族音乐生成任务上效果突出,在客观评价方面,模型在FAD(2.35↓)、JSD(0.08↓)、NDB(18↑)等指标上均优于现有方法;主观评价中,生成的音乐展现出良好的情感表达能力和音乐特征一致性。EDDM在民族音乐自动生成领域具有一定的创新性和应用价值。所生成的部分情感引导的藏族音乐公开在https://szn1998.github.io/。
-
关键词
藏族音乐生成
扩散模型
情感引导
token
drop
self-conditioning
-
Keywords
Tibetan music generation
diffusion model
emotion-driven
token drop
self-conditioning
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-