期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于情感引导-扩散模型的藏族音乐生成网络
1
作者 宋子牛 彭春燕 +1 位作者 王龙辉 郑钰辉 《计算机应用研究》 北大核心 2025年第8期2283-2289,共7页
人工智能技术在音乐创作领域取得了显著进展,但针对藏族音乐自动生成的研究相对匮乏。现有研究在藏族音乐生成中主要面临三个挑战:缺乏特定情感的表达能力、高维特征处理效率低下,以及音乐上下文一致性不足。为解决上述问题,提出一种基... 人工智能技术在音乐创作领域取得了显著进展,但针对藏族音乐自动生成的研究相对匮乏。现有研究在藏族音乐生成中主要面临三个挑战:缺乏特定情感的表达能力、高维特征处理效率低下,以及音乐上下文一致性不足。为解决上述问题,提出一种基于情感引导的扩散模型(emotion-driven diffusion model,EDDM)。该模型基于VAE-diffusion框架,利用变分自编码器提取音源数据关键潜在特征,并在扩散过程中对其进行建模。首先,设计情感特征编码器以提取音乐情感特征,并通过交叉注意力机制将情感特征嵌入到扩散模型中,实现藏族音乐特定情感和风格的精准表达;其次,引入token drop策略过滤冗余特征,提高音乐生成的鲁棒性和多样化;最后,提出self-conditioning机制增强上下文关联,利用上一步信息来指导下一步结果生成,确保音乐生成的一致性。实验结果表明,EDDM在藏族音乐生成任务上效果突出,在客观评价方面,模型在FAD(2.35↓)、JSD(0.08↓)、NDB(18↑)等指标上均优于现有方法;主观评价中,生成的音乐展现出良好的情感表达能力和音乐特征一致性。EDDM在民族音乐自动生成领域具有一定的创新性和应用价值。所生成的部分情感引导的藏族音乐公开在https://szn1998.github.io/。 展开更多
关键词 藏族音乐生成 扩散模型 情感引导 token drop self-conditioning
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部