在基于短时傅里叶变换(short-time Fourier transform,STFT)的智能音乐生成系统中,引入梅尔倒谱系数(Mel frequency cepstrum coefficient,MFCC)作为输入特征,并对STFT的损失函数进行优化设计,以提升音乐生成的质量。在对音符输入信号...在基于短时傅里叶变换(short-time Fourier transform,STFT)的智能音乐生成系统中,引入梅尔倒谱系数(Mel frequency cepstrum coefficient,MFCC)作为输入特征,并对STFT的损失函数进行优化设计,以提升音乐生成的质量。在对音符输入信号进行短时傅里叶变换时,需要对时域信号进行截断并添加窗函数,对信号添加时域窗等效于在频域信号中进行卷积。时域信号在截断过程中存在频谱分析误差,使得频谱以实际频率值为中心,以窗函数频谱波形的形状向两侧扩散,从而产生频谱泄漏。不同窗函数的选择对最终生成音乐的品质具有显著影响。为此,提出一种基于能量校正因子、频域最大副瓣和主瓣增益的窗函数分析与选择方法,并开发相应脚本工具,从而完成基于符号域音乐的混合窗函数设计。实验结果表明,混合窗函数在不同的MIDI(musical instrument digital interface)数据集上均可有效减少频谱泄漏对信号截断的影响,具有很好的适应性和灵活性,从而更好地作用于基于STFT的智能音乐生成系统中。展开更多
文摘在基于短时傅里叶变换(short-time Fourier transform,STFT)的智能音乐生成系统中,引入梅尔倒谱系数(Mel frequency cepstrum coefficient,MFCC)作为输入特征,并对STFT的损失函数进行优化设计,以提升音乐生成的质量。在对音符输入信号进行短时傅里叶变换时,需要对时域信号进行截断并添加窗函数,对信号添加时域窗等效于在频域信号中进行卷积。时域信号在截断过程中存在频谱分析误差,使得频谱以实际频率值为中心,以窗函数频谱波形的形状向两侧扩散,从而产生频谱泄漏。不同窗函数的选择对最终生成音乐的品质具有显著影响。为此,提出一种基于能量校正因子、频域最大副瓣和主瓣增益的窗函数分析与选择方法,并开发相应脚本工具,从而完成基于符号域音乐的混合窗函数设计。实验结果表明,混合窗函数在不同的MIDI(musical instrument digital interface)数据集上均可有效减少频谱泄漏对信号截断的影响,具有很好的适应性和灵活性,从而更好地作用于基于STFT的智能音乐生成系统中。