在基于短时傅里叶变换(short-time Fourier transform,STFT)的智能音乐生成系统中,引入梅尔倒谱系数(Mel frequency cepstrum coefficient,MFCC)作为输入特征,并对STFT的损失函数进行优化设计,以提升音乐生成的质量。在对音符输入信号...在基于短时傅里叶变换(short-time Fourier transform,STFT)的智能音乐生成系统中,引入梅尔倒谱系数(Mel frequency cepstrum coefficient,MFCC)作为输入特征,并对STFT的损失函数进行优化设计,以提升音乐生成的质量。在对音符输入信号进行短时傅里叶变换时,需要对时域信号进行截断并添加窗函数,对信号添加时域窗等效于在频域信号中进行卷积。时域信号在截断过程中存在频谱分析误差,使得频谱以实际频率值为中心,以窗函数频谱波形的形状向两侧扩散,从而产生频谱泄漏。不同窗函数的选择对最终生成音乐的品质具有显著影响。为此,提出一种基于能量校正因子、频域最大副瓣和主瓣增益的窗函数分析与选择方法,并开发相应脚本工具,从而完成基于符号域音乐的混合窗函数设计。实验结果表明,混合窗函数在不同的MIDI(musical instrument digital interface)数据集上均可有效减少频谱泄漏对信号截断的影响,具有很好的适应性和灵活性,从而更好地作用于基于STFT的智能音乐生成系统中。展开更多
针对现有情感分类模型在深层情感理解上的局限性、传统注意力机制的单向性束缚以及自然语言处理(NLP)中的类别不平衡等问题,提出一种融合多尺度BERT(Bidirectional Encoder Representations from Transformers)特征和双向交叉注意力机...针对现有情感分类模型在深层情感理解上的局限性、传统注意力机制的单向性束缚以及自然语言处理(NLP)中的类别不平衡等问题,提出一种融合多尺度BERT(Bidirectional Encoder Representations from Transformers)特征和双向交叉注意力机制的情感分类模型M-BCA(Multi-scale BERT features with Bidirectional Cross Attention)。首先,从BERT的低层、中层和高层分别提取多尺度特征,以捕捉句子文本的表面信息、语法信息和深层语义信息;其次,利用三通道门控循环单元(GRU)进一步提取深层语义特征,从而增强模型对文本的理解能力;最后,为促进不同尺度特征之间的交互与学习,引入双向交叉注意力机制,从而增强多尺度特征之间的相互作用。此外,针对不平衡数据问题,设计数据增强策略,并采用混合损失函数优化模型对少数类别样本的学习。实验结果表明,在细粒度情感分类任务中,M-BCA表现优异。M-BCA在处理分布不平衡的多分类情感数据集时,它的性能显著优于大多数基线模型。此外,M-BCA在少数类别样本的分类任务中表现突出,尤其是在NLPCC 2014与Online_Shopping_10_Cats数据集上,MBCA的少数类别的Macro-Recall领先其他所有对比模型。可见,该模型在细粒度情感分类任务中取得了显著的性能提升,并适用于处理不平衡数据集。展开更多
文摘在基于短时傅里叶变换(short-time Fourier transform,STFT)的智能音乐生成系统中,引入梅尔倒谱系数(Mel frequency cepstrum coefficient,MFCC)作为输入特征,并对STFT的损失函数进行优化设计,以提升音乐生成的质量。在对音符输入信号进行短时傅里叶变换时,需要对时域信号进行截断并添加窗函数,对信号添加时域窗等效于在频域信号中进行卷积。时域信号在截断过程中存在频谱分析误差,使得频谱以实际频率值为中心,以窗函数频谱波形的形状向两侧扩散,从而产生频谱泄漏。不同窗函数的选择对最终生成音乐的品质具有显著影响。为此,提出一种基于能量校正因子、频域最大副瓣和主瓣增益的窗函数分析与选择方法,并开发相应脚本工具,从而完成基于符号域音乐的混合窗函数设计。实验结果表明,混合窗函数在不同的MIDI(musical instrument digital interface)数据集上均可有效减少频谱泄漏对信号截断的影响,具有很好的适应性和灵活性,从而更好地作用于基于STFT的智能音乐生成系统中。
文摘针对现有情感分类模型在深层情感理解上的局限性、传统注意力机制的单向性束缚以及自然语言处理(NLP)中的类别不平衡等问题,提出一种融合多尺度BERT(Bidirectional Encoder Representations from Transformers)特征和双向交叉注意力机制的情感分类模型M-BCA(Multi-scale BERT features with Bidirectional Cross Attention)。首先,从BERT的低层、中层和高层分别提取多尺度特征,以捕捉句子文本的表面信息、语法信息和深层语义信息;其次,利用三通道门控循环单元(GRU)进一步提取深层语义特征,从而增强模型对文本的理解能力;最后,为促进不同尺度特征之间的交互与学习,引入双向交叉注意力机制,从而增强多尺度特征之间的相互作用。此外,针对不平衡数据问题,设计数据增强策略,并采用混合损失函数优化模型对少数类别样本的学习。实验结果表明,在细粒度情感分类任务中,M-BCA表现优异。M-BCA在处理分布不平衡的多分类情感数据集时,它的性能显著优于大多数基线模型。此外,M-BCA在少数类别样本的分类任务中表现突出,尤其是在NLPCC 2014与Online_Shopping_10_Cats数据集上,MBCA的少数类别的Macro-Recall领先其他所有对比模型。可见,该模型在细粒度情感分类任务中取得了显著的性能提升,并适用于处理不平衡数据集。