为了改善基于卷积编解码架构的单通道语音增强网络对语音声学特征提取不充分、解码特征丢失严重的问题,提出一种基于多路信息聚合协同解码的单通道语音增强网络MIACD,通过双路编码器充分提取融入了语音自监督学习(SSL)表征的幅度谱和复...为了改善基于卷积编解码架构的单通道语音增强网络对语音声学特征提取不充分、解码特征丢失严重的问题,提出一种基于多路信息聚合协同解码的单通道语音增强网络MIACD,通过双路编码器充分提取融入了语音自监督学习(SSL)表征的幅度谱和复数谱特征,由4层Conformer分别从时间和频率维度对提取特征建模,采用残差连接将双路编码器提取的语音幅度、复数特征引入三路信息聚合解码器,并利用所提通道-时频注意力(CTF-Attention)机制根据语音能量分布情况调节解码器中聚合信息,有效缓解解码时可用声学信息缺失严重的问题。在公开数据集Voice Bank DEMAND上的实验结果表明,与用于单通道语音增强的协作学习框架(GaGNet)相比,MIACD在客观评价指标宽带感知评估语音质量(WB-PESQ)上提升了5.1%,短时客观可懂度(STOI)达到96.7%,验证所提方法可充分利用语音信息重构信号,有效抑制噪声并提升语音可理解性。展开更多
针对在复杂场景下,聚合通道特征(ACF)的行人检测算法存在检测精度较低、误检率较高的问题,提出一种结合纹理和轮廓特征的多通道行人检测算法。算法由训练分类器和检测两部分组成。在训练阶段,首先提取ACF特征、局部二值模式(LBP)纹理特...针对在复杂场景下,聚合通道特征(ACF)的行人检测算法存在检测精度较低、误检率较高的问题,提出一种结合纹理和轮廓特征的多通道行人检测算法。算法由训练分类器和检测两部分组成。在训练阶段,首先提取ACF特征、局部二值模式(LBP)纹理特征和ST(Sketch Tokens)轮廓特征,然后对提取的三类特征均采用Real Ada Boost分类器进行训练;在检测阶段,应用了级联检测的思想,初期使用ACF分类器处理所有实例,保留下来的少数实例应用复杂的LBP及ST分类器进行逐次筛选。实验采用INRIA数据集对算法进行仿真,该算法的平均对数漏检率为13.32%,与ACF算法相比平均对数漏检率降低了3.73个百分点。实验结果表明LBP特征与ST特征能有对ACF特征进行信息互补,从而在复杂场景下去掉部分误判,提高了行人检测的精度,同时应用级联检测保证了多特征算法的计算效率。展开更多
文摘为了改善基于卷积编解码架构的单通道语音增强网络对语音声学特征提取不充分、解码特征丢失严重的问题,提出一种基于多路信息聚合协同解码的单通道语音增强网络MIACD,通过双路编码器充分提取融入了语音自监督学习(SSL)表征的幅度谱和复数谱特征,由4层Conformer分别从时间和频率维度对提取特征建模,采用残差连接将双路编码器提取的语音幅度、复数特征引入三路信息聚合解码器,并利用所提通道-时频注意力(CTF-Attention)机制根据语音能量分布情况调节解码器中聚合信息,有效缓解解码时可用声学信息缺失严重的问题。在公开数据集Voice Bank DEMAND上的实验结果表明,与用于单通道语音增强的协作学习框架(GaGNet)相比,MIACD在客观评价指标宽带感知评估语音质量(WB-PESQ)上提升了5.1%,短时客观可懂度(STOI)达到96.7%,验证所提方法可充分利用语音信息重构信号,有效抑制噪声并提升语音可理解性。
文摘针对在复杂场景下,聚合通道特征(ACF)的行人检测算法存在检测精度较低、误检率较高的问题,提出一种结合纹理和轮廓特征的多通道行人检测算法。算法由训练分类器和检测两部分组成。在训练阶段,首先提取ACF特征、局部二值模式(LBP)纹理特征和ST(Sketch Tokens)轮廓特征,然后对提取的三类特征均采用Real Ada Boost分类器进行训练;在检测阶段,应用了级联检测的思想,初期使用ACF分类器处理所有实例,保留下来的少数实例应用复杂的LBP及ST分类器进行逐次筛选。实验采用INRIA数据集对算法进行仿真,该算法的平均对数漏检率为13.32%,与ACF算法相比平均对数漏检率降低了3.73个百分点。实验结果表明LBP特征与ST特征能有对ACF特征进行信息互补,从而在复杂场景下去掉部分误判,提高了行人检测的精度,同时应用级联检测保证了多特征算法的计算效率。