针对数字助听器中现存声源定位算法精确度低和算法复杂度高的问题,提出一种新的双耳声源定位算法.首先,采集到的双耳声源信号通过Gammatone滤波器分解为若干个子带信号,根据能量的大小对数据进行压缩.然后,利用头相关传递函数(head-rela...针对数字助听器中现存声源定位算法精确度低和算法复杂度高的问题,提出一种新的双耳声源定位算法.首先,采集到的双耳声源信号通过Gammatone滤波器分解为若干个子带信号,根据能量的大小对数据进行压缩.然后,利用头相关传递函数(head-related transfer function,HRTF)中包含的双耳线索,即双耳时间差、双耳声级差及耳间相关性,提取声源位置的特征.最后,声源的位置信息由高斯混合模型(Gaussian mixture model,GMM)分类器识别.实验结果表明,建议的算法具有高精确度、低复杂度及强鲁棒性.展开更多
三维(Three-dimension,3D)多媒体技术,尤其是和3D视频相比有所差距的3D音频技术受到了广泛的关注。当前三维音频技术研究可分为基于物理声场重建的多声道音频技术和基于感知的声音场景重建的多声道音频技术两大类。物理声场重建技术的...三维(Three-dimension,3D)多媒体技术,尤其是和3D视频相比有所差距的3D音频技术受到了广泛的关注。当前三维音频技术研究可分为基于物理声场重建的多声道音频技术和基于感知的声音场景重建的多声道音频技术两大类。物理声场重建技术的重要代表是基于球谐分解的声重放技术和波场合成技术(Wave field synthesis,WFS),基于感知的声音场景重建技术主要包括幅度平移技术(Amplitude panning,AP)和基于头相关传输函数的双耳重建技术(Head related transfer function,HRTF)。本文对上述4类三维音频技术及其对应的典型系统进行了介绍及对比分析,并对三维音频技术当前3大主要研究热点:空间听觉机制、三维音频压缩编码以及三维音频系统精简的现状与前沿技术进行了介绍。展开更多
空间听觉重建中,头相关传输函数(head-related transfer function,HRTF)庞大的数据量是影响虚拟声源合成效率的主要因素之一.为了减少HRTF的数据存储,提出一种局部线性嵌入(locally linear embedding,LLE)空间听觉重建方法.通过LLE对高...空间听觉重建中,头相关传输函数(head-related transfer function,HRTF)庞大的数据量是影响虚拟声源合成效率的主要因素之一.为了减少HRTF的数据存储,提出一种局部线性嵌入(locally linear embedding,LLE)空间听觉重建方法.通过LLE对高维HRTF数据进行降维,在低维数据空间提取与方位感知相关的特征,然后利用聚类算法进行分类,得到特征HRTF,而其余非特征HRTF则可以利用特征HRTF通过改进插值算法进行重构.与现有的主成分分析法(principal component analysis,PCA)相比,利用LLE降维后的数据保留了更多的感知信息,利用HRTF数据间的内在关系,对插值后的数据进行修正,可减少重建误差.仿真结果表明,该方法能够有效地减少HRTF的存储数据量,有利于提高虚拟声源的合成效率.展开更多
针对如何快速获取不同个体的头相关传输函数(Head-related transfer function,HRTF)(即个人化)这一关键问题,本文从生理结构的相似性和相关性出发,提出了一种基于主成分分析、多元线性回归的HRTF数据库匹配方法,并分别将匹配结果和由KE...针对如何快速获取不同个体的头相关传输函数(Head-related transfer function,HRTF)(即个人化)这一关键问题,本文从生理结构的相似性和相关性出发,提出了一种基于主成分分析、多元线性回归的HRTF数据库匹配方法,并分别将匹配结果和由KEMAR测量得到的数据用于实现双耳可听化,再进行主观听音实验。结果表明,利用数据库匹配得到的HRTF可以有效地提高声源定位精度和降低前后混淆率。展开更多
文摘针对数字助听器中现存声源定位算法精确度低和算法复杂度高的问题,提出一种新的双耳声源定位算法.首先,采集到的双耳声源信号通过Gammatone滤波器分解为若干个子带信号,根据能量的大小对数据进行压缩.然后,利用头相关传递函数(head-related transfer function,HRTF)中包含的双耳线索,即双耳时间差、双耳声级差及耳间相关性,提取声源位置的特征.最后,声源的位置信息由高斯混合模型(Gaussian mixture model,GMM)分类器识别.实验结果表明,建议的算法具有高精确度、低复杂度及强鲁棒性.
文摘三维(Three-dimension,3D)多媒体技术,尤其是和3D视频相比有所差距的3D音频技术受到了广泛的关注。当前三维音频技术研究可分为基于物理声场重建的多声道音频技术和基于感知的声音场景重建的多声道音频技术两大类。物理声场重建技术的重要代表是基于球谐分解的声重放技术和波场合成技术(Wave field synthesis,WFS),基于感知的声音场景重建技术主要包括幅度平移技术(Amplitude panning,AP)和基于头相关传输函数的双耳重建技术(Head related transfer function,HRTF)。本文对上述4类三维音频技术及其对应的典型系统进行了介绍及对比分析,并对三维音频技术当前3大主要研究热点:空间听觉机制、三维音频压缩编码以及三维音频系统精简的现状与前沿技术进行了介绍。
基金This work was supported by National Natural Science Foundation of China(No.1037 4031)and Natural Science Foundation of the South China University of Technology(No.123-E4050600).
文摘空间听觉重建中,头相关传输函数(head-related transfer function,HRTF)庞大的数据量是影响虚拟声源合成效率的主要因素之一.为了减少HRTF的数据存储,提出一种局部线性嵌入(locally linear embedding,LLE)空间听觉重建方法.通过LLE对高维HRTF数据进行降维,在低维数据空间提取与方位感知相关的特征,然后利用聚类算法进行分类,得到特征HRTF,而其余非特征HRTF则可以利用特征HRTF通过改进插值算法进行重构.与现有的主成分分析法(principal component analysis,PCA)相比,利用LLE降维后的数据保留了更多的感知信息,利用HRTF数据间的内在关系,对插值后的数据进行修正,可减少重建误差.仿真结果表明,该方法能够有效地减少HRTF的存储数据量,有利于提高虚拟声源的合成效率.
文摘针对如何快速获取不同个体的头相关传输函数(Head-related transfer function,HRTF)(即个人化)这一关键问题,本文从生理结构的相似性和相关性出发,提出了一种基于主成分分析、多元线性回归的HRTF数据库匹配方法,并分别将匹配结果和由KEMAR测量得到的数据用于实现双耳可听化,再进行主观听音实验。结果表明,利用数据库匹配得到的HRTF可以有效地提高声源定位精度和降低前后混淆率。