期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于发音特征的音视频说话人识别鲁棒性的研究 被引量:3
1
作者 陈雁翔 刘鸣 《电子学报》 EI CAS CSCD 北大核心 2010年第12期2920-2924,共5页
人类对语音的感知是多模态的,会同时受到听觉和视觉的影响.以语音及其视觉特征的融合为研究核心,依据发音机理中揭示的音视频之间非同步关联的深层次成因,采用多个发音特征的非同步关联,去描述表面上观察到的音视频之间的非同步,提出了... 人类对语音的感知是多模态的,会同时受到听觉和视觉的影响.以语音及其视觉特征的融合为研究核心,依据发音机理中揭示的音视频之间非同步关联的深层次成因,采用多个发音特征的非同步关联,去描述表面上观察到的音视频之间的非同步,提出了一个基于动态贝叶斯网络的语音与唇动联合模型,并通过音视频双模态的多层次融合,实现了说话人识别系统鲁棒性的提高.音视频双模态数据库上的实验表明了,在不同语音信噪比的条件下多层次融合均达到了更好的性能. 展开更多
关键词 发音特征 音视频 说话人识别 动态贝叶斯网络
在线阅读 下载PDF
智能环境中音视频双模态的身份辨识
2
作者 陈雁翔 刘鸣 《中国科学技术大学学报》 CAS CSCD 北大核心 2010年第5期486-490,共5页
首先描述了智能环境下一种基于语音和人脸图像的双模态的身份辨识系统;然后在基于语音的说话人辨识中采用改进的基于语音段的高斯混合模型,在基于人脸的身份辨识中利用K近邻法对整个视频序列而非单个静止图做判决;最后在评分层通过对双... 首先描述了智能环境下一种基于语音和人脸图像的双模态的身份辨识系统;然后在基于语音的说话人辨识中采用改进的基于语音段的高斯混合模型,在基于人脸的身份辨识中利用K近邻法对整个视频序列而非单个静止图做判决;最后在评分层通过对双模态输出的评分进行规整和加权组合实现融合.实验表明,音视频双模态融合能有效提高身份辨识系统的正确率. 展开更多
关键词 身份辨识 音视频 双模态融合 智能环境
在线阅读 下载PDF
梯度方向直方图在语谱图映射中的应用
3
作者 陈雁翔 刘鸣 《计算机工程与应用》 CSCD 北大核心 2011年第18期146-148,共3页
语谱图是显示时变频谱幅度特征的图形,基于梯度方向直方图建立语谱图之间的映射关系,找出它们对应的频率结构,为说话人规整及进一步的语音处理提供了途径。在提取特征参数之前,用梯度方向直方图描述语谱图中点的特征,进而实现两个说话... 语谱图是显示时变频谱幅度特征的图形,基于梯度方向直方图建立语谱图之间的映射关系,找出它们对应的频率结构,为说话人规整及进一步的语音处理提供了途径。在提取特征参数之前,用梯度方向直方图描述语谱图中点的特征,进而实现两个说话人的语谱图在频率轴上的非线性映射,其实质是在频率点相似性的条件下,运用动态规划准则的最佳匹配问题。在TIDIGITS数据库上的实验表明,该方法在训练集与测试集不匹配时能明显降低系统的误识率。 展开更多
关键词 梯度方向直方图 语谱图映射 说话人规整 动态规划
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部