期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于发音特征的音视频说话人识别鲁棒性的研究
被引量:
3
1
作者
陈雁翔
刘鸣
《电子学报》
EI
CAS
CSCD
北大核心
2010年第12期2920-2924,共5页
人类对语音的感知是多模态的,会同时受到听觉和视觉的影响.以语音及其视觉特征的融合为研究核心,依据发音机理中揭示的音视频之间非同步关联的深层次成因,采用多个发音特征的非同步关联,去描述表面上观察到的音视频之间的非同步,提出了...
人类对语音的感知是多模态的,会同时受到听觉和视觉的影响.以语音及其视觉特征的融合为研究核心,依据发音机理中揭示的音视频之间非同步关联的深层次成因,采用多个发音特征的非同步关联,去描述表面上观察到的音视频之间的非同步,提出了一个基于动态贝叶斯网络的语音与唇动联合模型,并通过音视频双模态的多层次融合,实现了说话人识别系统鲁棒性的提高.音视频双模态数据库上的实验表明了,在不同语音信噪比的条件下多层次融合均达到了更好的性能.
展开更多
关键词
发音特征
音视频
说话人识别
动态贝叶斯网络
在线阅读
下载PDF
职称材料
智能环境中音视频双模态的身份辨识
2
作者
陈雁翔
刘鸣
《中国科学技术大学学报》
CAS
CSCD
北大核心
2010年第5期486-490,共5页
首先描述了智能环境下一种基于语音和人脸图像的双模态的身份辨识系统;然后在基于语音的说话人辨识中采用改进的基于语音段的高斯混合模型,在基于人脸的身份辨识中利用K近邻法对整个视频序列而非单个静止图做判决;最后在评分层通过对双...
首先描述了智能环境下一种基于语音和人脸图像的双模态的身份辨识系统;然后在基于语音的说话人辨识中采用改进的基于语音段的高斯混合模型,在基于人脸的身份辨识中利用K近邻法对整个视频序列而非单个静止图做判决;最后在评分层通过对双模态输出的评分进行规整和加权组合实现融合.实验表明,音视频双模态融合能有效提高身份辨识系统的正确率.
展开更多
关键词
身份辨识
音视频
双模态融合
智能环境
在线阅读
下载PDF
职称材料
梯度方向直方图在语谱图映射中的应用
3
作者
陈雁翔
刘鸣
《计算机工程与应用》
CSCD
北大核心
2011年第18期146-148,共3页
语谱图是显示时变频谱幅度特征的图形,基于梯度方向直方图建立语谱图之间的映射关系,找出它们对应的频率结构,为说话人规整及进一步的语音处理提供了途径。在提取特征参数之前,用梯度方向直方图描述语谱图中点的特征,进而实现两个说话...
语谱图是显示时变频谱幅度特征的图形,基于梯度方向直方图建立语谱图之间的映射关系,找出它们对应的频率结构,为说话人规整及进一步的语音处理提供了途径。在提取特征参数之前,用梯度方向直方图描述语谱图中点的特征,进而实现两个说话人的语谱图在频率轴上的非线性映射,其实质是在频率点相似性的条件下,运用动态规划准则的最佳匹配问题。在TIDIGITS数据库上的实验表明,该方法在训练集与测试集不匹配时能明显降低系统的误识率。
展开更多
关键词
梯度方向直方图
语谱图映射
说话人规整
动态规划
在线阅读
下载PDF
职称材料
题名
基于发音特征的音视频说话人识别鲁棒性的研究
被引量:
3
1
作者
陈雁翔
刘鸣
机构
合肥工业
大学
计算机
与信息学院
伊利诺伊大学香槟分校电子计算机工程系
出处
《电子学报》
EI
CAS
CSCD
北大核心
2010年第12期2920-2924,共5页
基金
国家自然科学基金(No.60672120)
安徽省优秀青年科技基金(No.10040606Y09)
文摘
人类对语音的感知是多模态的,会同时受到听觉和视觉的影响.以语音及其视觉特征的融合为研究核心,依据发音机理中揭示的音视频之间非同步关联的深层次成因,采用多个发音特征的非同步关联,去描述表面上观察到的音视频之间的非同步,提出了一个基于动态贝叶斯网络的语音与唇动联合模型,并通过音视频双模态的多层次融合,实现了说话人识别系统鲁棒性的提高.音视频双模态数据库上的实验表明了,在不同语音信噪比的条件下多层次融合均达到了更好的性能.
关键词
发音特征
音视频
说话人识别
动态贝叶斯网络
Keywords
articulatory feature
audio-visual
speaker recognition
dynamic Bayesian network
分类号
TN912.34 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
智能环境中音视频双模态的身份辨识
2
作者
陈雁翔
刘鸣
机构
合肥工业
大学
计算机
与信息学院
伊利诺伊大学香槟分校电子计算机工程系
出处
《中国科学技术大学学报》
CAS
CSCD
北大核心
2010年第5期486-490,共5页
基金
国家自然科学基金(60672120)资助
文摘
首先描述了智能环境下一种基于语音和人脸图像的双模态的身份辨识系统;然后在基于语音的说话人辨识中采用改进的基于语音段的高斯混合模型,在基于人脸的身份辨识中利用K近邻法对整个视频序列而非单个静止图做判决;最后在评分层通过对双模态输出的评分进行规整和加权组合实现融合.实验表明,音视频双模态融合能有效提高身份辨识系统的正确率.
关键词
身份辨识
音视频
双模态融合
智能环境
Keywords
person identification
audio-visual
bimodal fusion
smart environment
分类号
TN912.34 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
梯度方向直方图在语谱图映射中的应用
3
作者
陈雁翔
刘鸣
机构
合肥工业
大学
计算机
与信息学院
伊利诺伊大学香槟分校电子计算机工程系
出处
《计算机工程与应用》
CSCD
北大核心
2011年第18期146-148,共3页
基金
国家重点基础研究发展规划(973)(No.2009CB326203)~~
文摘
语谱图是显示时变频谱幅度特征的图形,基于梯度方向直方图建立语谱图之间的映射关系,找出它们对应的频率结构,为说话人规整及进一步的语音处理提供了途径。在提取特征参数之前,用梯度方向直方图描述语谱图中点的特征,进而实现两个说话人的语谱图在频率轴上的非线性映射,其实质是在频率点相似性的条件下,运用动态规划准则的最佳匹配问题。在TIDIGITS数据库上的实验表明,该方法在训练集与测试集不匹配时能明显降低系统的误识率。
关键词
梯度方向直方图
语谱图映射
说话人规整
动态规划
Keywords
Gradient Orientation Histogram(GOH)
spectrogram correspondence
speaker normalization
dynamic programming
分类号
TN912.34 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于发音特征的音视频说话人识别鲁棒性的研究
陈雁翔
刘鸣
《电子学报》
EI
CAS
CSCD
北大核心
2010
3
在线阅读
下载PDF
职称材料
2
智能环境中音视频双模态的身份辨识
陈雁翔
刘鸣
《中国科学技术大学学报》
CAS
CSCD
北大核心
2010
0
在线阅读
下载PDF
职称材料
3
梯度方向直方图在语谱图映射中的应用
陈雁翔
刘鸣
《计算机工程与应用》
CSCD
北大核心
2011
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部