-
题名普通话发音错误自动检测技术
被引量:3
- 1
-
-
作者
张峰
黄超
戴礼荣
-
机构
中国科学技术大学电子工程与信息科学系科大讯飞语音实验室
微软亚洲研究院
-
出处
《中文信息学报》
CSCD
北大核心
2010年第2期110-115,共6页
-
文摘
统计语音识别框架是现在发音错误检测系统的主流框架,而声学模型则是统计语音识别的基础。该文一方面为了获得对于发音错误检测更好的声学模型,引入了说话人自适应训练(SAT)和选择性最大似然线性回归(SMLLR)技术;另一方面,由于字发音检错中存在严重的信息量不足问题和专家对于不同水平说话人的评价标注不一样,在后端上加入了话者得分归一化技术。在包含40个不同水平说话人的8 000个字的数据库上的实验结果表明,文中提出的方法有效的提高了系统性能,召回率为30%时,正确率从45.8%升到了53.6%,召回率为10%时,正确率从64.6%升到了79.9%。
-
关键词
计算机应用
中文信息处理
发音错误自动检错
说话人自适应训练
选择性最大似然线性回归
话者归
一化
-
Keywords
computer application
Chinese information processing
Automatic mispronunciation detection
Speaker Adaptive Training (SAT)
Selective Maximum Likelihood Linear Regression (SMLLR)
speaker normalization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名倒谱形状规整在噪声鲁棒性语音识别中的应用
被引量:2
- 2
-
-
作者
杜俊
戴礼荣
王仁华
-
机构
中国科学技术大学电子工程与信息科学系科大讯飞语音实验室
-
出处
《中文信息学报》
CSCD
北大核心
2010年第2期104-109,共6页
-
文摘
该文提出了一种新的用于鲁棒性语音识别的特征规整方法。我们观察到在噪声环境下语音特征分布的形状相比于干净环境变化很大,因此提出了一种称为倒谱形状规整的新方法,它是利用引入一个指数因子来达到对倒谱分布形状进行规整的目的。这种方法被证明在噪声环境下非常有效,特别是在低信噪比情况下。实验结果表明此新方法在au-rora2和aurora3两个标准数据库上比经典的均值方差规整算法在词错误率方面分别有38%和25%的相对降低,并且倒谱形状规整也好于其它传统方法,比如直方图均衡和高阶倒谱矩规整方法。
-
关键词
计算机应用
中文信息处理
鲁棒性语音识别
形状规整
-
Keywords
computer application
Chinese information processing
robust speech recognition
shape normalization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名话者识别中结合模型和能量的语音激活检测算法
被引量:1
- 3
-
-
作者
章钊
郭武
-
机构
中国科学技术大学电子工程与信息科学系科大讯飞语音实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2010年第9期1914-1917,共4页
-
基金
国家自然科学基金项目(60970161)资助
-
文摘
语音激活检测是检测语音起始终止端点的一种算法,合适地选择语音来进行说话人模型的注册和测试对话者识别系统的性能有很大影响.本文将基于能量的语音激活检测算法与基于模型的算法相结合来检测语音,在N IST2006核心测试数据集上,采用本文算法的系统相对于传统基于能量的方法性能最多有19%的提升.
-
关键词
语音激活检测
说话人识别
支持向量机
扰属性投影
-
Keywords
voice activity detection
speaker recognition
support vector machine
nuance attribute projection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语言学知识的发音质量评价算法改进
被引量:14
- 4
-
-
作者
刘庆升
魏思
胡郁
郭武
王仁华
-
机构
中国科学技术大学电子工程与信息科学系讯飞语音实验室
-
出处
《中文信息学报》
CSCD
北大核心
2007年第4期92-96,共5页
-
基金
国家语言文学应用"十五"重点科研项目资助(ZDI105-B02)
-
文摘
随着普通话推广工作的深入,采用计算机进行普通话的辅助测试和学习的需求日益迫切。本文针对普通话发音特点,提出了一种改进的基于音素的自动发音质量评价算法。新算法在隐马尔科夫模型的对数后验概率算法基础上,引入普通话发音的语言学知识。与改进前相比,新算法不仅降低了运算量,而且在普通话水平测试的303人现场录音库上,使得机器打分与国家级评测员打分之间的相关度从0.704提升到0.795。
-
关键词
计算机应用
中文信息处理
语音识别
发音质量评价
对数后验概率
语言学知识
-
Keywords
computer application
chinese information processing
speech recognition
pronunciation quality assessment
log posterior probability
linguistic knowledge
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于双层决策的新闻网页正文精确抽取
被引量:16
- 5
-
-
作者
胡国平
张巍
王仁华
-
机构
中国科学技术大学电子工程与信息科学系讯飞语音实验室
-
出处
《中文信息学报》
CSCD
北大核心
2006年第6期1-9,103,共10页
-
基金
国家自然科学基金资助项目(69975018)
-
文摘
本文提出了基于双层决策的新闻网页正文的精确抽取算法,双层决策是指对新闻网页正文所在区域的全局范围决策和对正文范围内每段文字是否确是正文的局部内容决策。首先根据实际应用的需要给出了新闻网页正文的严格界定,然后分析了新闻网页及其正文的特性,提出了基于双层决策的正文抽取策略,基于特征向量提取和决策树学习算法对上述双层决策进行了建模,并在国内10个主要新闻网站的1687个新闻页面上开展了模型训练和测试实验。实验结果表明,上述基于双层决策的方法能够精确地抽取出新闻网页的正文,最终正文抽取与人工标注不完全一致的网页比例仅为18.14%,比单纯局部正文内容决策的方法相对下降了29.85%,同时抽取误差率大于10%的网页比例更是仅为7.11%,满足了实际应用的需要。
-
关键词
计算机应用
中文信息处理
信息抽取
特征向量
决策树
正文抽取
-
Keywords
computer application
Chinese information processing
information extraction
feature vector
decision tree
content extraction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名采用主成分分析的特征映射
被引量:8
- 6
-
-
作者
郭武
戴礼荣
王仁华
-
机构
中国科学技术大学电子工程与信息科学系科大讯飞语音实验室
-
出处
《自动化学报》
EI
CSCD
北大核心
2008年第8期876-879,共4页
-
基金
国家高技术研究发展计划(863计划)(2006AA010104)
中国科学技术大学青年教师基金资助~~
-
文摘
在与文本无关的说话人识别研究中,特征映射的方法可以有效减少信道的影响.本文首先通过主成分分析的方法在模型域中估计出信道因子所在的空间,然后通过映射的方法在特征参数域中减去信道因子的影响.采用这种方法需要有信道信息标记的数据,但是在特征映射时不需要对信道进行判决.在NIST 2006年SRE lconv4w-lconv4w数据库上,采用本文推荐方法的系统相对基线系统在等错误率上降低了19%.
-
关键词
说话人确认
混合高斯模型
超矢量
梅尔刻度式倒谱参数
-
Keywords
Speaker verification, Gaussian mixture model (GMM), supervector, Mel frequency cepstral coefficients (MFCC)
-
分类号
TN912.3
[电子电信—通信与信息系统]
-
-
题名因子分析在基于GMM的自动语种识别中的应用
被引量:4
- 7
-
-
作者
付强
宋彦
戴礼荣
-
机构
中国科学技术大学电子工程与信息科学系科大讯飞语音实验室
-
出处
《中文信息学报》
CSCD
北大核心
2009年第4期77-81,共5页
-
文摘
在自动语种识别中,测试语音中说话人和信道的差异,会对系统性能产生很大的影响。针对于此,该文通过引入因子分析技术,根据语种识别的特点,建立了描述该差异(说话人差异和信道差异)的子空间的数学模型,并分别从特征域和模型域两个方面尝试消除该差异的影响。在最新的NIST LRE2007的测试任务中,相对于GMM-UBM基线系统,该文方法有效地提高了系统识别性能。在30s时长的测试中,等错误率(EER)相对降低36.5%。
-
关键词
计算机应用
中文信息处理
自动语种识别
高斯混合模型
因子分析
-
Keywords
computer application
Chinese information processing
language identification
GMM model
factor analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名采用支持向量机的说话者确认中的样本平衡
被引量:1
- 8
-
-
作者
龙艳花
郭武
戴礼荣
-
机构
中国科学技术大学电子工程与信息科学系科大讯飞语音实验室
-
出处
《中文信息学报》
CSCD
北大核心
2008年第3期99-104,共6页
-
文摘
支持向量机在与文本无关的话者确认系统中已经取得了广泛的应用,但是在实际应用系统中获得的目标说话人样本与冒认者样本数量比一般在几千分之一,因此存在很严重的样本非平衡问题,冒认者样本选择的好坏直接影响到整个系统的性能。本文提出了两种挑选冒认者样本的方法。实验证明这些方法能有效地解决上述问题,性能比随机挑选冒认者样本的方法有了提升,经过在2004年NIST说话人识别数据库上进行测试,等错误率由9.3%降低到6.8%,错误率相对下降了26.9%。
-
关键词
计算机应用
中文信息处理
支持向量机
冒认者
-
Keywords
computer application
Chinese information processing
support vector machine
speaker verification
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名一种基于层次化支持向量机的语种识别方法
被引量:2
- 9
-
-
作者
雷文辉
宋彦
戴礼荣
-
机构
中国科学技术大学电子工程与信息科学系讯飞语音实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2009年第4期721-725,共5页
-
文摘
基于广义线性区分性序列核的支持向量机方法在语种识别中了得到了广泛应用.本文此基础上,进一步提出了一种层次化的SVM方法,通过将训练语音切分成不同时长的语音段集合,利用长时语音段训练得到的模型对短时语音段集合进行数据选择.同时借鉴互训练的思想,采用互补的特征参数训练SVM模型,并对不同时长、特征的系统识别结果加以融合,有效提高了系统性能.在NIST2003语种测试中30秒时长的测试结果表明,本文所提方法有效的提升了语种识别的性能,等错误率(EER)从6.3降到了4.5%.
-
关键词
语种识别
支持向量机
广义线性区分性序列核
互训练
-
Keywords
language identification
support vector maehine
GLDS kernel
co-training
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名采用模型和得分非监督自适应的说话人识别
被引量:1
- 10
-
-
作者
王尔玉
郭武
李轶杰
戴礼荣
王仁华
-
机构
中国科学技术大学电子工程与信息科学系科大讯飞语音实验室
-
出处
《自动化学报》
EI
CSCD
北大核心
2009年第3期267-271,共5页
-
基金
国家高技术研究发展计划(863计划)(2006AA010104)资助~~
-
文摘
在说话人识别的研究中,使用以前的测试语句信息对模型参数或者测试得分进行动态更新,使模型可以更精确地反映测试语句和说话人模型之间的关系,这种更新策略称为非监督模式,这方面的研究对实际的说话人识别系统具有非常重要的意义.本文除了采用非监督的说话人模型自适应更新方法之外,还提出了非监督的得分域自适应算法:首先采用双高斯函数对得分建立一个先验的得分模型,利用最大后验概率准则对得分规整的模型进行调整.在测试过程中,采用得分域和模型域的非监督算法可以互相补充,提高识别率,在NISTSRE2006年1训练语段-1测试语段数据库上,使用模型域和得分域非监督自适应的系统能够取得等错误率4.3%和检测代价函数0.021的结果.
-
关键词
说话人确认
混合高斯模型
非监督模式
得分规整
-
Keywords
Speaker verification, Gaussian mixture model (GMM), unsupervised mode, score normalization
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于区分性准则的模型结构优化方法
被引量:1
- 11
-
-
作者
鄢志杰
胡郁
王仁华
-
机构
中国科学技术大学电子工程与信息科学系讯飞语音实验室
-
出处
《中文信息学报》
CSCD
北大核心
2008年第2期99-105,共7页
-
基金
国家自然科学基金资助项目(69975018)
-
文摘
本文提出了一种基于区分性准则的模型结构优化方法,用以调整HMM自动语音识别系统中声学模型各状态混合高斯核成分数量的分配。通过优化选定的准则,声学模型可以在使用相同参数数量的情况下得到更好的识别性能,也可以在保持相当性能的前提下降低所需要的模型参数。相对于传统的基于似然度及复杂度惩罚的模型结构优化准则来讲,基于区分性准则的优化方法能够更直接地提高模型的区分度和鉴别力,从而得到更好的识别效果。在一个面向嵌入式系统的中文连续数字串识别任务上的实验结果证明,基于最大互信息量准则的模型结构优化能够得到比传统的、基于模型似然度及复杂度的方法更好的识别效果。
-
关键词
计算机应用
中文信息处理
自动语音识别
声学模型
模型结构优化
-
Keywords
computer application
Chinese information processing
automatic speech recognition
acoustic modeling
model topology optimization
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名一种结构受限的异方差线性判别分析
- 12
-
-
作者
陈思宝
胡郁
王仁华
-
机构
中国科学技术大学电子工程与信息科学系讯飞语音实验室
-
出处
《中文信息学报》
CSCD
北大核心
2008年第4期94-99,共6页
-
基金
国家863计划资助项目(2004AA114030)
-
文摘
异方差线性判别分析(HLDA)因在语音识别中起到了巨大的特征去相关作用而被广泛利用。然而在训练数据不足或特征维数较高时,HLDA易出现不稳定性和小样本问题。根据特征的矩阵表示形式,提出了一种结构受限的HLDA。首先用二维线性判别分析(2DLDA)压缩矩阵形式的特征,然后作一维的HLDA。通过分析我们指出,二维的特征变换实际上是一种结构受限的一维特征变换。在RM库上的实验,受限HLDA对常规HLDA的词识别错误相对下降12.39%;在TIMIT库上的实验,受限HLDA对常规HLDA的音素识别错误相对下降4.43%。
-
关键词
计算机应用
中文信息处理
语音识别
特征变换
HLDA
结构受限
-
Keywords
computer application
Chinese information processing
speech recognition
feature transformation
HLDA
structure-specific
-
分类号
TN912.34
[电子电信—通信与信息系统]
-