-
题名基于K-L距离的两步固定音频检索方法
被引量:8
- 1
-
-
作者
齐晓倩
陈鸿昶
黄海
-
机构
解放军信息工程大学信息工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第19期160-162,共3页
-
基金
国家"863"计划基金资助项目(2008AA011002)
-
文摘
根据音频文件数据量大、数据间存在一定相关性的特点,提出一种基于K-L距离的两步固定音频检索方法。该方法采用基于可变门限的直方图检索方法快速筛选出相似度较高的语音文件,利用特征矩阵的K-L距离对剩余语音进行精确比较,取得较好的效果。实验结果证明,该方法能使检索准确率达到90%左右。
-
关键词
固定音频检索
过零率
直方图
美尔频率倒谱系数
K-L距离
-
Keywords
specific audio retrieval
Zero Crossing Rate(ZCR)
histogram
Mel Frequency Cepstral Coefficient(MFCC)
K-L distance
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于HMM与SVM的语音活动检测
被引量:10
- 2
-
-
作者
肖佳林
赵聿晴
王英
-
机构
湖南大学信息科学与工程学院
-
出处
《计算机工程》
CAS
CSCD
2014年第1期203-208,共6页
-
文摘
工程机械强噪音环境下的噪声源较多,导致电话语音通话无法进行,且强噪声造成无效数据占用带宽。为此,提出基于隐马尔科夫模型(HMM)和支持向量机(SVM)的语音活动检测算法。该算法将提取的美尔频率倒谱系数特征向量输入到HMM识别器中,并通过Viterbi算法得到N维最佳识别结果,将其转换为SVM特征向量输入到SVM分类器中进行分类判别,得到判决结果。实验结果表明,该算法在机械工作噪音的情况下,语音检测率较静态统计类算法平均提高9%,比小波支持向量机方法提高11%,在驾驶室噪音的情况下比小波SVM方法有较小幅度的提高,但其增长速度较快,且比传统的统计类算法提高9%。
-
关键词
美尔频率倒谱系数
隐马尔科夫模型
支持向量机
语音活动检测
核函数
-
Keywords
Mel Frequency Cepstrum Coefficient(MFCC)
Hidden Markov ModeI(HMM)
Support Vector Machine(SVM)
VoiceActivity Detection(VAD)
kernel function
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于DSP和FPGA的机器人声控系统设计与实现
被引量:7
- 3
-
-
作者
刘京诚
高海英
廖志勇
-
机构
重庆大学光电工程学院
-
出处
《现代电子技术》
2006年第14期109-112,共4页
-
文摘
介绍了一种基于DSP和FPGA的机器人声控系统。在语音采集上,将DSP芯片TMS320C5509和音频芯片TLV320AIC23相结合进行语音的采集。在软件开发上,开发环境采用CCS 3.1,语音特征向量采用美尔频率倒谱系数,模式匹配和训练采用隐马尔可夫模型,实现了语音指令的识别。在动作控制上,采用FPGA作为机器人头部动作逻辑控制器,使机器人能够根据非特定人的语音命令做出规定的头部动作。
-
关键词
语音识别
DSP
FPGA
机器人
美尔频率倒谱系数
隐马尔可夫模型
-
Keywords
speech recognition
DSP
FPGA
robot
Mel frequency cepstrum coeficient
hidden Markov model
-
分类号
TP242
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名MFCC中DCT结构的设计与实现
被引量:3
- 4
-
-
作者
孔维功
张国杰
张效军
-
机构
解放军信息工程大学信息工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第5期265-267,共3页
-
基金
国家"863"计划基金资助项目(2006AA01Z425)
-
文摘
根据MFCC中DCT的特点,设计一种基于DA算法的实现结构,采用先分解ROM再偏移二进制编码的方法对DA算法进行优化,将ROM表的大小由2~N减小到(N/K)2^(K-1)。通过仿真与FPGA测试,验证了该设计的正确性,能够满足说话人识别中MFCC参数提取的实时性要求和精度要求。
-
关键词
说话人识别
美尔频率倒谱系数
离散余弦变换
分布式算法
-
Keywords
speaker recognition
Mel-Frequency Cepstral Coefficients(MFCC)
discrete cosine transform
distributed arithmetic
-
分类号
TP311.12
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于信息融合的短语音说话人识别方法研究
被引量:3
- 5
-
-
作者
周萍
唐李珍
-
机构
桂林电子科技大学电子工程与自动化学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第2期169-171,共3页
-
基金
广西壮族自治区教育厅科研基金资助项目(200808MS008)
-
文摘
针对短训练语音的说话人识别系统,提出一种基于决策层融合的识别算法。识别时运用经验模式分解法对语音信号进行处理,对获取的固有模态函数分量提取语音特征序列,分别进行匹配,通过决策层融合算法,将所得的匹配结果与传统独立识别结果相结合,最终输出识别结果。利用信号分解的方法,实现待测语音信号的重复识别,同时采用决策层融合算法优化识别结果,从而在短训练语音情况下,使系统的识别率得到保障。实验结果表明,该算法在短训练语音识别系统中的识别效果优于传统方法。
-
关键词
短语音
说话人识别
美尔频率倒谱系数
经验模式分解
决策层融合
-
Keywords
little speech data
speaker recognition
Mel Frequency Cepstrum Coefficient(MFCC)
Empirical Mode Decomposition(EMD)
decision level fusion
-
分类号
TN912.3
[电子电信—通信与信息系统]
-
-
题名基于DSP的高速实时语音识别系统的设计与实现
被引量:4
- 6
-
-
作者
李邵梅
陈鸿昶
王凯
-
机构
国家数字交换系统工程技术研究中心
-
出处
《现代电子技术》
2007年第15期109-111,共3页
-
基金
国家自然科学基金(60372038)
-
文摘
识别正确率和抗噪性能固然是语音识别的研究重点,但是识别响应速度也是决定系统实用化的关键所在。以TMS320C6713为核心构建硬件平台,通过采用高效C语言和线性汇编混合编程的方式,结合硬件特点,对代码进行了优化,实现了以美尔频率倒谱系数为特征参数,采用动态时间弯折算法的高速语音实时识别系统,识别速率达0.29倍实时,可实现多路语音的并行识别。
-
关键词
多路实时语音识别
数字信号处理器
美尔频率倒谱系数
动态时间弯折
-
Keywords
multi - channel real - time speech recognition
digital signal processor
Mel frequency cepstrum coefficients
dynamic time warping
-
分类号
TP29
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名基于MFCC和HMM的腭裂语音辅音省略识别算法
被引量:6
- 7
-
-
作者
袁亚南
何凌
龚晓峰
尹恒
李杨
-
机构
四川大学电气信息学院
四川大学华西口腔医院
-
出处
《计算机工程与设计》
CSCD
北大核心
2014年第2期615-619,共5页
-
基金
国家自然科学基金青年基金项目(30900391)
-
文摘
为了弥补国内外在腭裂语音辅音发音错误识别方面的漏缺,以及为临床腭裂语音类型的诊断提供一种非主观的辅助措施,提出了一种基于语音识别系统的腭裂语音辅音省略识别算法。对腭裂语音辅音发音错误特点进行了语谱图上的能量研究,建立了改进参数的基于美尔频率倒谱系数和隐马尔科夫模型的腭裂语音识别系统。实验结果表明,该语音辅音省略识别算法取得了较高的正确率,实现了对腭裂语音清晰度的自动量化评估,可以用于临床辅助诊断。
-
关键词
腭裂语音
辅音省略
美尔频率倒谱系数
隐马尔科夫模型
语音识别
-
Keywords
cleft palate
consonants omission
MFCC
HMM
speech recogntion
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名重录语音检测算法
被引量:5
- 8
-
-
作者
李山路
王泳
甘俊英
-
机构
五邑大学信息工程学院
广东技术师范学院电子与信息学院
-
出处
《信号处理》
CSCD
北大核心
2017年第1期95-101,共7页
-
基金
国家自然科学基金(61672173
61372193
+4 种基金
61072127)
国家自然科学基金(青年科学基金)(61100168)
广东省自然科学基金(S2013010013311
2014A030313623)
广东省普通高校特色创新项目(2015KTSCX083)
-
文摘
非法认证者可通过播放重新录制合法认证者的语音欺骗说话人识别系统以获得进入系统的权限,为社会安全带来威胁。因此,重录语音的检测具有现实的紧迫性,但相关的研究报道仍较缺乏。为此,本文提出一种重录语音的检测算法。该算法以MFCC(Mel-Frequency Cepstral Coefficients,美尔频率倒谱系数)的统计量作为SVM(Support Vector Machine,支持向量机)和KNN(K-Nearest Neighbors,K最近邻)分类方法的特征;除以上两种分类方法外,本文亦考察使用SAE(Sparse Autoencoder,稀疏自动编码器)的检测性能。为模拟现实生活中重录语音的真实情景,本文实验通过不同的录音设备、录音距离及录音环境对算法进行全面的测试。实验结果表明,通过增加重录语音的多样性作为训练可以使该算法的正确率提高到99.67%,达到了较好的检测性能。
-
关键词
重录语音检测
社会安全
美尔频率倒谱系数
支持向量机
K最近邻
稀疏自动编码器
-
Keywords
speech recapture detection
social security
Mel-frequency cepstral coefficients
support vector machine
K-nearest neighbors
sparse autoencoder
-
分类号
TN912.3
[电子电信—通信与信息系统]
-
-
题名发音特征在维汉语音识别中的应用
- 9
-
-
作者
秦春香
黄浩
-
机构
新疆大学信息科学与工程学院
-
出处
《计算机工程》
CAS
CSCD
2012年第23期177-180,共4页
-
基金
国家自然科学基金资助项目(60965002)
新疆高校科研计划培育基金资助项目(XJEDU2008S15)
新疆大学博士科研启动基金资助项目(BS090143)
-
文摘
采用传统谱特征作为输入进行语音识别通常会受到声学环境差异的影响。为此,提出汉语和维语音素和音位的对应规则,并将这种规则应用于基于发音特征的语音识别系统。训练神经网络多层感知器,获取语音信号各类发音特征的后验概率,将其与美尔频率倒谱系数(MFCC)拼接后送入隐马尔科夫模型进行声学模型训练。将不同发音特征分别与传统MFCC特征进行组合并给出测试结果。实验结果表明,当汉语声带状况和送气发音特征与传统MFCC组合时,以及维语的发音方式和声带状况特征与MFCC组合之后,系统误识率较低。
-
关键词
维汉语音识别
多层感知器
声学模型
美尔频率倒谱系数
特征组合
-
Keywords
Uygur and Mandarin speech recognition
Multilayer Perceptron(MLP)
acoustic model
Mel Frequency Cepstral Coefficient(MFCC)
feature combination
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-