-
题名面向哈萨克语LVCSR的语言模型构建方法研究
被引量:1
- 1
-
-
作者
达吾勒.阿布都哈依尔
努尔买买提.尤鲁瓦斯
刘艳
-
机构
新疆大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2016年第24期178-181,共4页
-
基金
国家自然科学基金(No.61462084
No.61363063)
新疆少数民族科技人才特培计划项目(No.201523132)
-
文摘
一个好的语言模型不仅可以压缩语音识别过程中的搜索空间,而且还可以提高识别准确率。N-gram统计语言模型是目前广泛使用的语言模型之一。从文本的收集和处理开始,介绍了哈萨克语语言模型的构建相关技术,并以此为基础实现了一个哈萨克语连续语音识别基线系统。分别训练了基于单词和基于音节的3-gram语言模型,并通过困惑度及连续语言实验结果对两种语言模型进行了评价。
-
关键词
哈萨克语
语言模型
语音识别
语料库构建
文本处理
-
Keywords
Kazakh language
language model
Automatic Speech Recognition(ASR)
corpus creation
text processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名哈萨克语元音格局研究
被引量:1
- 2
-
-
作者
达吾勒.阿布都哈依尔
努尔麦麦提.尤鲁瓦斯
刘艳
-
机构
新疆大学信息科学与工程学院
新疆大学新疆多语种信息技术重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2018年第7期52-57,共6页
-
基金
国家自然科学基金(61462084
61363063)
新疆少数民族科技人才特培计划(201523132)
-
文摘
由于哈萨克语构词法的特点,九个元音的声频特性在语音识别中具有重要的作用。该文采用实验语音学的基本理论和方法,研究了哈萨克语多音节词中的元音格局。针对从语音库中挑选的1 062个多音节词,分别对其词首、词腹和词尾音节中的元音共振峰频率值进行统计,并采用Joos方法详细地归纳和分析了哈萨克语词首、词腹和词尾音节元音格局以及存在的差异,绘制出了哈萨克语多音节词元音的共振峰模式。该项研究结果对哈萨克语的语音研究及应用具有较高的参考价值。
-
关键词
哈萨克语
多音节词
共振峰
元音格局
-
Keywords
Kazakh language
polysyllabic word
formant
vowel patterns
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名哈萨克语词法分析器的研究与实现
被引量:16
- 3
-
-
作者
达吾勒.阿布都哈依尔
古丽拉.阿东别克
-
机构
新疆大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2008年第19期146-149,共4页
-
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.60763005)
-
文摘
研究了哈萨克语自动词法分析中的附加成分的切分和词干提取问题,并实现了哈萨克语词法分析系统KazStemmer。系统首先对待切分词使用有限状态自动机进行分析。如果成功则将输出作为切分结果,否则再使用双向全切分和词法分析相结合的改进方法来进行切分。与最大匹配法相比,该方法提高了词干提取的正确率和切分速度。同时,在词干表的搜索中首次采用了改进的逐字母二分词典查询机制来提高了词干提取的效率。
-
关键词
附加成分切分
有限状态自动机
双向匹配
全切分
-
Keywords
affixes segmentation
FSM
bidirectional matching algorithm
omni-word segmentation algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于ANN的哈萨克文手写文字识别系统的研究
被引量:6
- 4
-
-
作者
达吾勒.阿布都哈依尔
古丽拉.阿东别克
-
机构
新疆大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2008年第1期225-228,共4页
-
文摘
光学字符识别系统在自动处理,人机交互,办公自动化以及商业领域中有非常广泛的应用。论文主要讨论如何结合结构方法和神经网络的技术,来实现哈萨克语手写文字识别系统的实现。该方法有以下几个优点:方法使用了基于规则(结构)的方法和分类测试;方法更加适合于像哈萨克文字一样具有较大的字符集和字符尺寸不一致的字符集;特征提取的代价较低,运行时间主要由字符尺寸和字体决定。该系统使用一个五层的人工神经网络对字符进行分类,使用10个用户的不同的手写字体进行测试,正确识别率为91%。
-
关键词
手写文字
哈萨克字符
平行细化
特征提取
人工神经网络
-
Keywords
hand-written
Kazakh characters
parallel thinning
feature extraction
neural networks
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名哈萨克文脱机手写字符识别系统的研究与实现
被引量:1
- 5
-
-
作者
达吾勒.阿布都哈依尔
海拉提.克孜尔别克
-
机构
新疆大学信息科学与工程学院
新疆多语种信息技术重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第8期186-188,191,共4页
-
基金
国家自然科学基金资助项目(60763005)
新疆大学自然科学基金资助项目(XY080125)
-
文摘
由于手写哈萨克字符结构的特殊性,仅提取几种单一的字符特征进行识别时正确率较低,识别效果较差。由此采用改进的PCA方法定位单词基线位置,对每个字符提取包括笔画密度特征、投影特征、轮廓特征等在内的36种特征,使用K-W检验对各特征的分类能力进行比较,并采用线性判别函数进行分类,取得了较高的识别精度。实验结果表明,该系统针对脱机字符识别率达到94%以上。
-
关键词
哈萨克字符
改进的PCA方法
字符特征
K—W检验
线性判别函数
-
Keywords
Kazakh character; improved PCA method; character feature; K-W checking; linear discriminant function;
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-