-
题名维吾尔语词缀变体搭配规则研究及算法实现
被引量:2
- 1
-
-
作者
艾孜麦提.艾尼瓦尔
董军
李晓
-
机构
中国科学院新疆理化技术研究所
中国科学院大学
新疆民族语音语言信息处理实验室
-
出处
《中文信息学报》
CSCD
北大核心
2018年第11期27-33,共7页
-
基金
中国科学院关键技术人才项目(Y629431201)
中科院西部之光项目(YBXM-2014-04)
-
文摘
该文介绍了维吾尔语词干结构特征、词缀结构特征及维吾尔语语音和谐律;以维吾尔语语音和谐律为基础,在充分考虑基本搭配规则和特殊规则的前提下,提出一种基于词干、词缀结构特征的维吾尔语词缀变体搭配算法;验证词干、词缀结构特征提取的正确性和完整性,并对500个名词词干和300个动词词干进行词缀变体搭配,分别生成9 000个名词和37 800个动词。借助维吾尔语文字校对系统和人工验证的方法,对生成的所有单词进行词缀变体搭配准确性验证;实验结果表明,名词和动词词干搭配词缀准确率分别为98.40%和96.49%,整体搭配准确率为96.86%;最后对搭配错误原因进行了分析。
-
关键词
维吾尔语
语音和谐律
词缀变体
变体搭配
结构特征
-
Keywords
Uyghur
phonetic harmony
affix variants
variant collocation
structural feature
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种改进的哈萨克文编码字符处理方法
- 2
-
-
作者
董军
蒋同海
艾孜麦提.艾尼瓦尔
程力
徐春
-
机构
中国科学院新疆理化技术研究所
中国科学院大学
新疆民族语音语言信息处理实验室
新疆财经大学计算机科学与工程学院
-
出处
《中文信息学报》
CSCD
北大核心
2017年第4期94-99,共6页
-
基金
中科院西部之光项目(YG2012114)
中科院仪器设备功能开发技术创新项目(YBXM-2014-04)
-
文摘
该文介绍了哈萨克文专用字母■、■、■、■的特殊书写习惯,以及哈萨克文编码字符处理现状。指出当前广泛使用的字母替换法不符合国际和国家相关标准,并且会导致哈萨克文排序错误,增加文字转换、语音合成等功能的实现难度。为解决上述不足,对字母替换法进行了三个改进,包括用专用字母与符号"■"结合表示它们自己;专用字母各种书写形式带符号■的字形中,仅将独立字符形式带符号"■"的字形包含在OpenType字体中;用字形替换规则<calt>识别专用字母与哈萨克文字母不相邻的上下文环境。为便于改进方法的应用,该文介绍了与改进方法一致的OpenType字体字形替换规则设置方法。
-
关键词
哈萨克文
编码字符
UNICODE
OPENTYPE
-
Keywords
Kazakh
coded character
Unicode
OpenType
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名互联网拉丁维吾尔文转现行维吾尔文方法
- 3
-
-
作者
艾孜麦提.艾尼瓦尔
董军
李晓
曾文萧
-
机构
中国科学院新疆理化技术研究所
中国科学院大学
中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室
-
出处
《计算机工程与设计》
北大核心
2019年第2期399-404,共6页
-
基金
中国科学院关键技术人才基金项目(Y629431201)
中科院西部之光基金项目(YBXM-2014-04)
中科院仪器设备功能开发技术创新基金项目(YG2012114)
-
文摘
为有效降低非规范本文对网络数据处理的影响,分析互联网拉丁维吾尔文的起因及常见的错误类型,研究互联网拉丁维吾尔文与现行维吾尔文的字母对应关系和单词对应关系,以这些对应关系为基础提出规则和统计相结合的互联网拉丁维吾尔文转换为现行维吾尔文的方法。实验结果表明,该转换方法的准确率达到了83.84%,有效提高了网络数据处理能力。对实验结果进行了分析并提出后续改进对策。
-
关键词
维吾尔文
现行维吾尔文
互联网拉丁维吾尔文
文字转换
规则库
-
Keywords
Uyghur
Arabic Uyghur script
network Latin Uyghur script
text conversion
rule sets
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-