-
题名中文新词识别技术综述
被引量:40
- 1
-
-
作者
张海军
史树敏
朱朝勇
黄河燕
-
机构
中国科学技术大学计算机科学与技术学院
新疆师范大学计算机系
中国科学院计算机语言信息工程研究中心
-
出处
《计算机科学》
CSCD
北大核心
2010年第3期6-10,16,共6页
-
基金
国家自然科学基金项目(60672149)
国家863计划重点项目(2006AA010109)资助
-
文摘
新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相邻字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新词词性猜测一直是中文词性标注的技术瓶颈。详细分析了中文新词识别技术的研究现状,重点讨论了候选新词提取和词性猜测的研究方法与存在的主要问题,最后对新词识别研究方向进行了展望。
-
关键词
新词识别
未登录词
候选字串
训练语料
词性猜测
-
Keywords
New words Identification, Unknown words, Candidate string, Training corpus, POS guessing
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于CDCPM的维吾尔语非特定人语音识别
被引量:4
- 2
-
-
作者
王昆仑
-
机构
新疆师范大学计算机科学系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2001年第10期1242-1245,共4页
-
基金
国家自然科学基金 ( 695 62 0 0 1)
新疆维吾尔自治区"九五"重点攻关科研项目基金 ( G95 32 60 3)资助
荣获 1998年新疆维吾尔自治区人民政府"科学技术进步奖"三等奖
-
文摘
现代维吾尔语语音识别研究尚处于起始阶段 ,在此介绍了基于中心距离连续概率模型 ( CDCPM)的维吾尔语非特定人语音识别 .CDCPM用中心距离正态 ( CDN)分布描述模型特征空间 ,去掉了 HMM的状态转移概率矩阵 A,对 HMM进行了简化和改进 .在维吾尔语综合语音库上进行的实验表明 :恰当地估计模型状态数和模型混合密度数 ,当模型数为 5 2 5个 ,模型状态数为 16,混合密度数为 2 4 ,维吾尔语非特定人语音识别首选正识率达到97.90 % (集内 )和 94 .76% (集外 ) ,取得了较好的识别效果 .同时 ,指出了进一步开展维吾尔语语音识别研究的几个问题 .
-
关键词
维吾尔语
语音识别
中心距离连续概率模型
CDCPM
-
Keywords
Uighur, speaker independent, speech recognition, Uighur synthetic speech database, center distance continuance probability model
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名维语句法分析器中的词义排歧问题的研究
被引量:11
- 3
-
-
作者
玉素甫.艾白都拉
-
机构
新疆师范大学计算机科学系
-
出处
《计算机应用与软件》
CSCD
北大核心
2002年第4期59-62,共4页
-
文摘
本文论述了现代维语短语自动划分标注的基本处理算法、排歧处理、词义排歧中的搭配、现代维语词义排歧算法的语言学依据、现代维语词义排歧算法的实现。通过典型的例子,说明了分析器中存在的问题可以用短语划分标注和词义排歧相结合的方法并扩展到句义排歧方法来解决。
-
关键词
句法分析
维语句法分析器
词义排歧
自然语言处理
计算机
-
Keywords
Uygur language Syntax analysis Removal of ambiguities
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-