-
题名基于条件随机场的藏语自动分词方法研究与实现
被引量:29
- 1
-
-
作者
李亚超
加羊吉
宗成庆
于洪志
-
机构
西北民族大学中国民族语言文字信息技术重点实验室
中国科学院自动化研究所模式识别国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2013年第4期52-58,共7页
-
基金
国家自然基金资助项目(61032008)
模式识别国家重点实验室开放课题资助项目(201001051)
+1 种基金
西北民族大学中央高校基本业务费专项资金项目(ycx11135
zyz2011101)
-
文摘
藏语自动分词是藏语信息处理的基础性关键问题,而紧缩词识别是藏语分词中的重点和难点。目前公开的紧缩词识别方法都是基于规则的方法,需要词库支持。该文提出了一种基于条件随机场的紧缩词识别方法,并在此基础上实现了基于条件随机场的藏语自动分词系统。实验结果表明,基于条件随机场的紧缩词识别方法快速、有效,而且可以方便地与分词模块相结合,显著提高了藏语分词的效果。
-
关键词
藏语自动分词
条件随机场
紧缩词识别
格助词
-
Keywords
Tibetan automatic word segmentation
conditional random fields
abbreviated word recognition
case-auxiliary words
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名藏语自动分词中的数词识别方法研究
- 2
-
-
作者
完么扎西
尼玛扎西
-
机构
青海师范大学民族师范学院
-
出处
《西藏大学学报(社会科学版)》
CSSCI
2015年第5期96-104,110,共10页
-
文摘
藏语自动分词技术是藏语自然语言处理的基础。文章通过分析藏语真实文本中的数词分类、数词词形以及数词结构等,提出了一种基于规则的识别方法。文章中的藏语数词识别思想为:在自动分词过程中,通过判断待切分的词(w)i和已切分的词(wi-1)来重新组合。经对小学一至六年级的数学藏文版教材及1500个含各类数词的句子语料进行测试后,数词的识别准确率达97.7%。
-
关键词
藏语自动分词
藏语数词
藏语数词结构
-
Keywords
Tibetan automatic word segmentation
Tibetan numeral
Tibetan numeral structure
-
分类号
TP391.1
[自动化与计算机技术]
-