-
题名藏文语料库深加工方法研究
- 1
-
-
作者
才藏太
-
机构
青海师范大学计算机学院
-
出处
《计算机工程与应用》
CSCD
2012年第26期127-130,147,共5页
-
基金
国家973计划项目(No.2010CB334708)
国家自然科学基金(No.61163018)
青海师范大学创新基金项目(No.2011-Z-754/2011-Z-755)
-
文摘
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。结合973前期项目《藏文语料库分词标注规范研究》的开发经验,论述了班智达大型藏文语料库的建设,分词标注词典库和分词标注软件的设计与实现,重点讨论了词典库的索引结构及查找算法、分词标注软件的格词分块匹配算法和还原算法。
-
关键词
藏文语料库
分词标注
分词词典
还原算法
-
Keywords
Tibetan corpus
segmentation and tag
segmentation dictionary
decompression algorithm
-
分类号
TP393
[自动化与计算机技术]
-
-
题名班智达藏文语料切分词典的建立与算法研究
- 2
-
-
作者
才藏太
-
机构
青海师范大学民族师范学院
-
出处
《计算机应用》
CSCD
北大核心
2009年第7期2019-2021,共3页
-
基金
国家社会科学基金资助项目(07BYY035)
-
文摘
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。而语料文本的处理与加工以语法信息词典作基础。结合藏文语料库切分标注规范,论述了对藏文语料库切分与标注用的藏文语法信息词典的建立和设计,重点讨论了该词典的内容建设、语法信息的标注、索引结构及查找算法。
-
关键词
藏文语料库
切分
标注
索引
-
Keywords
corpus of Tibetan
segmentation
tag
index
-
分类号
TP391
[自动化与计算机技术]
-