-
题名计算机识别藏语虚词的方法研究
被引量:15
- 1
-
-
作者
高定国
扎西加
赵栋材
-
机构
西藏大学藏文信息技术研究中心
西藏大学工学院计算机科学系
-
出处
《中文信息学报》
CSCD
北大核心
2014年第1期113-117,共5页
-
基金
国家自然科学基金(61063015
61163043
+3 种基金
61165010)
教育部人文社科基金(10YJCZH033)
国家语委项目(MZ115-039)
2011年度西藏自治区科技计划项目"基于语料库的藏语词汇计量研究"
-
文摘
藏文虚词的研究是藏文信息处理技术中词、句及语义研究的基础,而计算机自动识别藏文虚词又是藏语虚词研究的前提。该文在论述藏语虚词在藏语文本中的作用和使用方法的基础上,分析了计算机识别藏语虚词的难度,提出了一个计算机识别藏语虚词的方法,并用2 525句典型藏文句子进行了验证,对结果进行分析发现藏文虚词识别的正确率高达97.076 8%。
-
关键词
识别
藏语
虚词
-
Keywords
indentification, Tibetan, function word
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名印刷体藏文文字识别技术研究
被引量:12
- 2
-
-
作者
欧珠
普次仁
大罗桑朗杰
赵栋才
刘芳
边巴旺堆
-
机构
西藏大学工学院
西藏大学工学院计算机科学系
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第24期165-169,172,共6页
-
基金
教育部科技创新工程重大项目培育资金项目No706059~~
-
文摘
藏文字因其结构的特殊性,在应用传统文字识别方法进行识别时正确识别率较低,识别效果较差。在深入分析以印刷体藏文文字特征的基础上,提出了一系列可以在干扰情况下提高识别率的方法,包括局部自适应二值化算法、基于连通域的切分、基于网格的模糊笔划特征提取等。实验结果说明,这些方法可提高印刷体藏文文字识别系统的正确识别率和抗干扰能力。
-
关键词
印刷体藏文字符
切分
藏文文字识别
光学字符识别
-
Keywords
printed Tibetan character
segmentation
Tibetan character recognition
Optical Character Recognition(OCR)
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名编码规则下的大面积多样化无缝纹理生成研究
被引量:1
- 3
-
-
作者
刘晓平
吴静
李琳
索南尖措
-
机构
合肥工业大学计算机与信息学院VCC研究室
西藏大学工学院计算机系
-
出处
《系统仿真学报》
CAS
CSCD
北大核心
2012年第1期207-211,共5页
-
基金
国家自然科学基金(61070124)
中央高校基本科研业务费专项资金(2010HGZY0001)
-
文摘
通过纹理处理技术来弥补图形绘制上的不足,是解决仿真场景中三维对象表面真实感的有效手段。在实际仿真场景中大面积纹理都是采用重复贴图技术,若需实现纹理多样化,需要美工手工制作,耗费大量时间和人力。提出了一种基于编码的大面积多样化纹理生成的方法,通过对源纹理图定义编码规则产生多个样图实例,在编码约束下根据场景需要可以随机无缝拼接成大面积的纹理贴图。为了增加拼接而成的纹理多样性,我们根据每个样图实例的编码规则在该样图中随机撒点拟合成噪声区域,再基于噪声区域进行该样图实例与噪声纹理的合成,使所产生的样图实例形态各异。
-
关键词
纹理编码
无缝拼接
纹理合成
大面积纹理
-
Keywords
texture encoding
seamless splicing
texture synthesis
large area texture
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-
-
题名藏文停用词选取与自动处理方法研究
- 4
-
-
作者
珠杰
李天瑞
-
机构
西南交通大学信息科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2015年第2期125-132,共8页
-
基金
国家自然基金(61262058
60763010)
+1 种基金
CCF中文信息技术开放基金项目(CCF2012-02-01)
藏文信息技术教育部"长江学者与创新团队发展计划"(IRT0975)
-
文摘
停用词的处理是文本挖掘中一个关键的预处理步骤。该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析了词项频率、文档频率、熵等方法的藏文停用词选用情况,提出了藏文虚词、特殊动词和自动处理方法相结合的藏文停用词选取方法。实验结果表明,该方法可以确定一个较合理的藏文停用词表。
-
关键词
藏文停用词
词频统计
文档频数
熵
-
Keywords
Tibetan stop word
TF
DF
entropy
-
分类号
TP391
[自动化与计算机技术]
-
-
题名藏语语料库TEI标记规范探讨
- 5
-
-
作者
扎西加
高定国
-
机构
西藏大学工学院计算机科学系
-
出处
《中文信息学报》
CSCD
北大核心
2011年第4期66-70,81,共6页
-
基金
国家自然科学基金资助项目(61063015)
教育部人文社科基金青年项目(10YJCZH033)
-
文摘
在语言信息处理过程中,大规模真实文本处理已成为一个研究热点。藏语语料库的标记在汉藏英机器翻译、信息检索、文本数据挖掘、词典编纂的研究工作中占很重要的地位。为了便于数据交换和共享,该文基于TEI编码的藏语语料,对藏语语料库中文本的属性信息和结构信息标记做了系统而全面的探讨。
-
关键词
藏语
语料库
TEI标记
-
Keywords
Tibetan
corpus
TEI mark
-
分类号
TP391
[自动化与计算机技术]
-