-
题名藏文文本编码识别方法研究
- 1
-
-
作者
春燕
曲珍
-
机构
西藏大学计算机科学与技术系
-
出处
《计算机工程与应用》
CSCD
2013年第1期141-144,共4页
-
基金
国家教育部"长江学者与创新团队发展计划"藏文信息技术创新团队计划资助(No.RT0975)
-
文摘
讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征以及各种可能的识别准则,并进行分析比较。确定了使用以藏文的音节点间距规律和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ASCⅡ的藏文编码方案、ISO/IEC10646基本集、国家标准扩充集A的藏文编码识别,能够正确地将藏文文本与其他语言进行区分。在对目标样本的测试中,该算法的识别率可达100%。
-
关键词
藏文编码
藏文编码识别
音节点
-
Keywords
Tibetan encoding
Tibetan encoding identification
syllable dot
-
分类号
TP391.1
[自动化与计算机技术]
-
-
题名藏文文本编码方案的识别算法
- 2
-
-
作者
邢超
顾益军
任俊博
-
机构
中国人民公安大学
-
出处
《信息网络安全》
2012年第12期29-31,共3页
-
基金
公安部重点研究计划[2011ZDYJGADX016]
中央高校基本科研业务费[YX11134]
-
文摘
目前多种藏文编码方案的同时存在,为藏文文本的检索带来了困难。因此,藏文编码的自动识别成为进行藏文文本处理首先要解决的一个基本问题。结合藏文结构特点和统计学特征,文章提出了一种基于高频字丁和音节点区位码的藏文文本编码判定算法。经测试证实,该算法在藏文文本编码的判定中具有很高的准确度。
-
关键词
高频字丁
藏文编码
藏文编码识别
音节点
-
Keywords
high-frequency words
Tibetan encoding
Tibetan encoding identification
syllable dot
-
分类号
TP391.43
[自动化与计算机技术]
-