-
题名基于DOM修剪的藏文Web信息提取
- 1
-
-
作者
珠杰
欧珠
格桑多吉
-
机构
西藏大学计算机科学与技术系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第24期58-60,共3页
-
基金
国家自然科学基金资助项目(60763010/F0206)
-
文摘
随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文"音节点"的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取藏文主题信息。经测试证实,该算法在藏文网页识别和藏文主题信息提取中具有较好的适应性。
-
关键词
音节点
DOM树
藏文
Web信息提取
-
Keywords
syllable dot
DOM tree
Tibetan
Web information extraction
-
分类号
TP393
[自动化与计算机技术]
-
-
题名藏文文本编码识别方法研究
- 2
-
-
作者
春燕
曲珍
-
机构
西藏大学计算机科学与技术系
-
出处
《计算机工程与应用》
CSCD
2013年第1期141-144,共4页
-
基金
国家教育部"长江学者与创新团队发展计划"藏文信息技术创新团队计划资助(No.RT0975)
-
文摘
讨论了藏文编码识别与转换中的关键问题,介绍了藏文结构特点和统计学特征以及各种可能的识别准则,并进行分析比较。确定了使用以藏文的音节点间距规律和高频音节为特征的识别方法对方正Windows、方正Dos、同元、华光Windows、华光Dos、班智达、ASCⅡ的藏文编码方案、ISO/IEC10646基本集、国家标准扩充集A的藏文编码识别,能够正确地将藏文文本与其他语言进行区分。在对目标样本的测试中,该算法的识别率可达100%。
-
关键词
藏文编码
藏文编码识别
音节点
-
Keywords
Tibetan encoding
Tibetan encoding identification
syllable dot
-
分类号
TP391.1
[自动化与计算机技术]
-
-
题名基于词向量的藏文词性标注方法研究
- 3
-
-
作者
郑亚楠
珠杰
-
机构
西藏大学计算机科学与技术系
-
出处
《中文信息学报》
CSCD
北大核心
2017年第1期112-117,共6页
-
基金
国家自然基金(61262058)
国家社会科学基金(15ZDB11)
+1 种基金
西藏高校青年教师创新支持计划项目(QC2005_18)
高原学者计划-珠杰
-
文摘
藏文词性标注是藏文信息处理的基础,在藏文文本分类、自动检索、机器翻译等领域有广泛的应用。该文针对藏文语料匮乏,人工标注费时费力等问题,提出一种基于词向量模型的词性标注方法和相应算法,该方法首先利用词向量的语义近似计算功能,扩展标注词典;其次结合语义近似计算和标注词典,完成词性标注。实验结果表明,该方法能够快速有效地扩大了标注词典规模,并能取得较好的标注结果。
-
关键词
词向量
藏文
词性标注
-
Keywords
distributed representation
Tibetan
POS
-
分类号
TP391
[自动化与计算机技术]
-