期刊文献+
共找到44篇文章
< 1 2 3 >
每页显示 20 50 100
藏文信息处理属性统计研究 被引量:20
1
作者 江荻 董颖红 《中文信息学报》 CSCD 1995年第2期37-44,共8页
本文统计分析:1、藏字的字长和构调频度;2、藏字的声母和韵母结构方式及频度;3、藏字的位置字符及结构方式。通过统计分析,从藏字结构方式的量和位置字符的量的度量揭示其质的面貌,为藏文研究和藏字信息处理应用提供基础数据。
关键词 藏文信息处理 属性 统计分析 字形 结构方式
在线阅读 下载PDF
融合事件特征及语义角色标注的藏文信息抽取技术 被引量:2
2
作者 万福成 马宁 何向真 《广西师范大学学报(自然科学版)》 CAS 北大核心 2018年第2期18-23,共6页
本文在藏语短语句法分析的基础上,融入功能语义信息线索,采用在藏语短语句法树库的基础上加入语义角色标注的方法,并融合事件触发词信息,对藏文信息进行抽取,并通过实验进行了对比分析。本文事件特征融合与已标注信息对藏文信息抽取有帮... 本文在藏语短语句法分析的基础上,融入功能语义信息线索,采用在藏语短语句法树库的基础上加入语义角色标注的方法,并融合事件触发词信息,对藏文信息进行抽取,并通过实验进行了对比分析。本文事件特征融合与已标注信息对藏文信息抽取有帮助,本文模型可以很好地应用于藏文信息抽取工作。 展开更多
关键词 功能语义 语义角色标注 藏文信息抽取
在线阅读 下载PDF
现代藏文信息熵及其属性 被引量:2
3
作者 完么扎西 尼玛扎西 《西藏大学学报(社会科学版)》 CSSCI 2017年第2期51-57,共7页
文章将信息论的方法引入藏文信息处理技术研究领域,利用统计的方法研究了以字符为单位和以音节字为单位的藏文信息熵。通过对275万多音节字的大规模藏语单语语料进行统计,给出了以字符为统计单位和以音节字为统计单位的现代藏文的熵,其... 文章将信息论的方法引入藏文信息处理技术研究领域,利用统计的方法研究了以字符为单位和以音节字为单位的藏文信息熵。通过对275万多音节字的大规模藏语单语语料进行统计,给出了以字符为统计单位和以音节字为统计单位的现代藏文的熵,其值分别为4.17和8.21比特,并从信息论的角度证明了藏文具有拼音文字和音节字特征的双重属性。 展开更多
关键词 藏文字符 藏文(音节)字 藏文信息
在线阅读 下载PDF
藏文信息处理教材建设的几点思考 被引量:3
4
作者 群诺 《西藏大学学报(社会科学版)》 CSSCI 2012年第2期88-91,共4页
藏文信息处理是以计算机为主要工具,以藏语言文字为处理对象的高新技术。藏文信息处理技术近二十多年的发展过程中,国内外已经开发出一大批藏文操作系统和应用软件,并取得了不同程度的推广和应用。但到目前为止,还没有一部科学、系统和... 藏文信息处理是以计算机为主要工具,以藏语言文字为处理对象的高新技术。藏文信息处理技术近二十多年的发展过程中,国内外已经开发出一大批藏文操作系统和应用软件,并取得了不同程度的推广和应用。但到目前为止,还没有一部科学、系统和全面的关于藏文信息处理技术方面的专业教材,这使得对该领域有着浓厚兴趣的学生无法系统地掌握这门新学科。文章根据藏文信息处理技术研究领域的成果,就《藏文信息处理》教材建设提出了几点思考和建议。 展开更多
关键词 藏文信息处理 教材建设建议
在线阅读 下载PDF
改革开放以来西藏藏文信息化发展综述 被引量:5
5
作者 头旦才让 尼玛扎西 《西藏研究》 北大核心 2018年第5期182-187,共6页
西藏藏文信息化研究是关乎西藏现代化建设的一个重要战略。经过30多年的努力,藏文信息化研究取得了丰硕的成果。回顾西藏藏文信息化的发展历程和取得的重要成就可见其对西藏社会带来的重大意义,在新时代背景下,西藏藏文信息化需在计算... 西藏藏文信息化研究是关乎西藏现代化建设的一个重要战略。经过30多年的努力,藏文信息化研究取得了丰硕的成果。回顾西藏藏文信息化的发展历程和取得的重要成就可见其对西藏社会带来的重大意义,在新时代背景下,西藏藏文信息化需在计算机、语言学及认知学等诸多学科领域深入开拓,并解决技术难题。 展开更多
关键词 西藏 藏文信息 藏文信息技术
在线阅读 下载PDF
藏文信息处理技术学科特色专业建设回顾与发展思路——西藏大学为例 被引量:1
6
作者 德萨 《西藏研究》 CSSCI 北大核心 2013年第6期114-120,共7页
藏文信息处理技术学科专业建设已经凸显出特色与优势,但仍需不断开辟新的领域和新的研究项目,瞄准藏文文献数字化、网络化图书馆发展需求进行技术创新研发与人才培养。
关键词 藏文信息技术 学科特色专业建设 发展思路
在线阅读 下载PDF
藏文的信息熵与输入法键盘设计 被引量:3
7
作者 完么扎西 尼玛扎西 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第3期405-411,共7页
在研究和分析藏文拼写文法的基础上,对计算机藏文快速输入法键盘键位布局进行形式化描述,推导计算机藏文键盘键位布局规则及方法。综合考虑藏文字符的字频统计结果、计算机藏文键盘键位布局规则、德沃拉克键盘键位击键方便指数以及为了... 在研究和分析藏文拼写文法的基础上,对计算机藏文快速输入法键盘键位布局进行形式化描述,推导计算机藏文键盘键位布局规则及方法。综合考虑藏文字符的字频统计结果、计算机藏文键盘键位布局规则、德沃拉克键盘键位击键方便指数以及为了便于记忆加以考虑的藏文字母与英文字母发音上的近似性,设计一种能够实现藏文无重码快速输入的键盘键位布局。最后,计算输入一个藏文字的平均击键数,验证所设计的键盘键位布局比现有的输入法键盘键位布局更具科学性。 展开更多
关键词 藏文输入法 键盘键位布局 无重码 藏文信息
在线阅读 下载PDF
试论网络环境下西藏地区藏文文献信息资源共享
8
作者 德萨 扎西玉珍 +1 位作者 更尕易西 益西次旺 《西藏大学学报(社会科学版)》 CSSCI 2012年第4期129-134,158,共7页
文章对实现网络环境下藏文信息资源共建与共享的社会环境及舆论环境、丰富的藏文文献资料和较为成熟的技术保障等方面进行了可行性分析论证,并提出要加大资金投入;加强藏文文献信息资源共享的标准化、规范化建设;加强组织机构建设;建立... 文章对实现网络环境下藏文信息资源共建与共享的社会环境及舆论环境、丰富的藏文文献资料和较为成熟的技术保障等方面进行了可行性分析论证,并提出要加大资金投入;加强藏文文献信息资源共享的标准化、规范化建设;加强组织机构建设;建立功能完备的藏文信息检索系统;调整藏文文献信息收藏体系,注重"有效收藏"等对策和建议。 展开更多
关键词 网络环境 藏文文献信息 资源共享 可行性对策
在线阅读 下载PDF
基于深度学习的梵藏文本识别
9
作者 才让叁智 仁增多杰 +1 位作者 多拉 索南尖措 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第6期1059-1066,共8页
[目的]梵藏文本识别是自动排序、词法分析和自动校对等研究的重要前期工作环节.当前基于规则的梵藏文本识别方法中存在无法有效识别短梵文词语等诸多问题.[方法]在自建的梵藏文本识别数据集上,采用基于双向长短时记忆网络和自注意力的... [目的]梵藏文本识别是自动排序、词法分析和自动校对等研究的重要前期工作环节.当前基于规则的梵藏文本识别方法中存在无法有效识别短梵文词语等诸多问题.[方法]在自建的梵藏文本识别数据集上,采用基于双向长短时记忆网络和自注意力的梵藏文本识别方法、基于预训练语言模型CINO的梵藏文本识别方法和基于规则的梵藏文本识别方法之间进行实验对比,并分析它们的识别结果,进而选出最优的梵藏文本识别方法.[结果]基于双向长短时记忆网络和自注意力机制的梵藏文本识别模型的宏准确率、召回率和F1值分别达到了98.09%、99.22%和98.65%,其效果优于多语言预训练模型CINO和其他3种基于规则的方法.[结论]基于skip-gram、CBOW和GloVe的藏文字符表示模型使用相同的小规模、无重样的训练数据集时,CBOW的字符表示效果优于其他两者;训练数据相同的情况下,基于双向长短时记忆网络和自注意力机制的梵藏文本识别模型优于多语言预训练模型CINO,同时,也优于基于规则的梵藏文本识别模型. 展开更多
关键词 藏文信息处理 藏文本识别 字符表示 STTRM_BS模型
在线阅读 下载PDF
SegT:一个实用的藏文分词系统 被引量:27
10
作者 刘汇丹 诺明花 +2 位作者 赵维纳 吴健 贺也平 《中文信息学报》 CSCD 北大核心 2012年第1期97-103,共7页
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,... 在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。 展开更多
关键词 藏文分词 格助词 临界词识别 词频统计 藏文信息处理 中文信息处理
在线阅读 下载PDF
藏文拉丁转写的研究与实现 被引量:13
11
作者 陈丽娜 祁坤钰 +2 位作者 贾彦民 吴健 康丽 《计算机工程与设计》 CSCD 北大核心 2006年第1期15-17,105,共4页
藏文拉丁转写是研究藏文化和进行藏文术语交流的重要工具。介绍了一种基于藏文编码字符集基本集和藏文编码字符集扩充集A,实现藏文拉丁转写的方法。通过引入垂直预组合的概念,将藏文由复杂文本变为简单文本,从而简化了拉丁转写的处理过... 藏文拉丁转写是研究藏文化和进行藏文术语交流的重要工具。介绍了一种基于藏文编码字符集基本集和藏文编码字符集扩充集A,实现藏文拉丁转写的方法。通过引入垂直预组合的概念,将藏文由复杂文本变为简单文本,从而简化了拉丁转写的处理过程,降低了算法复杂度。详细讲述了算法的原理及在OpenOffice.org中的实现。 展开更多
关键词 藏文 藏文信息处理 拉丁转写 垂直预组合
在线阅读 下载PDF
最大熵和规则相结合的藏文句子边界识别方法 被引量:17
12
作者 李响 才藏太 +2 位作者 姜文斌 吕雅娟 刘群 《中文信息学报》 CSCD 北大核心 2011年第4期39-44,共6页
句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利... 句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利用藏语句子边界规则减少了最大熵模型因训练语料稀疏或低劣而导致对句子边界的误判。实验表明,该文提出的方法具有较好的性能,F1值可达97.78%。 展开更多
关键词 最大熵 句子边界识别 藏文信息处理
在线阅读 下载PDF
Web藏文文本资源挖掘与利用研究 被引量:6
13
作者 刘汇丹 诺明花 +2 位作者 马龙龙 吴健 贺也平 《中文信息学报》 CSCD 北大核心 2015年第1期170-177,共8页
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧... 该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。 展开更多
关键词 WEB 语料 文本挖掘 信息抽取 藏文信息处理 中文信息处理
在线阅读 下载PDF
基于栏目的藏文网页文本自动分类方法 被引量:7
14
作者 胥桂仙 向春丞 +2 位作者 翁彧 赵小兵 杨国胜 《中文信息学报》 CSCD 北大核心 2011年第4期20-23,共4页
该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别... 该文提出了一种简单、快速的藏文网页文本分类方法。该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中。实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用。 展开更多
关键词 藏文信息处理 文本分类 藏文网页分类
在线阅读 下载PDF
基于大规模网络语料的藏文音节拼写错误统计与分析 被引量:6
15
作者 刘汇丹 洪锦玲 +1 位作者 诺明花 吴健 《中文信息学报》 CSCD 北大核心 2017年第2期61-70,共10页
针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700... 针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8%,错误音节在语料中共出现27 427次,仅占0.030 8%,说明这份语料的文本质量是相当高的。文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因:一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符。 展开更多
关键词 藏文拼写检查 拼写检查 语料 统计 藏文信息处理 中文信息处理
在线阅读 下载PDF
基于Mealy机的藏文字构件分解 被引量:5
16
作者 才让卓玛 李永明 才智杰 《电子学报》 EI CAS CSCD 北大核心 2015年第5期935-939,共5页
藏文字构件分解是藏文信息处理的基础,具有重要的理论价值和广阔的应用前景.针对藏文字构件的复杂性与多样性,文章通过分析现代藏文字的构字规则和结构特点,研究了藏文字构件的分解过程,利用Mealy机的输出字符与移动一一对应的特性描述... 藏文字构件分解是藏文信息处理的基础,具有重要的理论价值和广阔的应用前景.针对藏文字构件的复杂性与多样性,文章通过分析现代藏文字的构字规则和结构特点,研究了藏文字构件的分解过程,利用Mealy机的输出字符与移动一一对应的特性描述了藏文字构件的行为语义,给出了对于任意字符串能否被Mealy机分解的判定定理及基于Mealy机的藏文字构件分解算法,并设计实现了基于Mealy机的藏文字构件分解系统,验证了算法的可行性. 展开更多
关键词 藏文信息处理 MEALY机 构件 构字分解
在线阅读 下载PDF
基于改进卡方统计量的藏文文本表示方法 被引量:4
17
作者 徐涛 于洪志 加羊吉 《计算机工程》 CAS CSCD 2014年第6期185-189,共5页
藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文... 藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文文本表示方法。提取文本中词频统计TF-IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明,与传统的向量空间模型相比,该方法能更准确地表示藏文文本。 展开更多
关键词 藏文信息处理 改进卡方统计量 文本表示 自动断句 向量空间模型
在线阅读 下载PDF
藏文自动分词中未登录词处理方法研究 被引量:5
18
作者 羊毛卓玛 高定国 《计算机工程》 CAS CSCD 2012年第17期46-48,共3页
藏文中后接成份出现频率较高,分词中未登录词的后缀单切现象会影响分词的正确率,为此,采用词(语素)+缀归并的方法,将藏文后接成份与前一词(语素)归并为一个切分单位输出。针对藏文中大量人名、地名、单位名等未登录词在分词时出现的碎... 藏文中后接成份出现频率较高,分词中未登录词的后缀单切现象会影响分词的正确率,为此,采用词(语素)+缀归并的方法,将藏文后接成份与前一词(语素)归并为一个切分单位输出。针对藏文中大量人名、地名、单位名等未登录词在分词时出现的碎片切分现象,使用分词碎片整合方法,将多次出现的词条碎片整合为一个切分单位输出。实验结果表明,2种方法能提高藏文自动分词的识别正确率。 展开更多
关键词 藏文信息处理 词缀归并 未登录词 分词碎片整合
在线阅读 下载PDF
藏文动态交互网站技术实现的研究 被引量:1
19
作者 沈晔华 李永忠 刘真真 《计算机工程与应用》 CSCD 北大核心 2006年第33期167-169,180,共4页
随着科学技术水平的不断提高,语言文字信息处理工作已经进入人们的日常生活,并且以日新月异的速度在发展。世界上所有文化发达的民族都在不同程度地进行着本民族的语言信息处理工作。藏文字是藏族同胞使用的语言文字,也是在国际上有影... 随着科学技术水平的不断提高,语言文字信息处理工作已经进入人们的日常生活,并且以日新月异的速度在发展。世界上所有文化发达的民族都在不同程度地进行着本民族的语言信息处理工作。藏文字是藏族同胞使用的语言文字,也是在国际上有影响的语言文字之一。针对目前藏文网站特别是动态交互网站稀少的现状,介绍了几种目前在网站上显示藏文的技术及其优缺点,在利用这些技术的基础上提出了一个新的解决方案。 展开更多
关键词 藏文信息 藏文网站 动态交互网站
在线阅读 下载PDF
基于虚词切分的藏文分词系统的设计与实现 被引量:5
20
作者 赵栋材 《西藏大学学报(社会科学版)》 CSSCI 2012年第5期61-65,96,共6页
藏文分词是藏文自然语言处理的基础。根据藏文虚词在藏文文本中的特殊作用以及虚词的兼类性、结合性、黏着变体性和还原特性,设计实现了一个基于藏语虚词切分的正向最大匹配的藏文分词系统,该系统对原始文本进行逐次扫描处理得到分词结... 藏文分词是藏文自然语言处理的基础。根据藏文虚词在藏文文本中的特殊作用以及虚词的兼类性、结合性、黏着变体性和还原特性,设计实现了一个基于藏语虚词切分的正向最大匹配的藏文分词系统,该系统对原始文本进行逐次扫描处理得到分词结果。实验表明,文章提出的藏文分词系统具有较高的切分精度和切分速度。 展开更多
关键词 虚词识别 藏文分词 藏文信息处理 中文信息处理
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部