期刊文献+
共找到100篇文章
< 1 2 5 >
每页显示 20 50 100
面向新闻文本的汉藏新词抽取及分析
1
作者 庞仙 陈波 赵小兵 《北京大学学报(自然科学版)》 北大核心 2025年第1期45-52,共8页
提出一种有效的面向新闻文本的无监督新词抽取方法。该方法通过结合无监督的TopWORDS算法和分词工具PKUSEG,辅助启发式词语抽取方法,实现从汉文和藏文新闻文本中抽取年度新词,共抽取到2022年度汉文新词606个,藏文新词664个。该方法能够... 提出一种有效的面向新闻文本的无监督新词抽取方法。该方法通过结合无监督的TopWORDS算法和分词工具PKUSEG,辅助启发式词语抽取方法,实现从汉文和藏文新闻文本中抽取年度新词,共抽取到2022年度汉文新词606个,藏文新词664个。该方法能够减少人工筛选工作量,并显著地提高新词抽取的效率。与《中国语言生活状况报告2023》发布的2022年度汉文新词相比,该方法抽取的新词在数量和语种方面优势明显。此外,对汉文和藏文新词进行对齐,并从新词的发展和使用状况角度开展案例分析。 展开更多
关键词 新闻文本 汉文 藏文 新词抽取
在线阅读 下载PDF
基于预训练模型标记器重构的藏文分词系统
2
作者 杨杰 尼玛扎西 +2 位作者 仁青东主 祁晋东 才让东知 《计算机应用》 北大核心 2025年第4期1199-1204,共6页
针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,... 针对现有的预训练模型在藏文分词任务中表现不佳的问题,提出一种建立重构标记器规范约束文本,随后重构藏文预训练模型的标记器以进行藏文分词任务的方法。首先,对原始文本进行规范化操作,以解决因语言混用等导致的错误切分的问题;其次,对预训练模型进行音节粒度的标记器重构,使得切分单元与标注单元平行;最后,在利用改进的滑动窗口还原法完成黏着切分后,利用“词首、词中、词尾、孤立”(BMES)四元标注法建立Re-TiBERTBiLSTM-CRF模型,从而得到藏文分词系统。实验结果表明,重构标记器后的预训练模型在分词任务中明显优于原始预训练模型,而得到的系统拥有较高的藏文分词精确率,F1值最高可达97.15%,能够较好地完成藏文分词任务。 展开更多
关键词 藏语信息处理 藏文分词模型 预训练模型 自然语言处理 标记器重构
在线阅读 下载PDF
不同基本单元信息融合的藏文短文本摘要生成
3
作者 夏吾吉 黄鹤鸣 +2 位作者 樊永红 更藏措毛 范玉涛 《计算机工程》 北大核心 2025年第6期174-183,共10页
藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,... 藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,但由于藏文受分词技术的限制,直接以词作为文本摘要生成的基本单元,对性能的影响较大。针对上述问题,构建包含10523条文本-摘要对的多领域藏文短文本摘要数据集TB-SUM,在研究藏文文本构成单元的基础上,提出适用于藏文文本摘要生成的不同基本单元融合方法,并构建融合不同基本单元的藏文文本摘要生成模型Fusion_GloVe_GRU_Atten,利用全局词向量表示(GloVe)模块实现藏文文本向量化后通过双向门控循环单元(Bi-GRU)模块对输入向量进行编码,利用注意力机制获取输入向量的完整语义信息,使解码器更加关注与当前单词相关的编码器输出,同时将GRU作为解码器生成藏文摘要。在数据集TB-SUM和Ti-SUM上的实验结果表明,以音节和词的融合作为模型训练的基本单元,以音节作为测试的基本单元时,Fusion_GloVe_GRU_Atten模型生成短文本摘要效果更好,能得到更高的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分数。 展开更多
关键词 基本单元 信息融合 词向量 数据集构建 藏文短文本摘要生成
在线阅读 下载PDF
一种基于八词位标签的BiLSTM_CRF藏文分词方法 被引量:2
4
作者 常芳玉 才智杰 《中文信息学报》 CSCD 北大核心 2024年第10期64-70,79,共8页
藏文分词是藏语自然语言处理的一项基础性任务,其性能影响藏文自动摘要、自动分类以及搜索引擎等多个方面。基于词位标注的藏文分词方法通常使用四词位标签集,为了更全面地提取特征信息和更深层次的语义信息,该文提出了一种八词位标签集... 藏文分词是藏语自然语言处理的一项基础性任务,其性能影响藏文自动摘要、自动分类以及搜索引擎等多个方面。基于词位标注的藏文分词方法通常使用四词位标签集,为了更全面地提取特征信息和更深层次的语义信息,该文提出了一种八词位标签集,采用BiLSTM_CRF模型得到一种基于八词位标签的BiLSTM_CRF藏文分词方法。实验结果表明,该方法取得较好的分词效果,在测试数据集上的准确率、召回率和F1值分别达95.07%、95.57%和95.32%。 展开更多
关键词 自然语言处理 藏文分词 BiLSTM_CRF 八词位标签
在线阅读 下载PDF
基于新闻文本的汉藏新词语数据集(2017-2022) 被引量:2
5
作者 庞仙 陈波 +1 位作者 赵小兵 胡淇研 《中国科学数据(中英文网络版)》 CSCD 2024年第4期30-38,共9页
随着时代和社会的发展变化,各个语种的新词语不断涌现。新词语几乎都是未登录词,与分词、信息抽取、机器翻译等自然语言处理下游任务密切相关。本研究基于汉、藏新闻文本,利用新词语抽取方法,抽取并构建了2017-2022年度的汉藏新词语数据... 随着时代和社会的发展变化,各个语种的新词语不断涌现。新词语几乎都是未登录词,与分词、信息抽取、机器翻译等自然语言处理下游任务密切相关。本研究基于汉、藏新闻文本,利用新词语抽取方法,抽取并构建了2017-2022年度的汉藏新词语数据集,包括汉文新词语共3388条,藏文新词语(对应汉文翻译)共1417条。本数据集全过程数据质量控制,并由藏语专业人员筛选,确保获得高质量数据集。本数据集可为自然语言处理领域和语言学研究提供重要基础数据资源,用于监测语言使用状况。 展开更多
关键词 新词语 汉藏 新闻 2017-2022
在线阅读 下载PDF
SegT:一个实用的藏文分词系统 被引量:27
6
作者 刘汇丹 诺明花 +2 位作者 赵维纳 吴健 贺也平 《中文信息学报》 CSCD 北大核心 2012年第1期97-103,共7页
在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,... 在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。 展开更多
关键词 藏文分词 格助词 临界词识别 词频统计 藏文信息处理 中文信息处理
在线阅读 下载PDF
藏文音节规则库的建立与应用分析 被引量:15
7
作者 珠杰 欧珠 +2 位作者 格桑多吉 扎西加 高红梅 《中文信息学报》 CSCD 北大核心 2013年第2期103-111,共9页
藏文音节具有独特的构造方法,不同的构造位上有不同的藏文字符,根据不同的组合,构成了千变万化的藏文音节,由于字符的语音特性,藏文组合形式上有很多的限制。该文借助藏文文法规则和藏汉大词典,建立了现代藏文音节规则库,并分析了可能... 藏文音节具有独特的构造方法,不同的构造位上有不同的藏文字符,根据不同的组合,构成了千变万化的藏文音节,由于字符的语音特性,藏文组合形式上有很多的限制。该文借助藏文文法规则和藏汉大词典,建立了现代藏文音节规则库,并分析了可能的应用领域。 展开更多
关键词 藏文 藏文规则 词频
在线阅读 下载PDF
基于条件随机场的藏语自动分词方法研究与实现 被引量:29
8
作者 李亚超 加羊吉 +1 位作者 宗成庆 于洪志 《中文信息学报》 CSCD 北大核心 2013年第4期52-58,共7页
藏语自动分词是藏语信息处理的基础性关键问题,而紧缩词识别是藏语分词中的重点和难点。目前公开的紧缩词识别方法都是基于规则的方法,需要词库支持。该文提出了一种基于条件随机场的紧缩词识别方法,并在此基础上实现了基于条件随机场... 藏语自动分词是藏语信息处理的基础性关键问题,而紧缩词识别是藏语分词中的重点和难点。目前公开的紧缩词识别方法都是基于规则的方法,需要词库支持。该文提出了一种基于条件随机场的紧缩词识别方法,并在此基础上实现了基于条件随机场的藏语自动分词系统。实验结果表明,基于条件随机场的紧缩词识别方法快速、有效,而且可以方便地与分词模块相结合,显著提高了藏语分词的效果。 展开更多
关键词 藏语自动分词 条件随机场 紧缩词识别 格助词
在线阅读 下载PDF
多级索引的藏语分词词典设计 被引量:6
9
作者 姚徐 郭淑妮 +1 位作者 李永宏 于洪志 《计算机应用》 CSCD 北大核心 2009年第B06期178-180,共3页
藏语分词词典是藏语自动分词系统的重要基础,词典规模大小和算法设计的优劣直接影响着分词的效率。本项目首先收集了多部藏语字、词典的所有词条及藏语标点符号,形成了约10万词条的大型藏语分词词库;根据藏字不同长度的特点,建立了藏语... 藏语分词词典是藏语自动分词系统的重要基础,词典规模大小和算法设计的优劣直接影响着分词的效率。本项目首先收集了多部藏语字、词典的所有词条及藏语标点符号,形成了约10万词条的大型藏语分词词库;根据藏字不同长度的特点,建立了藏语特有的多级索引分词词典机制,分析设计藏语整词二分法进行藏语分词。实验结果表明该藏语分词词典具有结构简单,分词速度快和查询性能高等优点。 展开更多
关键词 藏语分词 分词词典 藏语整词二分法 多级索引
在线阅读 下载PDF
基于藏语字性标注的词性预测研究 被引量:8
10
作者 龙从军 刘汇丹 +1 位作者 诺明花 吴健 《中文信息学报》 CSCD 北大核心 2015年第5期211-215,共5页
该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。... 该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。但词级标注模型难以解决词边界划分的一致性和未登录词的问题。基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果。 展开更多
关键词 藏语 语字标注 分词 词性标注
在线阅读 下载PDF
藏文自动分词系统的设计与实现 被引量:52
11
作者 陈玉忠 李保利 俞士汶 《中文信息学报》 CSCD 北大核心 2003年第3期15-20,65,共7页
藏文自动分词系统的研制目前在国内仍是空白。本文从四个方面详细报告了书面藏文自动分词系统的具体实现过程 ,内容包括系统结构、分词知识库的组织与实现以及分词策略、算法设计及其详细的自动分词过程实例。文章最后给出了实验结果 ,... 藏文自动分词系统的研制目前在国内仍是空白。本文从四个方面详细报告了书面藏文自动分词系统的具体实现过程 ,内容包括系统结构、分词知识库的组织与实现以及分词策略、算法设计及其详细的自动分词过程实例。文章最后给出了实验结果 ,结果表明系统具有较高的切分精度和较好的通用性。 展开更多
关键词 计算机应用 中文信息处理 格助词 接续特征 藏文 自动分词
在线阅读 下载PDF
基于判别式分类和重排序技术的藏文分词 被引量:9
12
作者 孙萌 华却才让 +3 位作者 才智杰 姜文斌 吕雅娟 刘群 《中文信息学报》 CSCD 北大核心 2014年第2期61-65,90,共6页
本文提出一种基于判别式模型的藏文分词方法,重点研究最小构词粒度和分词结果重排序对藏文分词效果的影响。在构词粒度方面,分别考察了以基本字丁、基本字丁-音节点、音节为最小构词粒度对分词效果的影响,实验结果表明选定音节为最小构... 本文提出一种基于判别式模型的藏文分词方法,重点研究最小构词粒度和分词结果重排序对藏文分词效果的影响。在构词粒度方面,分别考察了以基本字丁、基本字丁-音节点、音节为最小构词粒度对分词效果的影响,实验结果表明选定音节为最小构词粒度分词的F值最高,为91.21%;在分词结果重排序方面,提出一种基于词图的最短路径重排序策略,将判别式解码生成的切分结果压缩为加权有向图,图中节点表示音节间隔,而边所覆盖的音节作为候选切分并赋予不同权重,选择一条最短路径从而实现整句切分,最终分词结果的F值达到96.25%。 展开更多
关键词 判别式 藏文分词 构词粒度 重排序
在线阅读 下载PDF
计算机识别藏语虚词的方法研究 被引量:15
13
作者 高定国 扎西加 赵栋材 《中文信息学报》 CSCD 北大核心 2014年第1期113-117,共5页
藏文虚词的研究是藏文信息处理技术中词、句及语义研究的基础,而计算机自动识别藏文虚词又是藏语虚词研究的前提。该文在论述藏语虚词在藏语文本中的作用和使用方法的基础上,分析了计算机识别藏语虚词的难度,提出了一个计算机识别藏语... 藏文虚词的研究是藏文信息处理技术中词、句及语义研究的基础,而计算机自动识别藏文虚词又是藏语虚词研究的前提。该文在论述藏语虚词在藏语文本中的作用和使用方法的基础上,分析了计算机识别藏语虚词的难度,提出了一个计算机识别藏语虚词的方法,并用2 525句典型藏文句子进行了验证,对结果进行分析发现藏文虚词识别的正确率高达97.076 8%。 展开更多
关键词 识别 藏语 虚词
在线阅读 下载PDF
TIP-LAS:一个开源的藏文分词词性标注系统 被引量:34
14
作者 李亚超 江静 +1 位作者 加羊吉 于洪志 《中文信息学报》 CSCD 北大核心 2015年第6期203-207,共5页
TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,藏文分词系统和词性标注... TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,藏文分词系统和词性标注系统取得了较好的实验效果,系统的源代码可以从网上获取。希望该研究可以推动藏文分词、词性标注等基础工作的发展,提供一个可以比较、共享的研究平台。 展开更多
关键词 藏文 分词 词性标注 条件随机场 最大熵
在线阅读 下载PDF
现代藏文音节字自动校对研究 被引量:16
15
作者 关白 才科扎西 《计算机工程与应用》 CSCD 2012年第29期151-156,共6页
在现代藏文自动校对中,对音节字(■)的校对是其基础。现代藏文二维的书写格式和独特的文法,还有格助词的黏着现象、音节字搭配规则和音节字中真词和非词错误等众多问题,使得对藏文自动校对的研究有别于英语和汉语的自动校对。针对现代... 在现代藏文自动校对中,对音节字(■)的校对是其基础。现代藏文二维的书写格式和独特的文法,还有格助词的黏着现象、音节字搭配规则和音节字中真词和非词错误等众多问题,使得对藏文自动校对的研究有别于英语和汉语的自动校对。针对现代藏文中音节字的特点,通过音节字预处理、字表匹配、混淆集匹配、二元接续关系、最小编辑距离法等方法对现代藏文音节字的自动校对进行详细论述。 展开更多
关键词 藏文自动校对 音节字 真词错误 黏着性格助词
在线阅读 下载PDF
基于词典的汉藏句子对齐研究与实现 被引量:10
16
作者 于新 吴健 洪锦玲 《中文信息学报》 CSCD 北大核心 2011年第4期57-62,共6页
双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评... 双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。 展开更多
关键词 汉藏句子对齐 词典 分词粒度 平行语料库 藏文信息处理
在线阅读 下载PDF
藏语口语语音语料库的设计与研究 被引量:9
17
作者 黄晓辉 李京 马睿 《计算机工程与应用》 CSCD 北大核心 2018年第13期231-235,共5页
基于对普通语音语料库构建方法的研究与分析,结合自然口语语音识别研究相关需求以及藏语自然口语语音的基本特点,研究设计了适用于藏语语音识别的口语语音语料库建设方案以及相应的标注规范,并据此构建了时长50小时,包含音素、半音节、... 基于对普通语音语料库构建方法的研究与分析,结合自然口语语音识别研究相关需求以及藏语自然口语语音的基本特点,研究设计了适用于藏语语音识别的口语语音语料库建设方案以及相应的标注规范,并据此构建了时长50小时,包含音素、半音节、音节、藏文字以及语句共5层标注信息的藏语拉萨话口语语音语料库。统计结果显示,该语料库在保留口语语音自然属性的同时,对音素、半音节等常用语音建模单元也有均衡的覆盖,为基于藏语口语语音数据的语音识别技术研究提供了可靠的数据支撑。 展开更多
关键词 语音语料库 口语语音 语音识别 标注规范 藏语拉萨话
在线阅读 下载PDF
藏语阅读中中央凹词频效应及对副中央凹预视效应的影响 被引量:5
18
作者 高晓雷 李晓伟 +2 位作者 孙敏 白学军 高蕾 《心理学报》 CSSCI CSCD 北大核心 2020年第10期1143-1155,共13页
在不同语言文字系统中,对于眼动控制的本质及其发生机制,尤其是阅读过程中注意资源的分配是序列分布还是平行分布的问题,目前仍然存在着争论和分歧。藏语是拼音文字,但它同时又具有汉语的特点,独具语言特色。因此,通过对藏语阅读过程中... 在不同语言文字系统中,对于眼动控制的本质及其发生机制,尤其是阅读过程中注意资源的分配是序列分布还是平行分布的问题,目前仍然存在着争论和分歧。藏语是拼音文字,但它同时又具有汉语的特点,独具语言特色。因此,通过对藏语阅读过程中中央凹词频对副中央凹预视效应影响这一问题的探讨,可以在一种已有研究未曾涉及的文字系统中进一步推动上述争议的解决。本研究采用眼动记录法,设计了两个实验。实验1操纵了中央凹词频(高频、低频),考察藏语阅读中中央凹词的词频效应及词频延迟效应,结果发现,藏语阅读中存在词频效应及词频延迟效应。实验2同时操纵中央凹词频和副中央凹预视词类型,借助边界范式,考察藏语阅读中副中央凹预视效应及中央凹词频对副中央凹预视效应的影响,结果发现,藏语阅读中存在副中央凹预视效应,且与低频中央凹词相比,高频中央凹词对副中央凹预视效应的促进作用更大。两个实验结果表明:(1)藏语阅读中存在显著的词频效应,且表现在词汇加工的整个过程;(2)藏语阅读中存在显著的词频延迟效应,并贯穿于词汇加工的整个过程;(3)藏语阅读中存在显著的副中央凹预视效应,读者能通过副中央凹预视提取到语音和字形信息。藏语阅读中中央凹词频影响副中央凹预视效应的大小,且词频只在词汇加工的早期对形的预视信息的提取产生影响,即在形似预视条件下高频词的预视效应更大;(4)本研究发现的词频延迟效应及副中央凹预视效应,支持了E-Z读者模型中有关副中央凹序列加工的观点。 展开更多
关键词 藏语阅读 词频效应 词频延迟效应 预视效应 眼动
在线阅读 下载PDF
四音格词在汉藏语研究中的价值 被引量:42
19
作者 戴庆厦 孙艳 《汉语学习》 北大核心 2003年第6期1-5,共5页
四音格词是汉藏语的一个重要特征。本文通过汉藏语比较 ,在分析四音格词基本特征的基础上 ,初步论述四音格词在历史比较、类型学研究上的价值 ,进而指出今后研究的前景。
关键词 汉藏语 四音格词 类型学
在线阅读 下载PDF
藏文停用词选取与自动处理方法研究 被引量:9
20
作者 珠杰 李天瑞 《中文信息学报》 CSCD 北大核心 2015年第2期125-132,共8页
停用词的处理是文本挖掘中一个关键的预处理步骤。该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析了词项频率、文档频率、熵等方法的藏文停用词选用情况,提出了藏文虚词、特殊动词和自动处理方法相结... 停用词的处理是文本挖掘中一个关键的预处理步骤。该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析了词项频率、文档频率、熵等方法的藏文停用词选用情况,提出了藏文虚词、特殊动词和自动处理方法相结合的藏文停用词选取方法。实验结果表明,该方法可以确定一个较合理的藏文停用词表。 展开更多
关键词 藏文停用词 词频统计 文档频数
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部