期刊文献+
共找到49篇文章
< 1 2 3 >
每页显示 20 50 100
少数民族语言分词技术评测数据集MLWS2021 被引量:2
1
作者 赵小兵 高璐 +5 位作者 高定国 包乌格徳勒 米尔阿迪力江·麦麦提 刘洋 才智杰 孙媛 《中国科学数据(中英文网络版)》 CSCD 2022年第2期2-10,共9页
依据蒙古文、藏文和维吾尔文词汇的构词规律和特点,制定适合计算机信息处理的蒙古文、藏文和维吾尔文分词评测标准,构建蒙古文、藏文和维吾尔文的分词标注语料,形成标准评测数据集(MLWS2021),为解决自动分词、词性标注、信息检索、语料... 依据蒙古文、藏文和维吾尔文词汇的构词规律和特点,制定适合计算机信息处理的蒙古文、藏文和维吾尔文分词评测标准,构建蒙古文、藏文和维吾尔文的分词标注语料,形成标准评测数据集(MLWS2021),为解决自动分词、词性标注、信息检索、语料库构建等研究课题提供依据。MLWS2021共包含2.5万句藏文、6.5万句蒙古文、6.5万句维吾尔文。本评测数据集将面向社会,提供免费评测服务,逐步建成权威的少数民族语言分词技术评测平台,推动少数民族语言信息处理技术的发展。 展开更多
关键词 少数民族语言 分词标注 评测数据集 分词标准规范
在线阅读 下载PDF
基于跨语言词嵌入对齐增强少数民族预训练语言模型 被引量:3
2
作者 申影利 鲍薇 +1 位作者 赵小兵 周毛克 《中文信息学报》 CSCD 北大核心 2023年第9期63-72,共10页
由于民族语言与汉语之间的词嵌入语义空间差距较大,导致预训练语言模型的跨语言迁移效果不佳。为此,该文设计了一个通过静态词嵌入对齐到上下文词嵌入空间中的新框架,以提升少数民族跨语言预训练语言模型在下游任务中的表现。该文首先... 由于民族语言与汉语之间的词嵌入语义空间差距较大,导致预训练语言模型的跨语言迁移效果不佳。为此,该文设计了一个通过静态词嵌入对齐到上下文词嵌入空间中的新框架,以提升少数民族跨语言预训练语言模型在下游任务中的表现。该文首先将由大规模单语数据训练的静态词嵌入进行跨语言对齐;其次,基于民汉平行语料从少数民族预训练语言模型CINO中抽取上下文词嵌入,并设计两种损失函数:双语词典归纳损失、对比学习损失,实现静态词嵌入对齐到上下文词嵌入的共享语义空间中;最后,我们将结合静态与上下文跨语言词嵌入对齐的CINO增强模型应用于双语词典归纳、文本分类以及机器翻译任务中,在多个语言对上的实验结果表明,相比鲁棒的基线系统,该文方法在标注语料匮乏的下游任务中均达到了显著的性能提升。 展开更多
关键词 词嵌入对齐 少数民族预训练语言模型 双语词典归纳 对比学习
在线阅读 下载PDF
语言模型蒸馏的低资源神经机器翻译方法 被引量:2
3
作者 申影利 赵小兵 《计算机工程与科学》 CSCD 北大核心 2024年第4期743-751,共9页
大规模平行语料库的缺乏是低资源神经机器翻译面临的关键问题之一。提出语言模型蒸馏的神经机器翻译方法,通过单语语言模型对神经机器翻译训练进行正则化,引入语言模型包含的先验知识以提升翻译效果。具体地,借鉴知识蒸馏思想,使用丰富... 大规模平行语料库的缺乏是低资源神经机器翻译面临的关键问题之一。提出语言模型蒸馏的神经机器翻译方法,通过单语语言模型对神经机器翻译训练进行正则化,引入语言模型包含的先验知识以提升翻译效果。具体地,借鉴知识蒸馏思想,使用丰富单语数据训练的目标端语言模型(教师模型)构造低资源神经机器翻译模型(学生模型)的正则化因子,让翻译模型学习到语言模型中高度泛化的先验知识。与传统单语语言模型融合参与解码过程不同的是,本文方法中的语言模型只在训练阶段使用,不参与推断阶段,因此能够有效提升解码速度。在第十七届全国机器翻译大会CCMT2021维吾尔语-汉语和藏语-汉语2种民汉低资源翻译数据集上的实验结果表明,相比目前最先进的语言模型融合方法,BLEU提高了1.42%(藏汉方向)~2.11%(汉维方向)。 展开更多
关键词 语言模型 知识蒸馏 正则化 低资源神经机器翻译
在线阅读 下载PDF
NCIFD:面向大模型的民族文化微调数据集
4
作者 罗鹤 张廷 +2 位作者 孙媛 朋毛才让 达哇才仁 《中文信息学报》 北大核心 2025年第2期41-51,共11页
在大语言模型快速发展的挑战下,民族文化研究及传播需要更多的投入。其中,构建高质量的民族文化数据集不仅能促进民族文化传播,还能提高大语言模型在特定文化环境中的精准度和适应性。为了构建高质量的民族文化指令遵循数据集,该文面向... 在大语言模型快速发展的挑战下,民族文化研究及传播需要更多的投入。其中,构建高质量的民族文化数据集不仅能促进民族文化传播,还能提高大语言模型在特定文化环境中的精准度和适应性。为了构建高质量的民族文化指令遵循数据集,该文面向民族文化领域,收集整理了《中国民族百科全书》《中国服饰大典》等18本民族文化相关书籍,进行清洗过滤之后,基于Self-QA框架,使用大语言模型自动生成问答对。同时根据书籍的内容,人工编写了58条民族文化种子指令集,利用这些种子指令集,基于Self-Instruct框架,使用GPT-3.5自动生成指令、输入和输出样本。将两种方式获取的数据集通过多种方式过滤,构建了民族文化指令微调数据集NCIFD(National Culture Instruction-Following Dataset)。通过在ChatGLM-6B、LLaMA-2-7B等主流开源模型上进行了微调实验,实验结果显示,微调Base模型回复准确性与Chat版本模型相比平均提升了6.6%,验证了数据集的有效性和可用性。该数据集为面向民族文化领域的大模型微调提供了支撑,对于推动民族文化在自然语言处理领域的发展具有重要意义。作者将NCIFD部分资源开放供研究使用:https://github.com/letsgoLakers/NCIFD。 展开更多
关键词 大语言模型 民族文化 指令微调 数据集
在线阅读 下载PDF
基于数据增强与主题知识共享的低资源情感分类
5
作者 蒋卓林 王宝乐 +2 位作者 艾孜尔古丽·玉素甫 韦金矿 王鹏飞 《中文信息学报》 北大核心 2025年第4期117-125,共9页
针对低资源语言社交媒体文本的情感分类是低资源语言舆情分析的基础。低资源语言数据集资源不足,标注困难。数据集的大小以及标签的不平衡会影响情感分类模型的性能。针对上述问题,该文提出了一种适用于低资源语言情感分析的数据增强方... 针对低资源语言社交媒体文本的情感分类是低资源语言舆情分析的基础。低资源语言数据集资源不足,标注困难。数据集的大小以及标签的不平衡会影响情感分类模型的性能。针对上述问题,该文提出了一种适用于低资源语言情感分析的数据增强方法,该方法改进了传统的数据增强方法,提高了数据增强样本生成的质量,用于缓解低资源和标签不平衡情况下的过拟合问题。同时,除了提取文本本身的情感特征,还通过引入主题特征,与语义信息进行融合编码,最终完成情感分类任务。实验结果表明,在构建的维吾尔语数据集上,其准确率与F 1值和多个基线模型相比均有提升,分别达到89.8%和90.3%的分类效果。最后,该模型在公开的英文数据集上也有很好的性能,具有良好的跨语言理解能力。 展开更多
关键词 文本情感分析 低资源 数据增强 预训练模型
在线阅读 下载PDF
构音障碍语音识别算法研究综述 被引量:3
6
作者 宋伟 张杨豪 《计算机工程与应用》 CSCD 北大核心 2024年第11期62-74,共13页
构音障碍作为一种医学难症,目前主流的语音识别技术并不能很好地适应这一领域的需求。同时针对构音障碍的语音识别技术利用预训练及个性化训练相结合的方式,通过数据驱动进一步提升了算法性能,识别字错误率进一步降低,但是目前针对构音... 构音障碍作为一种医学难症,目前主流的语音识别技术并不能很好地适应这一领域的需求。同时针对构音障碍的语音识别技术利用预训练及个性化训练相结合的方式,通过数据驱动进一步提升了算法性能,识别字错误率进一步降低,但是目前针对构音障碍的语音识别技术离实际商用还存在一定的距离,该技术的发展受数据规模和技术的限制。到目前为止,尚未出现针对构音障碍语音识别方面的综述文章,亟需将该领域中各种数据集的构建方法和先进技术进行对比分析,以方便进入该领域的研究人员快速获取这方面的知识。对现有数据集、主流算法、评估方式进行了调研,总结了国内外主流构音障碍数据集的规模、形式和特点。分析了构音障碍语音识别的主流算法,并给出了不同算法的性能和特点。最后,研究了基于构音障碍患者的严重等级的算法模型性能评价指标,并讨论了未来的研究方向,以期能够为从事构音障碍语音识别的研究人员提供帮助,助力该领域的快速发展。 展开更多
关键词 构音障碍 语音识别 深度学习 人工智能
在线阅读 下载PDF
基于目标语言预训练和联合解码的低资源语言端到端语音翻译
7
作者 李宁 朱丽平 +2 位作者 赵小兵 仁曾卓玛 王燕敏 《中文信息学报》 CSCD 北大核心 2023年第12期36-43,共8页
自动语音翻译(AST)是将源语言语音转换为目标语言文字的技术。目前,端到端的语音翻译成为AST的研究主流,但面临数据稀缺问题。该文首先利用机器翻译和人工检验构建了20h的维吾尔语-汉语AST语音翻译数据集。其次,为提高端到端语音翻译模... 自动语音翻译(AST)是将源语言语音转换为目标语言文字的技术。目前,端到端的语音翻译成为AST的研究主流,但面临数据稀缺问题。该文首先利用机器翻译和人工检验构建了20h的维吾尔语-汉语AST语音翻译数据集。其次,为提高端到端语音翻译模型的性能,使用语料相对丰富的目标语言语音识别数据集预训练模型,不仅解决了数据稀缺造成的模型无法收敛问题,而且能让模型学到目标语言的语言学知识;再次,在预训练解码器前添加映射模块,使其学到源语言到目标语言知识的映射关系,由此构建了端到端语音翻译模型。最后,使用CTC与Attention联合解码,强制语音标签对齐,提高翻译效果。实验结果表明,在维汉语音翻译数据集上达到了61.45 BLEU值。 展开更多
关键词 语音翻译 端到端 数据集构建
在线阅读 下载PDF
基于跨语言词向量模型的蒙汉查询词扩展方法研究 被引量:7
8
作者 马路佳 赖文 赵小兵 《中文信息学报》 CSCD 北大核心 2019年第6期27-34,共8页
跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多学者的关注。该文首先利用跨语言词... 跨语言信息检索指以一种语言为检索词,检索出用另一种或几种语言描述的一种信息的检索技术,是信息检索领域重要的研究方向之一。近年来,跨语言词向量为跨语言信息检索提供了良好的词向量表示,受到很多学者的关注。该文首先利用跨语言词向量模型实现汉文查询词到蒙古文查询词的映射,其次提出串联式查询扩展、串联式查询扩展过滤、交叉验证筛选过滤三种查询扩展方法对候选蒙古文查询词进行筛选和排序,最后选取上下文相关的蒙古文查询词。实验结果表明:在蒙汉跨语言信息检索任务中引入交叉验证筛选方法对信息检索结果有很大的提升。 展开更多
关键词 查询扩展 跨语言词向量 信息检索
在线阅读 下载PDF
藏汉跨语言摘要数据集TiCLS 被引量:1
9
作者 欧阳新鹏 闫晓东 《中国科学数据(中英文网络版)》 CSCD 2024年第4期68-75,共8页
是自然语言处理领域中的重要研究方向,旨在源语言的文本上生成目标语言的摘要,帮助人们更好地理解和传播不同语言之间的信息。近年来,随着深度学习和预训练技术的发展,跨语言摘要任务在高资源语言数据上取得了显著的进展。然而藏文等低... 是自然语言处理领域中的重要研究方向,旨在源语言的文本上生成目标语言的摘要,帮助人们更好地理解和传播不同语言之间的信息。近年来,随着深度学习和预训练技术的发展,跨语言摘要任务在高资源语言数据上取得了显著的进展。然而藏文等低资源语言由于可用的数据稀少,藏汉跨语言摘要研究还处于起步阶段。为了推动藏汉跨语言摘要的研究,本研究构建了可用于藏汉跨语言摘要生成任务的数据集,共包含8000个样本,格式为json文件。在每个json文件中有2个键,其中text对应藏文源语言新闻内容,summary对应中文目标语言新闻摘要。本数据集爬取自藏文新闻网站,为保证数据质量,在爬取数据时,去除了通讯社、图片、视频、图片、视频名称描述、报道记者等无关内容,只留下新闻的正文内容,然后借助现有的较成熟的藏汉翻译工具将藏文源语言新闻摘要翻译成中文目标语言摘要。同时为了进一步提高数据集的质量,本研究从摘要的事实一致性、充分性、流畅性等方面对数据集质量进行了评估,经筛选后得到了8000条质量较高的样本。本数据集的发布对推动藏汉跨语言摘要的发展具有重要价值。 展开更多
关键词 藏汉跨语言摘要 藏文 低资源 数据集
在线阅读 下载PDF
机器音译研究综述
10
作者 李卓 王志娟 赵小兵 《中文信息学报》 CSCD 北大核心 2024年第7期1-17,共17页
机器音译是基于语音相似性自动将文本从一种语言转换为另一种语言的过程,其是机器翻译的一个子任务,侧重于语音信息的翻译。音译后可知道源单词在另一种语言中的发音,使不熟悉源语言的人更容易理解该语言,有益于消除语言和拼写障碍。机... 机器音译是基于语音相似性自动将文本从一种语言转换为另一种语言的过程,其是机器翻译的一个子任务,侧重于语音信息的翻译。音译后可知道源单词在另一种语言中的发音,使不熟悉源语言的人更容易理解该语言,有益于消除语言和拼写障碍。机器音译在多语言文本处理、语料库对齐、信息抽取等自然语言应用中发挥着重要作用。该文阐述了目前机器音译任务中存在的挑战,对主要的音译方法进行了剖析、分类和整理,对音译数据集进行了罗列汇总,并列出了常用的音译效果评价指标,最后对该领域目前存在的问题进行了说明,并对音译学的未来进行了展望。该文旨在为进入该领域的新人提供快速的入门指南,或供其他研究者参考。 展开更多
关键词 音译 综述 语料库 评价指标
在线阅读 下载PDF
藏语视角下的HowNet共性知识体系研究 被引量:2
11
作者 姚洲 赵小兵 《中文信息学报》 CSCD 北大核心 2024年第9期73-81,共9页
HowNet是我国知识库研究的奠基性成果。目前HowNet已构建出汉英双语的知识表征模式,并在语义相似度计算、向量表示等技术领域取得了较好的效果,但现有研究对HowNet共性知识体系本身的合理性以及跨语言的适应性仍缺乏有益探索。藏语作为... HowNet是我国知识库研究的奠基性成果。目前HowNet已构建出汉英双语的知识表征模式,并在语义相似度计算、向量表示等技术领域取得了较好的效果,但现有研究对HowNet共性知识体系本身的合理性以及跨语言的适应性仍缺乏有益探索。藏语作为施通格语言,与汉语、英语具有较大差别,有助于检验HowNet共性知识体系的合理性。该文以具体藏文实例为依据,从藏语格助词的表义性、动词能所关系以及语义分类特征等方面指出HowNet共性知识体系的跨语言适应性有待完善;结合原型理论及藏文能所关系,以提升HowNet共性知识体系的科学性,并据此对HowNet知识体系的架构数据进行修正。 展开更多
关键词 藏语 HOWNET 共性知识体系
在线阅读 下载PDF
旅游领域意图识别和槽位填充联合建模方法研究
12
作者 厉雯 古丽拉·阿东别克 +1 位作者 樊诗雨 任方日 《东北师大学报(自然科学版)》 CAS 北大核心 2024年第2期75-82,共8页
构建了基于BERT的双向连接模式BERT-based Bi-directional Association Model(BBAM)以实现在意图识别和槽位填充之间建立双向关系的目标,来实现意图识别与槽位填充的双向关联,融合两个任务的上下文信息,对意图识别与槽位填充两个任务之... 构建了基于BERT的双向连接模式BERT-based Bi-directional Association Model(BBAM)以实现在意图识别和槽位填充之间建立双向关系的目标,来实现意图识别与槽位填充的双向关联,融合两个任务的上下文信息,对意图识别与槽位填充两个任务之间的联系进行深度挖掘,从而优化问句理解的整体性能.为了验证模型在旅游领域中的实用性和有效性,通过远程监督和人工校验构建了旅游领域问句数据集TFQD(Tourism Field Question Dataset),BBAM模型在此数据集上的槽填充任务F 1值得分为95.21%,意图分类准确率(A)为96.71%,整体识别准确率(A_(sentence))高达89.62%,显著优于多种基准模型.所提出的模型在ATIS和Snips两个公开数据集上与主流联合模型进行对比实验后,结果表明其具备一定的泛化能力. 展开更多
关键词 自然语言理解 口语理解 问句理解 旅游领域 智能问答 意图识别 槽位填充 联合建模
在线阅读 下载PDF
基于优先融合与模态注意力机制的虚假新闻检测
13
作者 张廷 袁虎 赵小兵 《计算机应用研究》 北大核心 2025年第5期1392-1400,共9页
针对现有多模态虚假新闻检测方法侧重提取图像语义层面特征,忽略图像的频域特征,缺乏对图像内容的细粒度编码,所导致的文本和图像信息不匹配以及融合不充分的问题,提出了一种基于优先融合与模态注意力机制的虚假新闻检测模型。该模型通... 针对现有多模态虚假新闻检测方法侧重提取图像语义层面特征,忽略图像的频域特征,缺乏对图像内容的细粒度编码,所导致的文本和图像信息不匹配以及融合不充分的问题,提出了一种基于优先融合与模态注意力机制的虚假新闻检测模型。该模型通过优先融合模块有效整合文本特征、图像频域特征和图像空间域特征,并利用模态注意力机制动态调整各模态特征的权重,增强多模态信息间的协同作用以进行虚假新闻检测。在Weibo和Gossipcop两个公开多模态数据集上进行对比实验,所提出的模型准确率分别达到了91.3%和90.5%。实验结果表明,该模型能够捕捉模态间特征的复杂交互,有效融合不同模态的信息,提高了虚假新闻检测的准确率。 展开更多
关键词 虚假新闻检测 多模态特征融合 优先融合机制 深度学习
在线阅读 下载PDF
TiKG-30K:基于表示学习的藏语知识图谱数据集
14
作者 庄文浩 李毅杰 孙媛 《中文信息学报》 北大核心 2025年第5期31-40,共10页
知识图谱的表示学习通过将实体和关系映射至低维向量空间,捕捉丰富的语义信息,支撑信息检索、智能问答及知识推理等应用。该文提出了一个公开的藏语知识图谱数据集TiKG-30K,包含146679个三元组、30986个实体和641种关系,旨在推动低资源... 知识图谱的表示学习通过将实体和关系映射至低维向量空间,捕捉丰富的语义信息,支撑信息检索、智能问答及知识推理等应用。该文提出了一个公开的藏语知识图谱数据集TiKG-30K,包含146679个三元组、30986个实体和641种关系,旨在推动低资源语言的知识图谱表示学习和研究。针对藏语知识图谱数据量少、数据稀疏的问题,该文采用跨语言近义词检索、合并同义实体和关系、修正错误三元组等技术,对数据集进行了多层优化。在TiKG-30K上应用多种经典表示学习模型进行的实验结果显示,该数据集的性能可与英文数据集FB15k-237、WN18RR相媲美。为支持藏语知识图谱的研究和应用,该文将TiKG-30K数据集公开:https://tikg-30k.cmli-nlp.com/。 展开更多
关键词 藏语知识图谱 表示学习 知识图谱嵌入 链接预测
在线阅读 下载PDF
基于置信度的藏文人名识别的主动学习模型研究 被引量:4
15
作者 王志娟 刘飞飞 +1 位作者 赵小兵 宋伟 《中文信息学报》 CSCD 北大核心 2019年第8期53-59,共7页
训练语料的标注成本是资源稀缺语言处理研究面临的一个重要问题,通过主动学习(active learning)方法可以选择信息量大、无冗余的语料供人工标注,进而大大降低语料标注成本。该文基于CRF模型给出的标注置信度提出了四种主动学习方法,并... 训练语料的标注成本是资源稀缺语言处理研究面临的一个重要问题,通过主动学习(active learning)方法可以选择信息量大、无冗余的语料供人工标注,进而大大降低语料标注成本。该文基于CRF模型给出的标注置信度提出了四种主动学习方法,并通过实验确定了这四种主动学习方法的相关参数。实验显示:选择置信度低于0.7的语料进行人工标注,直到新旧模型标注结果的差异度小于0.01%时,仅需6轮迭代;人工标注3.2MB的语料,藏文人名识别的F值可以达到88%,若要达到该识别效果,基于CRF的监督式学习模型需要标注约10MB的语料,该主动学习方法降低了约66%的语料标注规模。 展开更多
关键词 藏文人名识别 主动学习 置信度
在线阅读 下载PDF
TCST-UT:卫藏方言藏汉语音翻译数据集
16
作者 黎鑫 刘佳洛 +3 位作者 多杰朋毛 看卓措 戚肖克 赵小兵 《中国科学数据(中英文网络版)》 2025年第3期523-534,共12页
在大模型时代,多语种语言资源建设具有极为关键的意义。然而,目前公开的藏汉语音翻译数据集资源极为匮乏,这严重制约了藏语在多语种语言资源建设中的发展。为此,本研究充分参考国际语音翻译数据集规范,采用半自动标注方式构建了大规模... 在大模型时代,多语种语言资源建设具有极为关键的意义。然而,目前公开的藏汉语音翻译数据集资源极为匮乏,这严重制约了藏语在多语种语言资源建设中的发展。为此,本研究充分参考国际语音翻译数据集规范,采用半自动标注方式构建了大规模卫藏方言藏汉语音翻译数据集。首先,基于公开的卫藏方言藏语自动语音识别数据集(M2ASR),利用Gemini-1.5-pro大模型将语音对应的藏语转录文本翻译成汉语。随后,专家对翻译结果进行严格审核与校正,最终整理成高质量的卫藏方言藏汉语音翻译数据集。本数据集包含58,767条藏语语音-藏语文本-汉语文本三元组,音频数据来自147个不同说话人,总时长为72.08小时,藏汉文本对数据文件大小为22 MB。本数据集不仅为藏汉语音翻译研究提供了基础数据,同时也为其他低资源语言的语音翻译数据集构建提供了一定的经验。 展开更多
关键词 藏汉语音翻译 数据集 半自动标注 低资源语言
在线阅读 下载PDF
Ti-ABSA:藏文方面级情感分析数据集
17
作者 田金超 闫晓东 +1 位作者 常浩远 巩鑫 《中国科学数据(中英文网络版)》 2025年第3期514-522,共9页
方面级情感分析(ABSA)是自然语言处理领域中的重要研究方向,旨在对文本中的特定方面或实体进行细粒度的情感分析。近年来,随着深度学习的发展,方面级情感分析任务在中文和英文高资源语言上已经取得了显著的进展。然而,在藏文等低资源语... 方面级情感分析(ABSA)是自然语言处理领域中的重要研究方向,旨在对文本中的特定方面或实体进行细粒度的情感分析。近年来,随着深度学习的发展,方面级情感分析任务在中文和英文高资源语言上已经取得了显著的进展。然而,在藏文等低资源语言的研究中,仍存在着数据资源匮乏、标注质量参差不齐等问题。为推动藏文方面级情感分析的研究,本研究采用爬虫的方法从微博网站爬取藏文微博信息,构建了一个用于藏文方面级情感分析的数据集Ti-ABSA。本数据集包含微博和微博评论两类数据,并为其标注方面术语,对于每个方面术语,进一步标注其情感极性,分为正向、中性和负向三类情感信息,分别用2、1和0表示,共包含10577个样本,其中微博数据集包含5872个样本,微博评论数据集包含4705个样本。为确保数据质量,在数据审核环节,本研究结合了中文翻译辅助和藏族学生人工核对的方式提升数据的准确性。数据的方面术语及情感标注阶段则采用了中文翻译标注、藏族学生标注以及大语言模型的自动标注相结合的方法,对比三者标注结果,保留结果一致的数据,确保了数据标注的一致性和可靠性。为进一步提高数据集质量,本研究邀请多位藏族学生对数据进行评估打分,最终筛选出10577个高质量样本。Ti-ABSA数据集的发布将有助于推动藏文方面级情感分析的发展,具有重要的实用价值和研究意义。 展开更多
关键词 方面级情感分析 藏文 微博 数据集
在线阅读 下载PDF
由粗到精的哈萨克语短语结构句法分析研究 被引量:2
18
作者 梁金莲 古丽拉·阿东别克 《中文信息学报》 CSCD 北大核心 2018年第1期83-88,共6页
该文针对哈萨克语短语结构句法分两个阶段采用由粗到精的方法进行哈萨克语句法分析研究。第一阶段使用粗略的句法分析器生成20个最佳候选树;第二阶段采用感知机的方法训练,提取特征信息,并对第一阶段生成的20个最佳候选树进行重排序,最... 该文针对哈萨克语短语结构句法分两个阶段采用由粗到精的方法进行哈萨克语句法分析研究。第一阶段使用粗略的句法分析器生成20个最佳候选树;第二阶段采用感知机的方法训练,提取特征信息,并对第一阶段生成的20个最佳候选树进行重排序,最终解析结果是第一阶段产生的候选树的结果和重排序结果按照比例选取。该方法在两个阶段不仅可以获取到句子的结构信息,还可以提取到详细的特征信息,可以最大限度地对句子进行解析,获得了较好的句子解析结果,其句法分析正确率为71.4%。 展开更多
关键词 句法分析 PCFG 重排序
在线阅读 下载PDF
基于多特征融合的新疆旅游领域关系抽取研究 被引量:1
19
作者 骆铭 古丽拉·阿东别克 +1 位作者 马雅静 陈赟 《东北师大学报(自然科学版)》 CAS 北大核心 2023年第1期88-96,共9页
通过结合2738个领域词汇组成的词典对新疆旅游领域语料进行预处理操作,对文本信息进行实体关系抽取研究,提出基于旅游领域的词典信息,融合多级特征的Bi-LSTM、CNN和Attention机制的领域级关系抽取模型.该模型首先使用预训练模型生成含... 通过结合2738个领域词汇组成的词典对新疆旅游领域语料进行预处理操作,对文本信息进行实体关系抽取研究,提出基于旅游领域的词典信息,融合多级特征的Bi-LSTM、CNN和Attention机制的领域级关系抽取模型.该模型首先使用预训练模型生成含较强的语义表征能力的词向量;再使用Bi-LSTM获取更好的语义信息和词向量拼接以捕获长距离的语义特征;用CNN进行特征提取,加强局部特征的学习,并使用注意力池化层(Attentive-pooling)用以强化特征的表达;最后通过Softmax完成关系抽取任务.结果表明:该模型在SemEval-2010 Task 8公开数据集中F1值达到83.46%,证明了其有效性.且模型在新疆旅游领域语料的关系抽取任务中的F1值达到92.73%,优于目前的主流关系抽取模型. 展开更多
关键词 新疆旅游领域 关系抽取 Bi-LSTM CNN Attentive-pooling
在线阅读 下载PDF
基于句子跨度的哈萨克语句法分析研究 被引量:1
20
作者 柴伟 古丽拉·阿东别克 《计算机应用研究》 CSCD 北大核心 2020年第3期731-733,753,共4页
由于目前哈萨克语句法分析准确率较低并缺乏基于神经网络的哈萨克语句法分析的相关研究,针对哈萨克语短语结构的句法分析,使用基于移进—归约的方法,采用在栈中存储句子跨度而不是部分树结构,从而在进行句法树解析时不需要对句法树进行... 由于目前哈萨克语句法分析准确率较低并缺乏基于神经网络的哈萨克语句法分析的相关研究,针对哈萨克语短语结构的句法分析,使用基于移进—归约的方法,采用在栈中存储句子跨度而不是部分树结构,从而在进行句法树解析时不需要对句法树进行二叉化。该研究在句子特征提取时使用双向LSTM对句子跨度特征进行提取,得到句子跨度在整个句子上下文中信息,再使用多层感知机对句法分析模型进行训练,最后在解码时使用动态规划选取最优句法分析结果;最终使得哈萨克语短语句法分析准确率达到了76.92%。研究成果对哈萨克语句法分析准确率有了进一步的提高,并为后续的哈萨克语机器翻译及语义分析奠定良好的基础。 展开更多
关键词 双向LSTM 句子跨度 动态规划
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部