面向机器阅读理解的藏文数据集TibetanQA 被引量：2

TibetanQA:a d ataset of Tibetan for M achine r eading c omprehension

在线阅读下载PDF

导出

摘要机器阅读理解是自然语言处理的关键任务,旨在考察机器是否具有理解自然语言的能力。目前,中英文领域的机器阅读理解取得了很大的进展,模型的性能已经超过了人类的水平,其中公开数据集起到了非常重要的作用,如斯坦福大学的SQuAD数据集。而对于低资源语言,如藏文,由于缺乏大规模公开的数据集,机器阅读理解的相关研究还处于起步阶段。因此,本文构建了面向藏文机器阅读理解的数据集,数据集包含631篇文章,903个段落,形式为excel文件。其中,第一列为当前文章ID,第二列为文本标题,第三列为段落,第四列为问题,第五列为问题对应的答案。其文本数据来自云藏网,问题和答案是由20位藏语专业人员进行人工录入和标注,类型涉及自然、文化、教育等12个领域。本数据集的发布,对于促进藏文信息处理的发展具有重要的价值。 Machine reading comprehension is a key task of natural language processing,which is aimed to check whether machines have the ability to understand natural language.At present,great progress has been made in machine reading comprehension in both Chinese and English.The performance of models has surpassed the level of human beings,in which open datasets play a very important role,such as the SQuAD dataset constructed by the Stanford University.For low-resource languages,such as Tibetan,the research on machine reading comprehension is still in its infancy due to a lack of large-scale public datasets.Therefore,in this paper we constructed a dataset for Tibetan machine reading comprehension,containing 631 articles and 903 paragraphs in the form of Excel files.The first column is the article ID;the second column is the text title;the third column is the paragraph;the fourth column is the question;and the fifth column is the answer.The data are from Yunzin website.The questions and answers are manually recorded and marked by 20 Tibetan language professionals.The data includes 12 fields,such as nature,culture and education.The publication of this dataset has great value to the development of Tibetan information processing.

作者孙媛旦正错刘思思赵小兵 SUN Yuan;DAN Zhengcuo;LIU Sisi;ZHAO Xiaobing(College of Information Engineering,Minzu University of China,Beijing 100081,P.R.China;National Language Resource Monitoring&Research Center of Minority Languages,100081,P.R.China)

机构地区中央民族大学信息工程学院国家语言资源监测与研究少数民族语言中心

出处《中国科学数据（中英文网络版）》 CSCD 2022年第2期30-38,共9页 China Scientific Data

基金自然科学基金项目(No.61972436)

关键词机器阅读理解藏文少数民族语言低资源数据集 machine reading comprehension Tibetan minority languages low resources dataset

分类号 H214 [语言文字—少数民族语言] TP391.1 [自动化与计算机技术—计算机应用技术]

作者简介通信作者:孙媛(1979-),女,山东省滨州市人,博士,教授,研究方向为自然语言处理。主要承担工作:数据质量控制与综合管理、数据采集,tracy.yuan.sun@gmail.com;旦正错(1998-),女,青海省海南州人,硕士研究生,研究方向为自然语言处理。主要承担工作:数据集的预处理和整合、数据校对、论文撰写;刘思思(1998-),女,湖北随州人,硕士研究生,研究方向为自然语言处理。主要承担工作:数据采集、论文撰写;赵小兵(1967-),女,内蒙古自治区呼和浩特市人,博士,教授,研究方向为自然语言处理。主要承担工作:数据集质量控制。

引文网络
相关文献

参考文献2

1殷明.机器阅读理解综述[J].计算机科学与应用,2020,10(12):2457-2465. 被引量：1
2夏天赐,孙媛.基于联合模型的藏文实体关系抽取方法研究[J].中文信息学报,2018,32(12):76-83. 被引量：11

二级参考文献9

1罗镭贾,宋柔,朱小杰.藏族人名汉译名识别研究[J].情报学报,2009,28(3):475-480. 被引量：3
2金明,杨欢欢,单广荣.藏语命名实体识别研究[J].西北民族大学学报（自然科学版）,2010,31(3):49-52. 被引量：11
3华却才让,姜文斌,赵海兴,刘群.基于感知机模型藏文命名实体识别[J].计算机工程与应用,2014,50(15):172-176. 被引量：28
4马宁,李亚超,于槐,加羊吉.面向互联网的藏文实体关系模板获取技术研究[J].中央民族大学学报（自然科学版）,2015,24(1):35-39. 被引量：1
5Qiong HU,Ming YUE.Zipfian interpretation of textbook vocabulary lists： comments on Xiao et al.＇s Corpus-based research on English word recognition rates in primary school and word selection strategy[J].Frontiers of Information Technology & Electronic Engineering,2017,18(7):863-866. 被引量：1
6潘春.Whether Different Rhetoric between Chinese and English Will Influence the Reading Comprehension of the Chinese Students[J].海外英语,2018(8):198-198. 被引量：1
7刘飞飞,王志娟.基于层次特征的藏文人名识别研究[J].计算机应用研究,2018,35(9):2583-2587. 被引量：11
8何鸿业,郑瑾,张祖平.结合词性特征与卷积神经网络的文本情感分析[J].计算机工程,2018,44(11):209-214. 被引量：14
9Qi Yang,Yishu Wang.Application of the Improved Generalized Autoregressive Conditional Heteroskedast Model Based on the Autoregressive Integrated Moving Average Model in Data Analysis[J].Open Journal of Statistics,2019,9(5):543-554. 被引量：2

共引文献10

1德吉措,安见才让.基于双向GRU神经网络的藏文人物关系抽取方法[J].信息化研究,2023,49(4):43-47.
2任建龙,杨立,孔维一,左春.面向聊天机器人的多注意力记忆网络[J].计算机系统应用,2019,28(9):18-24.
3王丽客,孙媛,夏天赐.基于远程监督的藏文实体关系抽取[J].中文信息学报,2020,34(3):72-79. 被引量：6
4沈利言,姜海燕,胡滨,谢元澄.水稻病虫草害与药剂实体关系联合抽取算法[J].南京农业大学学报,2020,43(6):1151-1161. 被引量：13
5王丽客,孙媛,刘思思.基于多级注意力融合机制的藏文实体关系抽取[J].智能科学与技术学报,2021,3(4):466-473. 被引量：2
6于韬,尼玛次仁,拥措,尼玛扎西.基于藏文Albert预训练语言模型的图采样与聚合实体关系抽取[J].中文信息学报,2022,36(10):63-72. 被引量：10
7孙媛,刘思思,陈超凡,旦正错,赵小兵.面向机器阅读理解的高质量藏语数据集构建[J].中文信息学报,2024,38(3):56-64. 被引量：1
8孙媛,梁家亚,陈安东,赵小兵.JCapsR:一种联合胶囊神经网络的藏语知识图谱表示学习模型[J].中文信息学报,2024,38(4):69-77.
9周青,拥措,拉毛东只,尼玛扎西.基于预训练的藏医药实体关系抽取[J].中文信息学报,2024,38(8):76-83. 被引量：1
10高兴,拥措.基于编码器-解码器架构的藏医药文本实体关系联合抽取[J].高原科学研究,2024,8(4):115-128.

同被引文献7

1沙九,冯冲,周鹭琴,李洪政,张天夫,慧慧.面向司法领域的高质量开源藏汉平行语料库构建[J].中文信息学报,2021,35(11):51-59. 被引量：5
2高定国,关白.回顾藏文信息处理技术的发展[J].西藏大学学报（社会科学版）,2009,24(3):18-27. 被引量：17
3万小军.智能文本生成:进展与挑战[J].大数据,2023,9(2):99-109. 被引量：11
4魏楚元,张鑫贤,王致远,李金哲,刘杰.多注意力机制的文本摘要事实一致性评估模型[J].计算机工程与应用,2023,59(7):163-170. 被引量：1
5郑博飞,云静,刘利民,焦磊,袁静姝.跨语言摘要方法研究综述[J].计算机工程与应用,2023,59(13):49-60. 被引量：1
6潘航宇,席耀一,陈宇飞,曹蓉,南煜.跨语言摘要研究综述[J].小型微型计算机系统,2023,44(8):1616-1628. 被引量：1
7高璐,赵小兵.面向司法领域的藏文事件数据集构建[J].中文信息学报,2023,37(8):34-42. 被引量：1

引证文献2

1欧阳新鹏,闫晓东.藏汉跨语言摘要数据集TiCLS[J].中国科学数据（中英文网络版）,2024,9(4):68-75.
2朱孟笑,沙九,冯冲.面向大语言模型的藏语指令数据集构建[J].中文信息学报,2024,38(12):83-96.

1王珏.基于核心素养的初中语文散文阅读教学实践——以《昆明的雨》教学为例[J].初中生世界（初中教学研究）,2022(2):37-38. 被引量：2
2刘志强,马志强,张晓旭,宝财吉拉呼,谢秀兰,朱方圆.IMUT-MC:一个针对蒙古语语音识别的语音语料库[J].中国科学数据（中英文网络版）,2022,7(2):71-83. 被引量：2
3胡博,张乔.面向机器学习应用的车辆工程类人才培养模式创新与实践[J].汽车知识,2022,22(3):138-140.
4戚肖克,特尼格尔,孙媛,赵小兵.蒙汉语音翻译数据集[J].中国科学数据（中英文网络版）,2022,7(2):84-90. 被引量：2
5赵小兵,高璐,高定国,包乌格徳勒,米尔阿迪力江·麦麦提,刘洋,才智杰,孙媛.少数民族语言分词技术评测数据集MLWS2021[J].中国科学数据（中英文网络版）,2022,7(2):2-10. 被引量：2
6田德红.生活化教学,让英语学习绽放精彩[J].山东教育,2022(18):60-60.
7江婉云.小学英语作业的有效设计[J].世纪之星—小学版,2021(22):17-18.
8鲁梅.现阶段初中英语写作教学中存在的问题及应对策略[J].美眉,2022(6):89-91.
9罗桑曲珍.信息技术在小学藏语文课堂教学中的应用[J].世纪之星—小学版,2021(27):114-115.
10李宁,朱丽平,赵小兵,木尼热·艾尔肯.机器翻译辅助的中蒙、维汉语音翻译数据集子集[J].中国科学数据（中英文网络版）,2022,7(2):11-19. 被引量：1

中国科学数据（中英文网络版）

2022年第2期

浏览历史

内容加载中请稍等...