-
题名汉蒙双语法律领域问答语料数据集
- 1
-
-
作者
朝木尔力格
王斯日古楞
-
机构
内蒙古师范大学
-
出处
《中国科学数据(中英文网络版)》
CSCD
2024年第4期76-84,共9页
-
基金
内蒙古自治区科技计划(2021GG0139)
内蒙古自然科学基金(2022MS06002)
内蒙古自然科学基金(2024LHMS06024)。
-
文摘
随着大模型技术的发展,智能问答在人们的工作和生活中的应用越来越广。但是受数据资源的限制,蒙古文等低资源语言的智能问答系统还无法满足人们的应用需求。本研究采用了现有的中文问答语料,经过规则筛选、汉蒙翻译和人工校正的步骤,构建了5万对汉蒙双语法律领域问答语料数据集,以及相应的分类标签。本数据集可以为研究人员提供丰富、准确的问答样本,用于训练和评估智能问答系统的性能,也可以用于机器翻译和文本分类等任务。经人工评价验证,有95%的语料符合汉蒙双语法律领域的问答。因此,本数据集对于推动汉蒙等多语言智能问答的研究具有重要的使用价值。
-
关键词
汉蒙双语
法律问答语料
语料库构建
语料校正
-
Keywords
Chinese-Mongolian
legal question-answering corpus
corpus construction
corpus correction
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
D920.0
[政治法律—法学]
H212
[语言文字—少数民族语言]
-