-
题名面向残片缀合的敦煌文献图像数据集
- 1
-
-
作者
高歌
殷梓轩
李雪龙
赵小兵
翁彧
-
机构
中央民族大学中国少数民族语言文学学院
中央民族大学民族语言智能分析与安全治理教育部重点实验室
中央民族大学信息工程学院
中央民族大学国家语言资源监测与研究少数民族语言中心
-
出处
《中国科学数据(中英文网络版)》
CSCD
2024年第4期46-58,共13页
-
基金
国家社科基金重大项目(20&ZD279)。
-
文摘
敦煌文献是华夏各民族在漫长的历史中创造和遗留的珍贵遗产。由于年代久远,文献大多有不同程度的残损,缀合由此成为敦煌学研究的关键步骤。传统依靠人工缀合难度大、耗时长。近年来伴随计算机技术的进步,出现了计算机辅助的残片自动缀合技术。该技术的研究依赖于大规模图像数据的支持,而敦煌文献由于残损和收藏情况复杂,十分缺乏可用于缀合目的的高质量图像数据集。本数据集根据已发表的缀合论文收集了一批高质量残片图像数据,并补充了人工分割的图像数据,共计95组,366张。每组数据均包含1张完整的缀合参考图,及2-7张数量不等的残片。图像涉及文种主要为汉文,间有古藏文;涉及的文献收藏机构包括中国国家图书馆、大英图书馆、法国国家图书馆以及敦煌研究院等。数据收集、整理过程规范,经整理的可缀合组中的残片数量及残片来源的分布具备代表性,且图像质量较高,能够支持缀合算法或模型的训练和验证。
-
关键词
敦煌文献
自动缀合
残片图像
古籍残片
数字人文
-
Keywords
Dunhuang manuscripts
automatic conjunction
fragment image
ancient manuscript fragments
digital humanities
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-