期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例 被引量:19
1
作者 胡昊天 张逸勤 +4 位作者 邓三鸿 王东波 冯敏萱 刘浏 李斌 《图书馆论坛》 CSSCI 北大核心 2022年第12期138-148,共11页
文章基于面向古文自然语言处理的SikuBERT和SikuRoBERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、RoBERTa和RoBERTa-wwm基线模型进行对比。文章提出的两种分类模型效果... 文章基于面向古文自然语言处理的SikuBERT和SikuRoBERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、RoBERTa和RoBERTa-wwm基线模型进行对比。文章提出的两种分类模型效果均优于基线模型,SikuBERT模型取得90.39%的整体分类F值,在天文算法类古籍上的分类F值达98.83%。在类别自动识别任务中,SikuRoBERTa的预测正确率达95.30%。基于SikuBERT和SikuRoBERTa预训练语言模型的四库自动分类体系可以将典籍文本划分为所属子部类别,构建的分类工具为高效自动化典籍分类提供了新途径。 展开更多
关键词 预训练模型 SikuBERT 文本分类 数字人文 《四库全书》子部
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部