期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例
被引量:
19
1
作者
胡昊天
张逸勤
+4 位作者
邓三鸿
王东波
冯敏萱
刘浏
李斌
《图书馆论坛》
CSSCI
北大核心
2022年第12期138-148,共11页
文章基于面向古文自然语言处理的SikuBERT和SikuRoBERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、RoBERTa和RoBERTa-wwm基线模型进行对比。文章提出的两种分类模型效果...
文章基于面向古文自然语言处理的SikuBERT和SikuRoBERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、RoBERTa和RoBERTa-wwm基线模型进行对比。文章提出的两种分类模型效果均优于基线模型,SikuBERT模型取得90.39%的整体分类F值,在天文算法类古籍上的分类F值达98.83%。在类别自动识别任务中,SikuRoBERTa的预测正确率达95.30%。基于SikuBERT和SikuRoBERTa预训练语言模型的四库自动分类体系可以将典籍文本划分为所属子部类别,构建的分类工具为高效自动化典籍分类提供了新途径。
展开更多
关键词
预训练模型
SikuBERT
文本分类
数字人文
《四库全书》子部
在线阅读
下载PDF
职称材料
题名
面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例
被引量:
19
1
作者
胡昊天
张逸勤
邓三鸿
王东波
冯敏萱
刘浏
李斌
机构
南京大学信息管理学院
南京农业大学信息管理学院
南京师范大学文学院
出处
《图书馆论坛》
CSSCI
北大核心
2022年第12期138-148,共11页
基金
国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331)研究成果。
文摘
文章基于面向古文自然语言处理的SikuBERT和SikuRoBERTa预训练语言模型,在《四库全书》子部14个类别的古籍文本上开展典籍自动分类模型的构建,并与BERT、BERT-wwm、RoBERTa和RoBERTa-wwm基线模型进行对比。文章提出的两种分类模型效果均优于基线模型,SikuBERT模型取得90.39%的整体分类F值,在天文算法类古籍上的分类F值达98.83%。在类别自动识别任务中,SikuRoBERTa的预测正确率达95.30%。基于SikuBERT和SikuRoBERTa预训练语言模型的四库自动分类体系可以将典籍文本划分为所属子部类别,构建的分类工具为高效自动化典籍分类提供了新途径。
关键词
预训练模型
SikuBERT
文本分类
数字人文
《四库全书》子部
Keywords
pre-trained models
SikuBERT
text classification
digital humanities
“Zi”part of Siku Quanshu
分类号
G256 [文化科学—图书馆学]
G250.7 [文化科学—图书馆学]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例
胡昊天
张逸勤
邓三鸿
王东波
冯敏萱
刘浏
李斌
《图书馆论坛》
CSSCI
北大核心
2022
19
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部