期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于MU序列标注的古籍命名实体识别研究
1
作者
许乾坤
王东波
+1 位作者
刘禹彤
黄水清
《情报学报》
北大核心
2025年第6期736-747,共12页
命名实体识别任务是自然语言处理中众多下游任务的重要基础步骤。古籍作为中华文明的载体,不仅蕴含着丰富的文化遗产,更是汲取历史智慧、启迪未来的重要源泉。提高古籍文本中实体识别的准确性,有助于推动古籍文本结构化、知识体系化,助...
命名实体识别任务是自然语言处理中众多下游任务的重要基础步骤。古籍作为中华文明的载体,不仅蕴含着丰富的文化遗产,更是汲取历史智慧、启迪未来的重要源泉。提高古籍文本中实体识别的准确性,有助于推动古籍文本结构化、知识体系化,助力古籍资源的智能利用和开发。首先,选取本课题组精加工的二十四史古籍作为原始数据集,使用GujiBERT_FAN预训练模型对Sequence Labeling、Sequence Labeling_CRF、Span-level Prediction方法进行微调,从而更准确地捕捉实体边界和类型,对古籍文本中的实体进行识别和预测。其次,本文引入多数投票(Majority Voting Combiner,MVC)和合并(Union Combiner,UC)的方法,与预测数据集进行整合并构建新的数据集,基于已识别实体数据集,使用MVC和UC方法结合NER(Named Entity Recognition)模型的预测结果重新生成新的数据集。最后,通过学习判断Sequence Labeling、Sequence Labeling_CRF、Span-level Prediction方法对实体的预测结果是否错误,并使用提示的思路对模型进行微调。为验证本文提出的方法,采用评估指标来验证模型的效果。实验结果表明,UC方法的加入使得实体识别的召回率显著提升,MVC方法提升了模型的F1值。
展开更多
关键词
序列标注
命名实体识别
二十四史
MU方法
跨度预测
在线阅读
下载PDF
职称材料
基于数字远读技术的社会画像构建方法研究
被引量:
1
2
作者
何琳
艾毓茜
+1 位作者
刘建斌
彭秋茹
《现代情报》
CSSCI
2022年第7期22-30,共9页
[目的/意义]数字远读视角下分析历史典籍,将特定时期社会通过可视化等综合技术展现给研究者,以帮助研究者量化史学研究。[方法/过程]以社会发展过程中产生的文本数据为基础,借鉴用户画像概念,提出社会画像的构建方法。根据各发展分面内...
[目的/意义]数字远读视角下分析历史典籍,将特定时期社会通过可视化等综合技术展现给研究者,以帮助研究者量化史学研究。[方法/过程]以社会发展过程中产生的文本数据为基础,借鉴用户画像概念,提出社会画像的构建方法。根据各发展分面内在逻辑数据构建社会画像描述框架,利用多种文本挖掘技术抽取不同维度的特征标签,形成社会画像,并以先秦时期为例进行实证研究。[结果/结论]借助基于史实的社会画像,能够全景化呈现社会发展状况,可以为研究者快速获得古代社会概貌提供支持,具有一定的实践意义和价值。
展开更多
关键词
社会画像
数字远读
用户画像
文本挖掘
社会发展
在线阅读
下载PDF
职称材料
基于机器阅读理解的古文事件抽取研究
被引量:
2
3
作者
喻雪寒
何琳
王献琪
《情报学报》
CSSCI
CSCD
北大核心
2023年第3期316-326,共11页
准确地梳理古文典籍脉络,抽取典籍中蕴含的事件和事件论元,对古籍从文本数据向智能化数据转化具有重要意义。针对古文事件的抽取研究主要有基于模式匹配、机器学习和神经网络三种方式,本文在现有的基于神经网络的方法中融入机器阅读理...
准确地梳理古文典籍脉络,抽取典籍中蕴含的事件和事件论元,对古籍从文本数据向智能化数据转化具有重要意义。针对古文事件的抽取研究主要有基于模式匹配、机器学习和神经网络三种方式,本文在现有的基于神经网络的方法中融入机器阅读理解模式,将事件抽取中出现的“事件类型”和“论元角色”糅合为问题形式,由此输出的答案即为事件论元。分别选取编年体史书《左传》和纪传体史书《史记》作为训练和泛化的数据,在具体的泛化过程中引入混淆句以验证模型效果,为古文事件抽取提供了可参照的思路。
展开更多
关键词
古籍文本
机器阅读理解
事件抽取
RoBERTa
混淆句
在线阅读
下载PDF
职称材料
重建知识源流:将结构化知识自动溯源至史籍原文
被引量:
1
4
作者
张琪
孔嘉
+3 位作者
胡昊天
王东波
王昊
邓三鸿
《情报学报》
CSSCI
CSCD
北大核心
2024年第4期405-415,共11页
将结构化历史知识溯源至史籍原文能够提升知识的可验证性和可靠性。本研究针对古籍知识库缺乏完善知识溯源机制和部分古汉语文本缺乏触发词的问题,提出了一种将结构化历史知识溯源至史籍原文的方法。首先,结合共指消解、文本蕴涵等技术...
将结构化历史知识溯源至史籍原文能够提升知识的可验证性和可靠性。本研究针对古籍知识库缺乏完善知识溯源机制和部分古汉语文本缺乏触发词的问题,提出了一种将结构化历史知识溯源至史籍原文的方法。首先,结合共指消解、文本蕴涵等技术和方法,提出了结构化历史知识溯源框架;其次,在构造数据集的基础上,通过实验对比了BERT(bidirectional encoder representations from transformers)、SikuBERT与GPT-3(generative pre-trained transformer 3)、GPT-4等不同预训练模型和不同输入策略对知识溯源效果的影响,构建了结构化历史知识溯源模型SHK-Tracer(structured historical knowledge tracing model),其精确率为80.19%;最后,采用SHK-Tracer将史记多维知识库(Shiji Mutil-dimensional Knowledge Base,SMKB)分别溯源至不同的史书,发现《史记》与《左传》《国语》中各史料片段的知识重合度及片段本身所包含的信息含量不成正比。本研究结果一方面能够支持相关读者核验知识真伪、提供不同史料之间的相互参照以及结合史料年代等信息确定知识源头,另一方面能够为史籍知识计量、关系抽取和语言风格计算等数字人文研究提供基础语料。
展开更多
关键词
知识服务
知识溯源
知识计量
数字人文
知识三元组
在线阅读
下载PDF
职称材料
学术共同体共谋:特邀学者笔谈
被引量:
3
5
作者
曹树金
邓小昭
+14 位作者
傅文奇
黄水清
金波
李广建
刘冰
沈固朝
孙建军
吴建中
王曰芬
肖希明
叶继元
于良芝
臧国全
周瑛
朱庆华
《图书情报知识》
CSSCI
北大核心
2020年第5期138-169,共32页
在本篇笔谈中,特别邀请了图书情报与档案管理、信息与数据管理领域的知名学者,畅谈他们在本领域从业、从教、从研等方面的体会和感想。构建和维护良好的学术共同体,是学界共同的使命和责任。
关键词
学术共同体
文华精神
图书情报学
图情档教育
学科发展
在线阅读
下载PDF
职称材料
题名
基于MU序列标注的古籍命名实体识别研究
1
作者
许乾坤
王东波
刘禹彤
黄水清
机构
南京农业大学
信息管理学院
南京农业大学人文与社会计算研究中心
出处
《情报学报》
北大核心
2025年第6期736-747,共12页
基金
国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(21&ZD331)。
文摘
命名实体识别任务是自然语言处理中众多下游任务的重要基础步骤。古籍作为中华文明的载体,不仅蕴含着丰富的文化遗产,更是汲取历史智慧、启迪未来的重要源泉。提高古籍文本中实体识别的准确性,有助于推动古籍文本结构化、知识体系化,助力古籍资源的智能利用和开发。首先,选取本课题组精加工的二十四史古籍作为原始数据集,使用GujiBERT_FAN预训练模型对Sequence Labeling、Sequence Labeling_CRF、Span-level Prediction方法进行微调,从而更准确地捕捉实体边界和类型,对古籍文本中的实体进行识别和预测。其次,本文引入多数投票(Majority Voting Combiner,MVC)和合并(Union Combiner,UC)的方法,与预测数据集进行整合并构建新的数据集,基于已识别实体数据集,使用MVC和UC方法结合NER(Named Entity Recognition)模型的预测结果重新生成新的数据集。最后,通过学习判断Sequence Labeling、Sequence Labeling_CRF、Span-level Prediction方法对实体的预测结果是否错误,并使用提示的思路对模型进行微调。为验证本文提出的方法,采用评估指标来验证模型的效果。实验结果表明,UC方法的加入使得实体识别的召回率显著提升,MVC方法提升了模型的F1值。
关键词
序列标注
命名实体识别
二十四史
MU方法
跨度预测
Keywords
sequence labeling
named entity recognition
Twenty-Four Histories
MU method
span-level prediction
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于数字远读技术的社会画像构建方法研究
被引量:
1
2
作者
何琳
艾毓茜
刘建斌
彭秋茹
机构
南京农业大学
信息管理学院
南京农业大学人文与社会计算研究中心
出处
《现代情报》
CSSCI
2022年第7期22-30,共9页
基金
国家社会科学基金一般项目“基于典籍的中华传统文化知识表达体系自动构建方法研究”(项目编号:18BTQ063)。
文摘
[目的/意义]数字远读视角下分析历史典籍,将特定时期社会通过可视化等综合技术展现给研究者,以帮助研究者量化史学研究。[方法/过程]以社会发展过程中产生的文本数据为基础,借鉴用户画像概念,提出社会画像的构建方法。根据各发展分面内在逻辑数据构建社会画像描述框架,利用多种文本挖掘技术抽取不同维度的特征标签,形成社会画像,并以先秦时期为例进行实证研究。[结果/结论]借助基于史实的社会画像,能够全景化呈现社会发展状况,可以为研究者快速获得古代社会概貌提供支持,具有一定的实践意义和价值。
关键词
社会画像
数字远读
用户画像
文本挖掘
社会发展
Keywords
social portrait
distant reading
user portrait
text mining
social development
分类号
G203 [文化科学—传播学]
在线阅读
下载PDF
职称材料
题名
基于机器阅读理解的古文事件抽取研究
被引量:
2
3
作者
喻雪寒
何琳
王献琪
机构
南京农业大学
信息管理学院
南京农业大学人文与社会计算研究中心
出处
《情报学报》
CSSCI
CSCD
北大核心
2023年第3期316-326,共11页
基金
国家社会科学基金一般项目“基于典籍的中华传统文化知识表达体系自动构建方法研究”(18BTQ063)。
文摘
准确地梳理古文典籍脉络,抽取典籍中蕴含的事件和事件论元,对古籍从文本数据向智能化数据转化具有重要意义。针对古文事件的抽取研究主要有基于模式匹配、机器学习和神经网络三种方式,本文在现有的基于神经网络的方法中融入机器阅读理解模式,将事件抽取中出现的“事件类型”和“论元角色”糅合为问题形式,由此输出的答案即为事件论元。分别选取编年体史书《左传》和纪传体史书《史记》作为训练和泛化的数据,在具体的泛化过程中引入混淆句以验证模型效果,为古文事件抽取提供了可参照的思路。
关键词
古籍文本
机器阅读理解
事件抽取
RoBERTa
混淆句
Keywords
ancient books
machine reading comprehension
event extraction
RoBERTa
confused sentences
分类号
I206.2 [文学—中国文学]
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
重建知识源流:将结构化知识自动溯源至史籍原文
被引量:
1
4
作者
张琪
孔嘉
胡昊天
王东波
王昊
邓三鸿
机构
南京
大学
信息管理学院
数据工程与知识服务省高校重点实验室(
南京
大学
)
南京农业大学
信息管理学院
南京农业大学人文与社会计算研究中心
出处
《情报学报》
CSSCI
CSCD
北大核心
2024年第4期405-415,共11页
基金
国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(21&ZD331)。
文摘
将结构化历史知识溯源至史籍原文能够提升知识的可验证性和可靠性。本研究针对古籍知识库缺乏完善知识溯源机制和部分古汉语文本缺乏触发词的问题,提出了一种将结构化历史知识溯源至史籍原文的方法。首先,结合共指消解、文本蕴涵等技术和方法,提出了结构化历史知识溯源框架;其次,在构造数据集的基础上,通过实验对比了BERT(bidirectional encoder representations from transformers)、SikuBERT与GPT-3(generative pre-trained transformer 3)、GPT-4等不同预训练模型和不同输入策略对知识溯源效果的影响,构建了结构化历史知识溯源模型SHK-Tracer(structured historical knowledge tracing model),其精确率为80.19%;最后,采用SHK-Tracer将史记多维知识库(Shiji Mutil-dimensional Knowledge Base,SMKB)分别溯源至不同的史书,发现《史记》与《左传》《国语》中各史料片段的知识重合度及片段本身所包含的信息含量不成正比。本研究结果一方面能够支持相关读者核验知识真伪、提供不同史料之间的相互参照以及结合史料年代等信息确定知识源头,另一方面能够为史籍知识计量、关系抽取和语言风格计算等数字人文研究提供基础语料。
关键词
知识服务
知识溯源
知识计量
数字人文
知识三元组
Keywords
knowledge service
knowledge provenance
knowmetrics
digital humanities
SPO triples
分类号
G254 [文化科学—图书馆学]
在线阅读
下载PDF
职称材料
题名
学术共同体共谋:特邀学者笔谈
被引量:
3
5
作者
曹树金
邓小昭
傅文奇
黄水清
金波
李广建
刘冰
沈固朝
孙建军
吴建中
王曰芬
肖希明
叶继元
于良芝
臧国全
周瑛
朱庆华
机构
中山
大学
资讯管理学院
西南
大学
计算
机与信息科学学院
福建师范
大学
图书馆学系
南京农业大学
信息管理学院
南京农业大学人文与社会计算研究中心
上海
大学
图书情报档案系
北京
大学
信息管理系
天津师范
大学
管理学院
南京
大学
信息管理学院
澳门
大学
图书馆
南京
理工
大学
经济管理学院
武汉
大学
信息管理学院
南开
大学
商学院信息资源管理系
郑州
大学
信息管理学院
安徽
大学
管理学院
出处
《图书情报知识》
CSSCI
北大核心
2020年第5期138-169,共32页
文摘
在本篇笔谈中,特别邀请了图书情报与档案管理、信息与数据管理领域的知名学者,畅谈他们在本领域从业、从教、从研等方面的体会和感想。构建和维护良好的学术共同体,是学界共同的使命和责任。
关键词
学术共同体
文华精神
图书情报学
图情档教育
学科发展
Keywords
Academic community
Spirit of Boone Library School
Library and information science
Education of library,information and archives science
Disciplinary developmen
分类号
G250 [文化科学—图书馆学]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于MU序列标注的古籍命名实体识别研究
许乾坤
王东波
刘禹彤
黄水清
《情报学报》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
基于数字远读技术的社会画像构建方法研究
何琳
艾毓茜
刘建斌
彭秋茹
《现代情报》
CSSCI
2022
1
在线阅读
下载PDF
职称材料
3
基于机器阅读理解的古文事件抽取研究
喻雪寒
何琳
王献琪
《情报学报》
CSSCI
CSCD
北大核心
2023
2
在线阅读
下载PDF
职称材料
4
重建知识源流:将结构化知识自动溯源至史籍原文
张琪
孔嘉
胡昊天
王东波
王昊
邓三鸿
《情报学报》
CSSCI
CSCD
北大核心
2024
1
在线阅读
下载PDF
职称材料
5
学术共同体共谋:特邀学者笔谈
曹树金
邓小昭
傅文奇
黄水清
金波
李广建
刘冰
沈固朝
孙建军
吴建中
王曰芬
肖希明
叶继元
于良芝
臧国全
周瑛
朱庆华
《图书情报知识》
CSSCI
北大核心
2020
3
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部