期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于MU序列标注的古籍命名实体识别研究
1
作者 许乾坤 王东波 +1 位作者 刘禹彤 黄水清 《情报学报》 北大核心 2025年第6期736-747,共12页
命名实体识别任务是自然语言处理中众多下游任务的重要基础步骤。古籍作为中华文明的载体,不仅蕴含着丰富的文化遗产,更是汲取历史智慧、启迪未来的重要源泉。提高古籍文本中实体识别的准确性,有助于推动古籍文本结构化、知识体系化,助... 命名实体识别任务是自然语言处理中众多下游任务的重要基础步骤。古籍作为中华文明的载体,不仅蕴含着丰富的文化遗产,更是汲取历史智慧、启迪未来的重要源泉。提高古籍文本中实体识别的准确性,有助于推动古籍文本结构化、知识体系化,助力古籍资源的智能利用和开发。首先,选取本课题组精加工的二十四史古籍作为原始数据集,使用GujiBERT_FAN预训练模型对Sequence Labeling、Sequence Labeling_CRF、Span-level Prediction方法进行微调,从而更准确地捕捉实体边界和类型,对古籍文本中的实体进行识别和预测。其次,本文引入多数投票(Majority Voting Combiner,MVC)和合并(Union Combiner,UC)的方法,与预测数据集进行整合并构建新的数据集,基于已识别实体数据集,使用MVC和UC方法结合NER(Named Entity Recognition)模型的预测结果重新生成新的数据集。最后,通过学习判断Sequence Labeling、Sequence Labeling_CRF、Span-level Prediction方法对实体的预测结果是否错误,并使用提示的思路对模型进行微调。为验证本文提出的方法,采用评估指标来验证模型的效果。实验结果表明,UC方法的加入使得实体识别的召回率显著提升,MVC方法提升了模型的F1值。 展开更多
关键词 序列标注 命名实体识别 二十四史 MU方法 跨度预测
在线阅读 下载PDF
基于数字远读技术的社会画像构建方法研究 被引量:1
2
作者 何琳 艾毓茜 +1 位作者 刘建斌 彭秋茹 《现代情报》 CSSCI 2022年第7期22-30,共9页
[目的/意义]数字远读视角下分析历史典籍,将特定时期社会通过可视化等综合技术展现给研究者,以帮助研究者量化史学研究。[方法/过程]以社会发展过程中产生的文本数据为基础,借鉴用户画像概念,提出社会画像的构建方法。根据各发展分面内... [目的/意义]数字远读视角下分析历史典籍,将特定时期社会通过可视化等综合技术展现给研究者,以帮助研究者量化史学研究。[方法/过程]以社会发展过程中产生的文本数据为基础,借鉴用户画像概念,提出社会画像的构建方法。根据各发展分面内在逻辑数据构建社会画像描述框架,利用多种文本挖掘技术抽取不同维度的特征标签,形成社会画像,并以先秦时期为例进行实证研究。[结果/结论]借助基于史实的社会画像,能够全景化呈现社会发展状况,可以为研究者快速获得古代社会概貌提供支持,具有一定的实践意义和价值。 展开更多
关键词 社会画像 数字远读 用户画像 文本挖掘 社会发展
在线阅读 下载PDF
基于机器阅读理解的古文事件抽取研究 被引量:2
3
作者 喻雪寒 何琳 王献琪 《情报学报》 CSSCI CSCD 北大核心 2023年第3期316-326,共11页
准确地梳理古文典籍脉络,抽取典籍中蕴含的事件和事件论元,对古籍从文本数据向智能化数据转化具有重要意义。针对古文事件的抽取研究主要有基于模式匹配、机器学习和神经网络三种方式,本文在现有的基于神经网络的方法中融入机器阅读理... 准确地梳理古文典籍脉络,抽取典籍中蕴含的事件和事件论元,对古籍从文本数据向智能化数据转化具有重要意义。针对古文事件的抽取研究主要有基于模式匹配、机器学习和神经网络三种方式,本文在现有的基于神经网络的方法中融入机器阅读理解模式,将事件抽取中出现的“事件类型”和“论元角色”糅合为问题形式,由此输出的答案即为事件论元。分别选取编年体史书《左传》和纪传体史书《史记》作为训练和泛化的数据,在具体的泛化过程中引入混淆句以验证模型效果,为古文事件抽取提供了可参照的思路。 展开更多
关键词 古籍文本 机器阅读理解 事件抽取 RoBERTa 混淆句
在线阅读 下载PDF
重建知识源流:将结构化知识自动溯源至史籍原文 被引量:1
4
作者 张琪 孔嘉 +3 位作者 胡昊天 王东波 王昊 邓三鸿 《情报学报》 CSSCI CSCD 北大核心 2024年第4期405-415,共11页
将结构化历史知识溯源至史籍原文能够提升知识的可验证性和可靠性。本研究针对古籍知识库缺乏完善知识溯源机制和部分古汉语文本缺乏触发词的问题,提出了一种将结构化历史知识溯源至史籍原文的方法。首先,结合共指消解、文本蕴涵等技术... 将结构化历史知识溯源至史籍原文能够提升知识的可验证性和可靠性。本研究针对古籍知识库缺乏完善知识溯源机制和部分古汉语文本缺乏触发词的问题,提出了一种将结构化历史知识溯源至史籍原文的方法。首先,结合共指消解、文本蕴涵等技术和方法,提出了结构化历史知识溯源框架;其次,在构造数据集的基础上,通过实验对比了BERT(bidirectional encoder representations from transformers)、SikuBERT与GPT-3(generative pre-trained transformer 3)、GPT-4等不同预训练模型和不同输入策略对知识溯源效果的影响,构建了结构化历史知识溯源模型SHK-Tracer(structured historical knowledge tracing model),其精确率为80.19%;最后,采用SHK-Tracer将史记多维知识库(Shiji Mutil-dimensional Knowledge Base,SMKB)分别溯源至不同的史书,发现《史记》与《左传》《国语》中各史料片段的知识重合度及片段本身所包含的信息含量不成正比。本研究结果一方面能够支持相关读者核验知识真伪、提供不同史料之间的相互参照以及结合史料年代等信息确定知识源头,另一方面能够为史籍知识计量、关系抽取和语言风格计算等数字人文研究提供基础语料。 展开更多
关键词 知识服务 知识溯源 知识计量 数字人文 知识三元组
在线阅读 下载PDF
学术共同体共谋:特邀学者笔谈 被引量:3
5
作者 曹树金 邓小昭 +14 位作者 傅文奇 黄水清 金波 李广建 刘冰 沈固朝 孙建军 吴建中 王曰芬 肖希明 叶继元 于良芝 臧国全 周瑛 朱庆华 《图书情报知识》 CSSCI 北大核心 2020年第5期138-169,共32页
在本篇笔谈中,特别邀请了图书情报与档案管理、信息与数据管理领域的知名学者,畅谈他们在本领域从业、从教、从研等方面的体会和感想。构建和维护良好的学术共同体,是学界共同的使命和责任。
关键词 学术共同体 文华精神 图书情报学 图情档教育 学科发展
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部