-
题名基于大语言模型技术的古籍限定域关系抽取及应用研究
被引量:1
- 1
-
-
作者
刘畅
张琪
王东波
沈思
吴梦成
刘浏
苏雨诗
-
机构
南京农业大学信息管理学院
山西大学经济与管理学院
南京理工大学经济管理学院
-
出处
《情报学报》
北大核心
2025年第2期200-219,共20页
-
基金
国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(21&ZD331)。
-
文摘
古籍文本中的细粒度知识单元的自动抽取和结构化能够为群体传记、历史地图等古籍数字人文研究提供数据基础。基于判别式模型的抽取方法严重受制于古汉语本身语义的复杂性和训练样本的缺失,抽取效果和领域迁移的效果受到影响,相关研究亟待生成式人工智能技术的赋能。本研究探索了基于大语言模型的古籍领域限定域关系抽取方法和高质量训练语料自动生成方法。通过比较不同提示模板对模型抽取性能的影响,证明了微调方法对模型性能提升具有显著价值。基于ChatGPT4的API服务,结合自指令、思维链与人类反馈合成古籍限定域关系抽取数据集,在数据增强后于两种古籍关系抽取数据集上分别取得56.07%和30.50%的F1值,迁移能力较两种使用全部数据训练的模型均取得了显著提升。本研究还探索了协同使用自指令模型和自动评价模型合成训练语料和评价信息,并基于合成数据训练模型,有效缓解了训练数据不足的问题。研究结果表明,使用大语言模型抽取关系三元组与合成训练数据,能够显著降低过往限定域关系抽取的人力成本,有助于提升古籍领域知识图谱的构建效率。
-
关键词
大语言模型
古籍智能
限定域关系抽取
AI生成数据
数字人文
-
Keywords
large language model
ancient book intelligence
restricted domain relation extraction
AI-generated data
digital humanities
-
分类号
H109.2
[语言文字—汉语]
TP18
[自动化与计算机技术—控制理论与控制工程]
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名限定域关系抽取技术研究综述
被引量:4
- 2
-
-
作者
侯景
邓晓梅
汉鹏武
-
机构
中国科学院空间应用工程与技术中心
中国科学院大学
-
出处
《计算机科学》
CSCD
北大核心
2024年第1期252-265,共14页
-
文摘
限定域关系抽取技术是在预定义实体类型和关系类型的前提下,从文本中捕获关键信息的技术,多采用由头尾实体和关系构成的三元组作为信息表示形式。作为信息抽取领域的重要研究方向之一,其在知识问答、信息检索等任务中被广泛应用。文中在介绍相关概念和任务范式的基础上,分析了深度学习背景下限定域关系抽取任务的研究进展,根据句中实体是否可见,分为关系分类任务和三元组抽取任务,依据任务表现特征,前者可细分为有监督条件下的关系分类任务、小样本关系分类任务和远程监督条件下的关系分类任务。文中探讨和分析了以上任务中常用的技术方法及其优缺点,最后归纳总结了关系抽取技术在低资源、多模态等更为接近真实情景下的发展潜力和现存的挑战。
-
关键词
限定域关系抽取
深度学习
关系分类
三元组
远程监督
-
Keywords
Domain-limited
Deep learning
Relation classification
Triples
Distant supervision
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-