-
题名基于大语言模型的中文科技文献标注方法
被引量:3
- 1
-
-
作者
杨冬菊
黄俊涛
-
机构
北方工业大学信息学院
大规模流数据集成与分析技术北京市重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第9期113-120,共8页
-
基金
国家自然科学基金重点项目(61832004)
广州市科技计划项目-重点研发计划(202206030009)。
-
文摘
高质量的标注数据是中文科技文献领域自然语言处理任务的重要基石。针对目前缺乏中文科技文献的高质量标注语料以及人工标注质量参差不齐且效率低下的问题,提出一种基于大语言模型的中文科技文献标注方法。首先,制定适用于多领域中文科技文献的细粒度标注规范,明确标注实体类型以及标注粒度;其次,设计结构化文本标注提示模板和生成解析器,将中文科技文献标注任务设置成单阶段单轮问答过程,将标注规范和带标注文本填充至提示模板中相应的槽位以构建任务提示词;然后,将提示词注入到大语言模型中生成包含标注信息的输出文本,经由解析器解析得到结构化的标注数据;最后,利用基于大语言模型的提示学习生成中文科技文献实体标注数据集ACSL,其中包含分布在48个学科的10000篇标注文档以及72536个标注实体,并在ACSL上提出基于RoBERTa-wwm-ext的3个基准模型。实验结果表明,BERT+Span模型在长跨度的中文科技文献实体识别任务中表现最佳,F1值为0.335。上述结果可作为后续研究的测试基准。
-
关键词
文本标注方法
中文科技文献
大语言模型
提示学习
信息抽取
-
Keywords
text annotation method
Chinese scientific literature
Large Language Model(LLM)
prompt learning
information extraction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-