-
题名大语言模型在摘要结构功能识别上的应用研究
- 1
-
-
作者
翁梦娟
王晓光
桂恒
刘文斌
石佛波
-
机构
武汉大学信息管理学院
-
出处
《现代情报》
北大核心
2025年第4期36-48,共13页
-
基金
国家社会科学基金重大项目“文化遗产智慧数据资源建设与服务研究”(项目编号:21&ZD334)。
-
文摘
[目的/意义]测试GPT等生成式大模型在摘要结构功能识别这一判别式任务上的可行性及应用潜力,为基于生成式大语言模型构建高质量结构化数据提供参考。[方法/过程]采用单轮、零样本提示的方式基于GPT 4.0、Qwen 1.5和ERNIE 4.0实现结构功能分类任务,根据领域、语种、时间划分构建不同的测试子集,以P、R、F1和准确率为评估指标,以单因素方差分析结果衡量不同测试子集间的性能差异程度。[结果/结论]大语言模型的输出不完全与提示中的约束一致,说明使用生成式模型解决判别式任务时,输出结果存在不可控风险,但符合提示的输出比例较高说明使用生成式模型解决判别式任务基本可用。不同大语言模型的性能表现不同,GPT 4.0和ERNIE 4.0在不同结构功能类别样本的所有指标、不同领域样本的R和准确率、不同语种样本的P和F1均表现出0.01水平显著性,其他则无显著差异。未来基于生成式大语言模型解决判别式任务时应着重关注输出结果的可控性、领域自适应等问题。
-
关键词
结构功能识别
生成式大模型
大语言模型
结构化摘要
语步识别
-
Keywords
structural function recognition
large language model
generative large language models
structured abstract
move recognition
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
G250.2
[文化科学—图书馆学]
-
-
题名学术文本结构功能深度学习识别方法的多学科对比分析
被引量:8
- 2
-
-
作者
李楠
方丽
张逸飞
-
机构
华东理工大学科技信息研究所
华东理工大学信息科学与工程学院
-
出处
《现代情报》
CSSCI
2019年第12期55-63,87,共10页
-
文摘
[目的/意义]学术文本的结构功能识别可视为多类别文本自动分类问题,借助深度学习技术能够获得良好的自动识别性能,然而目前缺少其在不同学科适用性的对比研究。[方法/过程]选择医学、图情、数据、出版、经济5个学科方向5种期刊的6 452篇结构式摘要为基础语料,设计并实现了基于Magpie深度学习组件的学术文本结构功能识别实验,通过对比分析同一分类模型在不同学科领域实验语料上的性能表现及其影响因素,揭示机器学习方法的学科适用性规律。[结果/结论]实验结果显示,学科差异性对于机器学习效果有显著的影响,其中医学领域学术文本的结构功能识别效率明显高于其他学科,常见的学术文本功能结构框架中"方法"和"结果"的机器学习识别效果更佳。
-
关键词
文本结构功能识别
深度学习
多学科
文本分类
MAGPIE
-
Keywords
textual structure function recognition
deep learning
multidisciplinary
text categorization
Magpie
-
分类号
G203
[文化科学—传播学]
-
-
题名基于全字语义的摘要结构功能自动识别研究
被引量:24
- 3
-
-
作者
沈思
胡昊天
叶文豪
王东波
-
机构
南京理工大学经济管理学院
南京农业大学信息科技学院
-
出处
《情报学报》
CSSCI
CSCD
北大核心
2019年第1期79-88,共10页
-
基金
国家自然科学基金青年项目"基于时间感知模型的学术主题检索与演化挖掘研究"(71503124)
国家自然科学基金青年项目"基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究"(71303120)
-
文摘
学术文献摘要的各个结构都具有特定的功能,但是目前对学术文献摘要结构功能自动识别的研究相对较少,且存在方法较为传统、识别效果不显著的问题。以摘要文本中的字为基本语义单位,本文以基于具有序列属性的LSTM-CRF模型的深度学习方法,利用摘要中所有字所包含的语义信息,构建了期刊论文摘要结构功能自动识别模型,并与具有非序列属性的SVM模型与具有序列属性的RNN模型、CRF模型和LSTM模型进行了多个角度地对比。本文提出的模型在摘要结构功能识别的准确率、召回率和F值上均取得显著效果,F值最高达到85.47%。与RNN模型、CRF模型、LSTM模型和SVM模型相比,LSTM-CRF的平均整体性能分别提升了33.63%、39.13%、32.81%和38.33%。
-
关键词
全字语义
序列属性
摘要结构功能识别
LSTM-CRF
-
Keywords
full character semantics
sequence properties
abstract structure function recognition
LSTM-CRF
-
分类号
G254
[文化科学—图书馆学]
-
-
题名科技文献内容语义识别研究综述
被引量:10
- 4
-
-
作者
黄红
陈翀
张婧莹
-
机构
北京师范大学政府管理学院
-
出处
《情报学报》
CSSCI
CSCD
北大核心
2022年第9期991-1002,共12页
-
基金
国家社会科学基金一般项目“面向科研人员定量评价的多维学术专长识别及属性度量研究”(21BTQ065)。
-
文摘
科技文献内容的语义识别是将蕴含在文本中的科研要素显式地揭示出来。它属于细粒度文本挖掘,是获取和利用知识的基础。本文梳理科技文献内容的语义识别相关研究,为后续研究提供参考。首先概括现有的文献内容语义标注模型,然后围绕章节、句子、词汇三种识别粒度,梳理科技文献内容语义识别问题的研究发展,总结识别方法、评测手段以及典型应用,并据此提出现存问题及未来发展方向。本文探讨了五个方面的问题:(1)人们关注文献内容中哪些语义类型;(2)选取什么粒度的文本单元作为识别对象;(3)识别方法分为哪些类型;(4)如何评测识别结果;(5)语义识别有哪些典型应用。本文发现目前还存在语义类型标准不一、优质文献数据集欠缺、研究关注点不平衡、识别方法存在局限等问题,需要在后续研究中探寻解决方法。
-
关键词
科技文献内容挖掘
语义类型
章节结构功能识别
语步识别
词汇语义识别
-
Keywords
content mining of scientific literature
semantic type
chapter structure function identification
move identification
lexical semantic identification
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
G254
[文化科学—图书馆学]
-