-
题名基于深度域适应方法的非结构化摘要功能识别研究
- 1
-
-
作者
施顺顺
苟震宇
张琳
黄颖
-
机构
武汉大学信息管理学院
武汉大学科教管理与评价中心
比利时鲁汶大学ECOOM研究中心
-
出处
《现代情报》
北大核心
2025年第10期3-15,共13页
-
基金
国家自然科学基金面上项目“从测度到理解:跨学科研究的成果分类、合作模式与影响扩散研究”(项目编号:72374160)。
-
文摘
语料数据集中提取上下文特征,然后在特征提取器、域判别器和类别分类器共同作用下,将结构功能特征知识从带标记的源域数据迁移到无标记的目标域数据,旨在实现训练样本无标注条件下的模型跨域迁移。此外,采用SHAP方法为模型输出结果提供可解释性分析,并在目标域(COVID-19数据集)和源域(PubMed 20K数据集)上进行实验。[结果/结论]基于深度域适应方法的模型比基线模型取得了更优的识别性能,其中“方法”“结果”功能的识别效果和可解释性最佳。实验结果表明,该模型能够以无监督学习方式实现从源域到目标域的知识迁移,减轻了模型对数据标注的依赖,同时增强了模型在该任务上的可移植性。
-
关键词
摘要结构
功能识别
领域自适应
深度学习
无监督学习
-
Keywords
abstract structure
function recognition
domain adaptation
deep learning
unsupervised learning
-
分类号
G254.3
[文化科学—图书馆学]
G252.8
[文化科学—图书馆学]
-
-
题名大模型驱动的科技论文新颖性测度探索
- 2
-
-
作者
张琳
李思佳
施顺顺
苟震宇
黄颖
-
机构
武汉大学信息管理学院
武汉大学科教管理与评价中心
鲁汶大学ECOOM研究中心
-
出处
《情报学报》
北大核心
2025年第9期1099-1113,共15页
-
基金
国家自然科学基金面上项目“从测度到理解:跨学科研究的成果分类、合作模式与影响扩散研究”(72374160)。
-
文摘
科技论文的新颖性测度是创新性评价的重要组成部分,为了分析和提高大模型在科技论文新颖性测度任务中的可用性和可解释性,本文从科技论文的研究问题、研究方法、研究结论等知识单元出发,探索性地提出一种大模型驱动的科技论文新颖性测度方法。本文设计了面向科技论文知识单元抽取任务的提示模板,使用有监督微调(supervised fine-tuning,SFT)和直接偏好优化(direct preference optimization,DPO)技术微调Qwen2-72B-Instruct开源大语言模型,抽取科技论文中的“问题”“方法”和“结论”知识单元;实现知识单元的语义嵌入,并引入平均聚合思想实现知识单元组合的语义嵌入,通过比较“新”论文与“旧”参照论文集间的语义嵌入向量来测度“新”论文的新颖性。研究结果表明,在科技论文知识单元抽取任务中,微调后的模型效果优于基线模型;相较于已有的论文新颖性计算方法,本文提出的基于知识单元的科技论文新颖性测度模型能从知识单元及其组合的语义层面捕获更为精细的新颖性差异。综合来看,大模型驱动的科技论文新颖性测度方法能够较好地完成科技论文新颖性测度任务,丰富论文新颖性测度方法。本文仅在计算机科学与技术学科中文论文摘要集上展开实验,对于其他领域的可用性有待进一步讨论,同时在使用大模型时仍需要人工辅助以提高结果的可解释性和可靠性。
-
关键词
大语言模型
知识单元
知识嵌入
论文新颖性
-
Keywords
large language model
knowledge unit
knowledge embedding
paper novelty
-
分类号
G3
[文化科学]
-
-
题名知识的新陈代谢:国内外科学文献老化研究评述
被引量:1
- 3
-
-
作者
刘富康
苟震宇
黄文彬
步一
-
机构
北京大学信息管理系
武汉大学信息管理学院
武汉大学科教管理与评价中心
北京大学大数据管理与应用教研室
-
出处
《图书馆论坛》
CSSCI
北大核心
2022年第8期90-99,共10页
-
基金
教育部人文社会科学青年项目“复杂网络视角下科学文献的知识融合与知识扩散对比研究”(项目编号:21YJC870001)研究成果。
-
文摘
科学文献是科学创新的基础,系统分析文献生命周期、科学文献老化,为科学文献价值的开发利用及管理提供指导。文章从理论模型、影响因素、现象特征、实践应用等方面对科学文献老化研究成果作综述评价。研究发现:科学文献老化研究成果丰富,但较少有突破性、颠覆性研究;科学文献老化作为一种思想已被广泛接受。
-
关键词
文献生命周期
科学文献老化
信息计量
科学评价
-
Keywords
life cycle of literature
obsolescence of scientific literature
informetrics
scientific evaluation
-
分类号
G250
[文化科学—图书馆学]
-