期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
智能情报技术:内涵、边界与体系
被引量:
1
1
作者
姚长青
程齐凯
+1 位作者
王莉军
刘家伟
《情报学报》
北大核心
2025年第1期1-9,共9页
情报工作正经历着从传统模式向智能化模式的深刻转型。从早期的智能检索到当前的大模型驱动的智能情报理解,情报技术已逐步从“智能+情报”和“智能for情报”等演化为“智能即情报”和“情报即智能”的新模式。本文详细探讨了智能情报...
情报工作正经历着从传统模式向智能化模式的深刻转型。从早期的智能检索到当前的大模型驱动的智能情报理解,情报技术已逐步从“智能+情报”和“智能for情报”等演化为“智能即情报”和“情报即智能”的新模式。本文详细探讨了智能情报技术的概念、技术边界及其体系建构,提出了面向数智时代的智能情报技术体系架构,涵盖了全源科技情报协同感知与融合技术、智能情报认知理解技术、智能情报监测预警技术、竞争情报智能分析技术和科技情报驱动的智能循证决策技术。该体系全面覆盖情报工作的各个流程,旨在通过体系建构助力提升情报工作和情报研究的智能化水平,服务科技情报事业的智能化转型,支撑我国高水平科技自立自强。本文不仅对智能情报技术的发展具有重要的理论价值,也为实际应用提供了明确的技术路径和实施框架。
展开更多
关键词
智能情报技术
技术体系
人工智能
情报技术
在线阅读
下载PDF
职称材料
大模型驱动的学术文本挖掘——调优端参数高效微调策略研究
2
作者
刘寅鹏
陆伟
+3 位作者
石湘
刘家伟
程齐凯
黄永
《情报学报》
北大核心
2025年第9期1159-1172,共14页
学术文本深度理解能力已成为情报工作重要支撑,大模型在此类工作中展现了巨大的潜力。大模型可以从推理端和调优端两个方向提升模型的知识挖掘和利用能力。当前,在领域深度相关的学术文本挖掘任务上,推理端的各类指令工程技术仍难以充...
学术文本深度理解能力已成为情报工作重要支撑,大模型在此类工作中展现了巨大的潜力。大模型可以从推理端和调优端两个方向提升模型的知识挖掘和利用能力。当前,在领域深度相关的学术文本挖掘任务上,推理端的各类指令工程技术仍难以充分发挥大模型的深度语义理解能力,因此,在调优端使用参数高效微调技术面向领域任务对模型参数进行适配,成为大模型赋能学术文本挖掘的关键。目前尚未形成对模型应用不同调优方法的性能和效益的系统性探索。本研究构建了面向学术文本挖掘的参数高效微调框架和性能效益评测体系,通过对7类指令调优模型应用8项调优方法后的性能指标与成本效益进行评估,对参数高效微调策略与调优模型在学术文本挖掘任务上的能力边界进行探索。研究结果表明,在各类调优方法中,全量微调性能最优,但其领先优势并不显著;QLoRA(quantized low-rank adaptation)的计算成本最低,成为综合效益最高的调优方法。不同规模和架构的大模型调优后的性能差异不大,Mistral-7B-Instruct-v0.1等规模较小的模型使用QLoRA调优后可取得与百亿级模型相当的性能指标。调优后的大模型在引文功能识别、科技实体抽取、科技文本推理3类任务上的性能指标均大幅领先于其在指令端的表现;相比于传统深度学习模型,大模型在学术文本推理任务上全面领先,在科技实体抽取和引文功能识别任务上与小模型性能相近。由此可见,大模型在难度较高的复杂任务上表现更好,而对于简单的序列标注任务和分类任务,使用小模型的收益更高。
展开更多
关键词
大模型
学术文本挖掘
参数高效微调策略
能力评估
在线阅读
下载PDF
职称材料
面向可溯源文本生成的科技文献伪反馈训练数据合成研究
3
作者
马永强
刘家伟
高影繁
《情报学报》
北大核心
2025年第7期830-845,共16页
在学术文本中插入恰当的引文标识是学术写作的基本规范,可以帮助读者验证文本内容的真实性。引文标识符可以用于实现内容溯源、保证内容可验证性。在学术场景中,现有大语言模型普遍缺乏内置的内容溯源机制,导致所生成学术文本的可验证...
在学术文本中插入恰当的引文标识是学术写作的基本规范,可以帮助读者验证文本内容的真实性。引文标识符可以用于实现内容溯源、保证内容可验证性。在学术场景中,现有大语言模型普遍缺乏内置的内容溯源机制,导致所生成学术文本的可验证性不足。当前,借助领域数据集来优化大模型是主流的研究思路。然而,在优化模型可溯源性方面,基于人类撰写的学术文本所构建的训练集存在内在一致性不足、引文标注行为差异性大等问题,基于大模型的数据合成方法在数据多样性方面也存在局限性。为此,本文提出了一种面向可溯源学术文本的引文标识符体系与评测方法,用于分析大模型所生成学术文本的可溯源性。然后,从训练数据的角度,针对可溯源的学术文本生成,本文提出了一种两阶段伪反馈训练数据合成方法,兼顾大模型标注文本和人类标注文本的特性,构建高质量、多样化的训练数据。研究结果表明,采用本文构建的合成数据训练的小模型,能够生成更具可溯源性的学术文本;通过第二阶段的伪反馈进一步优化数据分布和任务多样性,有助于增强模型的泛化能力。
展开更多
关键词
大语言模型
数据合成
学术多文档摘要
文本可溯源性
在线阅读
下载PDF
职称材料
基于富语义词元的大模型生成策略优化
4
作者
程齐凯
石湘
+1 位作者
于丰畅
黄圣智
《情报学报》
北大核心
2025年第6期761-782,共22页
近年来,通用大模型技术取得了显著进展,但在科技情报领域的应用中,仍面临推理效率低下和领域任务适配性不足的问题。为此,本文系统地分析了大模型的生成机制,并提出了“富语义词元”概念,旨在描述大模型在生成过程中倾向产生的、具有语...
近年来,通用大模型技术取得了显著进展,但在科技情报领域的应用中,仍面临推理效率低下和领域任务适配性不足的问题。为此,本文系统地分析了大模型的生成机制,并提出了“富语义词元”概念,旨在描述大模型在生成过程中倾向产生的、具有语义聚合性、上下文依赖性或任务相关性的词元或词元序列。基于该概念,本文设计了一种基于生成偏好的大小模型协同生成策略。通过富语义词元的挖掘、复制机制及动态验证策略,实现在小模型与大模型之间的协同作用,推动大模型由逐词元生成向多个词元同步生成的转变,从而提升生成效率与任务适配性。本文从生成性能、泛用性和生成效率三个维度对该生成优化策略进行了评估。研究结果表明,该策略在法律、医学和新闻百科等多个领域任务中的评估指标均优于传统生成优化方法。本文为大模型生成优化、任务适配性提升以及可信可靠大模型构建提供了新的理论基础和实践路径。
展开更多
关键词
富语义词元
大小模型协同
生成优化
动态投机采样
在线阅读
下载PDF
职称材料
题名
智能情报技术:内涵、边界与体系
被引量:
1
1
作者
姚长青
程齐凯
王莉军
刘家伟
机构
中国科学技术信息
研究所
武汉大学
信息管理学院
武汉大学智能与创新治理研究所
出处
《情报学报》
北大核心
2025年第1期1-9,共9页
基金
新一代人工智能国家科技重大专项项目“高可靠科技文献智能引擎关键技术研发与示范应用”(2023ZD0121500)
国家自然科学基金重点项目“数智赋能的科技信息资源与知识管理理论变革”(72234005)
中央高校基本科研业务费专项资金资助项目(2042023kf0220)。
文摘
情报工作正经历着从传统模式向智能化模式的深刻转型。从早期的智能检索到当前的大模型驱动的智能情报理解,情报技术已逐步从“智能+情报”和“智能for情报”等演化为“智能即情报”和“情报即智能”的新模式。本文详细探讨了智能情报技术的概念、技术边界及其体系建构,提出了面向数智时代的智能情报技术体系架构,涵盖了全源科技情报协同感知与融合技术、智能情报认知理解技术、智能情报监测预警技术、竞争情报智能分析技术和科技情报驱动的智能循证决策技术。该体系全面覆盖情报工作的各个流程,旨在通过体系建构助力提升情报工作和情报研究的智能化水平,服务科技情报事业的智能化转型,支撑我国高水平科技自立自强。本文不仅对智能情报技术的发展具有重要的理论价值,也为实际应用提供了明确的技术路径和实施框架。
关键词
智能情报技术
技术体系
人工智能
情报技术
Keywords
intelligent information technology
technology system
artificial intelligence
information technology
分类号
G350 [文化科学—情报学]
在线阅读
下载PDF
职称材料
题名
大模型驱动的学术文本挖掘——调优端参数高效微调策略研究
2
作者
刘寅鹏
陆伟
石湘
刘家伟
程齐凯
黄永
机构
武汉大学
信息管理学院
武汉大学智能与创新治理研究所
出处
《情报学报》
北大核心
2025年第9期1159-1172,共14页
基金
国家自然科学基金重点项目“数智赋能的科技信息资源与知识管理理论变革”(72234005)
国家自然科学基金面上项目“基于机器阅读理解的科学命题文本论证逻辑识别”(72174157)。
文摘
学术文本深度理解能力已成为情报工作重要支撑,大模型在此类工作中展现了巨大的潜力。大模型可以从推理端和调优端两个方向提升模型的知识挖掘和利用能力。当前,在领域深度相关的学术文本挖掘任务上,推理端的各类指令工程技术仍难以充分发挥大模型的深度语义理解能力,因此,在调优端使用参数高效微调技术面向领域任务对模型参数进行适配,成为大模型赋能学术文本挖掘的关键。目前尚未形成对模型应用不同调优方法的性能和效益的系统性探索。本研究构建了面向学术文本挖掘的参数高效微调框架和性能效益评测体系,通过对7类指令调优模型应用8项调优方法后的性能指标与成本效益进行评估,对参数高效微调策略与调优模型在学术文本挖掘任务上的能力边界进行探索。研究结果表明,在各类调优方法中,全量微调性能最优,但其领先优势并不显著;QLoRA(quantized low-rank adaptation)的计算成本最低,成为综合效益最高的调优方法。不同规模和架构的大模型调优后的性能差异不大,Mistral-7B-Instruct-v0.1等规模较小的模型使用QLoRA调优后可取得与百亿级模型相当的性能指标。调优后的大模型在引文功能识别、科技实体抽取、科技文本推理3类任务上的性能指标均大幅领先于其在指令端的表现;相比于传统深度学习模型,大模型在学术文本推理任务上全面领先,在科技实体抽取和引文功能识别任务上与小模型性能相近。由此可见,大模型在难度较高的复杂任务上表现更好,而对于简单的序列标注任务和分类任务,使用小模型的收益更高。
关键词
大模型
学术文本挖掘
参数高效微调策略
能力评估
Keywords
large language models
academic text mining
parameter-efficient fine-tuning(PEFT)
capability evaluation
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
面向可溯源文本生成的科技文献伪反馈训练数据合成研究
3
作者
马永强
刘家伟
高影繁
机构
武汉大学
信息管理学院
武汉大学智能与创新治理研究所
中国科学技术信息
研究所
出处
《情报学报》
北大核心
2025年第7期830-845,共16页
基金
新一代人工智能国家科技重大专项项目“高可靠科技文献智能引擎关键技术研发与示范应用”(2023ZD0121500)
国家自然科学基金项目“基于知识融合的科技文献大模型可靠性增强技术研究”(72404212)。
文摘
在学术文本中插入恰当的引文标识是学术写作的基本规范,可以帮助读者验证文本内容的真实性。引文标识符可以用于实现内容溯源、保证内容可验证性。在学术场景中,现有大语言模型普遍缺乏内置的内容溯源机制,导致所生成学术文本的可验证性不足。当前,借助领域数据集来优化大模型是主流的研究思路。然而,在优化模型可溯源性方面,基于人类撰写的学术文本所构建的训练集存在内在一致性不足、引文标注行为差异性大等问题,基于大模型的数据合成方法在数据多样性方面也存在局限性。为此,本文提出了一种面向可溯源学术文本的引文标识符体系与评测方法,用于分析大模型所生成学术文本的可溯源性。然后,从训练数据的角度,针对可溯源的学术文本生成,本文提出了一种两阶段伪反馈训练数据合成方法,兼顾大模型标注文本和人类标注文本的特性,构建高质量、多样化的训练数据。研究结果表明,采用本文构建的合成数据训练的小模型,能够生成更具可溯源性的学术文本;通过第二阶段的伪反馈进一步优化数据分布和任务多样性,有助于增强模型的泛化能力。
关键词
大语言模型
数据合成
学术多文档摘要
文本可溯源性
Keywords
large language models
data synthesis
scientific multi-document summarization
text attributable
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于富语义词元的大模型生成策略优化
4
作者
程齐凯
石湘
于丰畅
黄圣智
机构
武汉大学
信息管理学院
武汉大学智能与创新治理研究所
出处
《情报学报》
北大核心
2025年第6期761-782,共22页
基金
新一代人工智能国家科技重大专项项目“高可靠科技文献智能引擎关键技术研发与示范应用”(2023ZD0121500)
国家自然科学基金面上项目“基于机器阅读理解的科学命题文本论证逻辑识别”(72174157)。
文摘
近年来,通用大模型技术取得了显著进展,但在科技情报领域的应用中,仍面临推理效率低下和领域任务适配性不足的问题。为此,本文系统地分析了大模型的生成机制,并提出了“富语义词元”概念,旨在描述大模型在生成过程中倾向产生的、具有语义聚合性、上下文依赖性或任务相关性的词元或词元序列。基于该概念,本文设计了一种基于生成偏好的大小模型协同生成策略。通过富语义词元的挖掘、复制机制及动态验证策略,实现在小模型与大模型之间的协同作用,推动大模型由逐词元生成向多个词元同步生成的转变,从而提升生成效率与任务适配性。本文从生成性能、泛用性和生成效率三个维度对该生成优化策略进行了评估。研究结果表明,该策略在法律、医学和新闻百科等多个领域任务中的评估指标均优于传统生成优化方法。本文为大模型生成优化、任务适配性提升以及可信可靠大模型构建提供了新的理论基础和实践路径。
关键词
富语义词元
大小模型协同
生成优化
动态投机采样
Keywords
rich semantic tokens
large-small model collaboration
generation optimization
dynamic speculative sampling
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
智能情报技术:内涵、边界与体系
姚长青
程齐凯
王莉军
刘家伟
《情报学报》
北大核心
2025
1
在线阅读
下载PDF
职称材料
2
大模型驱动的学术文本挖掘——调优端参数高效微调策略研究
刘寅鹏
陆伟
石湘
刘家伟
程齐凯
黄永
《情报学报》
北大核心
2025
0
在线阅读
下载PDF
职称材料
3
面向可溯源文本生成的科技文献伪反馈训练数据合成研究
马永强
刘家伟
高影繁
《情报学报》
北大核心
2025
0
在线阅读
下载PDF
职称材料
4
基于富语义词元的大模型生成策略优化
程齐凯
石湘
于丰畅
黄圣智
《情报学报》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部