期刊文献+
共找到230篇文章
< 1 2 12 >
每页显示 20 50 100
基于信息检索的知识库问答综述 被引量:5
1
作者 田萱 吴志超 《计算机研究与发展》 北大核心 2025年第2期314-335,共22页
知识库问答旨在从知识库中检索相关信息用于模型推理,最终返回准确的答案.近年来随着深度学习和大语言模型的发展,基于信息检索的知识库问答研究成为焦点,涌现出许多新颖方法.从模型方法、数据集等不同方面对基于信息检索的知识库问答... 知识库问答旨在从知识库中检索相关信息用于模型推理,最终返回准确的答案.近年来随着深度学习和大语言模型的发展,基于信息检索的知识库问答研究成为焦点,涌现出许多新颖方法.从模型方法、数据集等不同方面对基于信息检索的知识库问答研究进行梳理总结.首先对知识库问答的研究意义和相关定义进行介绍.然后按照模型执行过程从问句解析、信息检索、模型推理、答案生成这4个阶段阐述每个阶段面临的关键问题以及典型解决方法,对每个阶段所使用到的共性网络模块进行总结.其次针对基于信息检索的知识库问答方法的不可解释性进行分析梳理.此外,对不同特点的相关数据集和不同阶段的基线模型进行了分类介绍与总结.最后对基于信息检索的知识库问答每个执行阶段以及该领域整体发展方向进行了总结和展望. 展开更多
关键词 知识库问答 信息检索 深度学习 大语言模型 阶段性问题
在线阅读 下载PDF
基于大语言模型的企业碳排放分析与知识问答系统
2
作者 韩明 曹智轩 +2 位作者 王敬涛 段丽英 王剑宏 《计算机工程与应用》 北大核心 2025年第16期370-382,共13页
随着全球气候变化日益严重,企业碳排放分析成为国际关注的焦点,针对通用大语言模型(large language model,LLM)知识更新滞后,增强生成架构在处理复杂问题时缺乏专业性与准确性,以及大模型生成结果中幻觉率高的问题,通过构建专有知识库,... 随着全球气候变化日益严重,企业碳排放分析成为国际关注的焦点,针对通用大语言模型(large language model,LLM)知识更新滞后,增强生成架构在处理复杂问题时缺乏专业性与准确性,以及大模型生成结果中幻觉率高的问题,通过构建专有知识库,开发了基于大语言模型的企业碳排放分析与知识问答系统。提出了一种多样化索引模块构建方法,构建高质量的知识与法规检索数据集。针对碳排放报告(政策)领域的知识问答任务,提出了自提示检索增强生成架构,集成意图识别、改进的结构化思维链、混合检索技术、高质量提示工程和Text2SQL系统,支持多维度分析企业可持续性报告,为企业碳排放报告(政策)提供了一种高效、精准的知识问答解决方案。通过多层分块机制、文档索引和幻觉识别功能,确保结果的准确性与可验证性,降低了LLM技术在系统中的幻觉率。通过对比实验,所提算法在各模块的协同下在检索增强生成实验中各指标表现优异,对于企业碳排放报告的关键信息抽取和报告评价,尤其是长文本处理具有明显的优势。 展开更多
关键词 大语言模型(LLM) 知识问答系统 大模型幻觉 信息检索 提示学习
在线阅读 下载PDF
虚实结合的行人重识别方法
3
作者 祁磊 任子豪 +1 位作者 刘俊汐 耿新 《计算机研究与发展》 北大核心 2025年第2期418-431,共14页
近年来,随着城市化进程的加速和社会经济的发展,公共安全问题也愈发引起人们的关注.为了保障社会稳定和公民生命财产安全,各地政府开始大力推进智能安防和智慧城市的建设.行人重识别就是构建智慧城市的核心技术之一,对安防监控和刑事调... 近年来,随着城市化进程的加速和社会经济的发展,公共安全问题也愈发引起人们的关注.为了保障社会稳定和公民生命财产安全,各地政府开始大力推进智能安防和智慧城市的建设.行人重识别就是构建智慧城市的核心技术之一,对安防监控和刑事调查申请具有重要意义.行人重识别旨在检索不同摄像头下捕捉到的特定人物.然而,由于光照、视角、遮挡和姿势等造成的类内差异,行人重识别在计算机视觉领域仍然是一项具有挑战性的任务.受限于数据和标记匮乏,已有的全监督行人重识别任务在模型层面上改进的方法效果基本达到瓶颈.引入更复杂多样且标记易获得的大型虚拟数据集来进行辅助训练,并提出了一种基于摄像头感知的非对称领域对抗学习方法,同时缓解领域间差异和多摄像头间类内差异的影响,使模型从更丰富多样的数据中学到摄像头差异无关的特征表示.此外,为了缓解虚拟数据集夹带的误导信息带来的不利影响和对抗训练中真实世界数据集的数据分布向虚拟数据集的数据分布发生偏移的问题,提出使用基于真实数据训练的辅助网络来约束主干网络的训练.实验在2个公开的数据集上进行验证,表明了所提方法的有效性. 展开更多
关键词 行人重识别 对抗学习 知识蒸馏 图像检索 计算机视觉
在线阅读 下载PDF
基于混合检索增强生成大语言模型的网络舆情多任务分析 被引量:3
4
作者 王润周 张新生 +2 位作者 王明虎 苏佳 马玉龙 《情报杂志》 北大核心 2025年第5期91-103,共13页
[研究目的]为缓解大语言模型在网络舆情分析过程中出现输出与现实不符或不正确的“幻觉”现象,以及大语言模型的微调过程通常需要耗费大量的机器资源的问题,提出一种混合检索增强生成策略(Retrieval-Augmented Generation,RAG)来提升大... [研究目的]为缓解大语言模型在网络舆情分析过程中出现输出与现实不符或不正确的“幻觉”现象,以及大语言模型的微调过程通常需要耗费大量的机器资源的问题,提出一种混合检索增强生成策略(Retrieval-Augmented Generation,RAG)来提升大语言模型的自然语言理解和生成能力,实现网络舆情的跨领域、跨任务分析。[研究方法]首先,整合高质量舆情事件数据集构建本地RAG知识库以适应不同领域,避免大规模参数微调,在生成过程中引入检索知识减缓“幻觉”现象。并且,引入上下文信息与提示样例进行知识增强,提升大语言模型在下游任务的准确性。最终整合检索内容、上下文信息、提示样例构建针对舆情分析任务的提示语句,将源领域知识迁移到目标领域。[研究结果/结论]实验结果表明,所构建的混合RAG框架在虚假信息检测、自动化报告生成、智能问答、信息抽取、情感分析多种跨领域、跨语言数据集中表现优异,且能够适应少样本学习的场景。 展开更多
关键词 网络舆情 舆情分析 大语言模型 检索增强生成(RAG) 提示学习
在线阅读 下载PDF
基于大语言模型的智能问答系统研究综述 被引量:14
5
作者 任海玉 刘建平 +4 位作者 王健 顾勋勋 陈曦 张越 赵昌顼 《计算机工程与应用》 北大核心 2025年第7期1-24,共24页
智能问答是自然语言处理中的一个核心的子领域,旨在理解并回答用户提出的自然语言问题的系统。传统的问答系统通常依赖于预定义的规则和有限的语料库,无法处理复杂的多轮对话。大语言模型是一种基于深度学习技术的自然语言处理模型,拥... 智能问答是自然语言处理中的一个核心的子领域,旨在理解并回答用户提出的自然语言问题的系统。传统的问答系统通常依赖于预定义的规则和有限的语料库,无法处理复杂的多轮对话。大语言模型是一种基于深度学习技术的自然语言处理模型,拥有数十亿甚至上千亿个参数,不仅能够理解和生成自然语言,还能显著提升问答系统的准确性和效率,推动智能问答技术的发展。近年来,基于大模型技术的智能问答逐渐成为研究热点,但对该领域的系统性综述仍然较为欠缺。因此,针对大模型的智能问答系统进行系统综述,介绍了问答系统的基本概念和数据集及其评价指标;介绍了基于大模型的问答系统,其中包括基于提示学习的问答系统、基于知识图谱的问答系统、基于检索增强生成的问答系统和基于智能代理的问答系统以及微调在问答任务中的技术路线,并对比了五种方法在问答系统中的优缺点和应用场景;对于当前基于大语言模型的问答系统面临的研究挑战和未来发展趋势进行了总结。 展开更多
关键词 大语言模型 智能问答 自然语言处理 检索增强生成 提示学习 知识图谱
在线阅读 下载PDF
一种基于知识图谱的检索增强生成情报问答技术 被引量:4
6
作者 成志宇 陈星霖 +2 位作者 王菁 周中元 张志政 《计算机科学》 北大核心 2025年第1期87-93,共7页
为实现军事情报问答,提出了一种基于知识图谱的检索增强生成框架。该框架通过问题分类、实体识别、实体链接、知识检索有效地获取了背景知识。同时考虑到情报问题多约束的特点,使用回答集编程在知识上通过约束限制减少知识数量或者直接... 为实现军事情报问答,提出了一种基于知识图谱的检索增强生成框架。该框架通过问题分类、实体识别、实体链接、知识检索有效地获取了背景知识。同时考虑到情报问题多约束的特点,使用回答集编程在知识上通过约束限制减少知识数量或者直接获得答案。最后,使用大语言模型在精炼后的知识上对问题进行求解,以减少问题理解过程中的属性识别与链接。在MilRE数据集上的实验表明,所提框架能够提供基于知识图谱的增强知识检索功能,并具有较好的军事情报问题解答能力。 展开更多
关键词 情报问答 回答集编程 大语言模型 检索增强生成 知识图谱
在线阅读 下载PDF
人工智能大模型在电力设备运维场景中的应用探讨 被引量:3
7
作者 陈晓红 傅文润 +4 位作者 刘朝明 刘泽洪 李俊朋 胡志亮 胡东滨 《中国工程科学》 北大核心 2025年第1期180-192,共13页
电力设备运维是新型电力系统建设的重要环节,以人工智能(AI)大模型技术为代表的AI技术变革为传统电力设备运维的数智化提供了新机遇。本文探讨了多模态AI大模型对电力设备健康状态评估、电力设备运行状态预测、电力设备故障诊断、电力... 电力设备运维是新型电力系统建设的重要环节,以人工智能(AI)大模型技术为代表的AI技术变革为传统电力设备运维的数智化提供了新机遇。本文探讨了多模态AI大模型对电力设备健康状态评估、电力设备运行状态预测、电力设备故障诊断、电力设备寿命预测、电力设备故障检修策略推荐等电力运维具体场景的赋能作用,辨识了数据问题制约电力AI大模型的应用成效、“算法黑箱”影响智能运维辅助决策的透明度与可靠性、环境变化导致电力AI大模型性能衰退等多模态AI大模型赋能电力设备运维的技术难点。着眼攻克相关技术难点,结合知识图谱检索增强生成、多模态对齐、微调和持续学习等大模型应用优化技术,构建了基于多模态AI大模型的电力设备运维系统架构,梳理了多模态AI大模型在电力设备运维场景应用时涉及的需求分析、模型训练、应用部署、运营管理等主要阶段的实现过程,进而提出了持续监控并优化数据质量、采用持续学习算法、建立模型性能反馈循环机制等大模型性能持续优化策略。进一步探讨了多模态AI大模型赋能电力设备运维的应用趋势和发展保障举措,以深化对电力设备智能运维领域的前沿技术认知,推动构建智能化、智慧化的新型电力系统。 展开更多
关键词 新型电力系统 电力设备运维 多模态AI大模型 检索增强生成 知识图谱
在线阅读 下载PDF
从RAG到SAGE:现状与展望 被引量:1
8
作者 田永林 王雨桐 +9 位作者 王兴霞 杨静 沈甜雨 王建功 范丽丽 郭超 王寿文 赵勇 武万森 王飞跃 《自动化学报》 北大核心 2025年第6期1145-1169,共25页
大模型技术的兴起显著提升了人们获取和利用知识的效率,但在实际应用中仍然面临着知识受限、迁移障碍和幻觉等挑战,阻碍了可信可靠人工智能系统的构建.检索增强生成(RAG)通过利用外接知识库和查询关联的检索有效增强大模型的能力水平,... 大模型技术的兴起显著提升了人们获取和利用知识的效率,但在实际应用中仍然面临着知识受限、迁移障碍和幻觉等挑战,阻碍了可信可靠人工智能系统的构建.检索增强生成(RAG)通过利用外接知识库和查询关联的检索有效增强大模型的能力水平,为大模型掌握实时型、行业型及私有型知识提供有力支撑,进而促进大模型技术向多样场景的快速推广和实施.围绕RAG,阐述其基本原理、发展现状及典型应用,并分析其优势和面临的挑战.在RAG的基础上,通过结合搜索模块和多级缓存管理模块,提出RAG的拓展框架SAGE,以建立更加灵活和高效的大模型知识外挂工具链. 展开更多
关键词 大模型 检索增强生成 基础智能 知识自动化
在线阅读 下载PDF
中医古籍方剂数据挖掘与知识问答系统构建 被引量:2
9
作者 李明 罗晓兰 朱邦贤 《图书馆论坛》 北大核心 2025年第4期49-59,共11页
文章以《伤寒论》等中医古籍为数据来源,结合古籍的目录结构,通过ChatGLM提取古籍中的方剂信息,存入MySQL关系型数据库,构建中医古籍方剂检索系统;通过ChatGLM对方剂信息进行解析,利用Apriori、association_rules、community_louvain等... 文章以《伤寒论》等中医古籍为数据来源,结合古籍的目录结构,通过ChatGLM提取古籍中的方剂信息,存入MySQL关系型数据库,构建中医古籍方剂检索系统;通过ChatGLM对方剂信息进行解析,利用Apriori、association_rules、community_louvain等数据挖掘算法,以及Echart、Pyvis等知识图谱工具,实现中医古籍挖掘及知识图谱可视化展示,构建基于LLM的中医古籍方剂数据挖掘系统;以BISHENG平台为工具,以抽取方剂信息为来源,构建基于检索增强生成的中医古籍方剂知识问答系统。研究结果表明:本研究方法提取中医古籍方剂名的召回率为99.19%-100%;除《医学衷中参西录·方剂篇》外,方剂组成、主治、用法抽取准确性的ROUGE-L值为84.29%-97.78%;中药名和剂量识别的准确率大于98.00%,主治解析准确率大于86.00%;数据挖掘结果与已有古籍研究成果相符;知识问答结果符合预期。 展开更多
关键词 大语言模型 检索增强生成 数据挖掘 知识问答 中医古籍
在线阅读 下载PDF
重新审视代码补全中的检索增强策略 被引量:1
10
作者 邹佰翰 汪莹 +5 位作者 彭鑫 娄一翎 刘力华 张昕东 林帆 刘名威 《软件学报》 北大核心 2025年第6期2747-2773,共27页
软件开发者在编写代码时,常常会参考项目中实现了相似功能的代码.代码生成模型在生成代码时也具有类似特点,会以输入中给出的代码上下文信息作为参考.基于检索增强的代码补全技术与这一思想类似,该技术从检索库中检索到外部代码作为额... 软件开发者在编写代码时,常常会参考项目中实现了相似功能的代码.代码生成模型在生成代码时也具有类似特点,会以输入中给出的代码上下文信息作为参考.基于检索增强的代码补全技术与这一思想类似,该技术从检索库中检索到外部代码作为额外信息,对生成模型起到提示的作用,从而生成目标代码.现有的基于检索增强的代码补全方法将输入代码和检索结果直接拼接到一起作为生成模型的输入,这种方法带来了一个风险,即检索到的代码片段可能并不能对模型起到提示作用,反而有可能会误导模型,导致生成的代码结果不准确.此外,由于无论检索到的外部代码是否与输入代码完全相关,都会被与输入代码拼接起来输入到模型,这导致该方法的效果在很大程度上依赖于代码检索阶段的准确性.如果检索阶段不能返回可用的代码片段,那么后续的代码补全效果可能也会受到影响.首先,针对现有的代码补全方法中的检索增强策略进行了经验研究,通过定性和定量实验分析检索增强的各个阶段对于代码补全效果的影响,在经验研究中重点识别了代码粒度、代码检索方法、代码后处理方法这3种影响检索增强效果的因素.接着,基于经验研究的结论设计改进方法,提出一种通过分阶段优化代码检索策略来改进检索增强的代码补全方法MAGIC(multi-stage optimization for retrieval augmented code completion),设计了代码切分、二次检索精排、模板提示生成等改进策略,可以有效地提升检索增强对代码补全模型的辅助生成作用,并减少模型在代码生成阶段受到的噪声干扰,提升生成代码的质量.最后,在Java代码数据集上的实验结果表明:与现有的基于检索增强的代码补全方法相比,该方法在编辑相似度和完全匹配指标上分别提升了6.76%和7.81%.与6B参数量的代码大模型相比,该方法能够在节省94.5%的显存和73.8%的推理时间的前提下,在编辑相似度和完全匹配指标上分别提升5.62%和4.66%. 展开更多
关键词 检索增强 大语言模型 代码补全 提示学习 多阶段优化
在线阅读 下载PDF
基于自适应学习的大模型RAG增强方法
11
作者 孙亚茹 林九川 +3 位作者 付文豪 宋铮 杨莹 卢涛 《计算机工程与设计》 北大核心 2025年第7期2004-2011,共8页
针对大模型在检索增强生成中存在的无效检索、结果不相关及信息利用率低等问题,提出一种自适应学习驱动的优化策略。该策略包含自适应检索增强和生成增强组件。前者通过建模领域问题特征,提升对检索意图的理解,结合知识图谱提高检索实... 针对大模型在检索增强生成中存在的无效检索、结果不相关及信息利用率低等问题,提出一种自适应学习驱动的优化策略。该策略包含自适应检索增强和生成增强组件。前者通过建模领域问题特征,提升对检索意图的理解,结合知识图谱提高检索实体的覆盖性和关联性,增强检索精度;后者利用信息压缩与重排序技术,减少冗余信息,增强相关检索数据对生成过程的影响,确保生成内容的质量。实验结果表明,该策略在短文本生成、长文本生成、多选问答和大规模数据检索等任务中取得了较优结果,有效验证了其在高效利用外部数据资源方面的优越性。 展开更多
关键词 大型语言模型 检索增强生成 自适应学习 意图识别 知识图谱 信息压缩 特征建模
在线阅读 下载PDF
基于机器学习的黄河口邻近海域MODIS叶绿素a浓度遥感反演
12
作者 郝佳雯 刘会会 +2 位作者 高志强 王德 王跃启 《海洋学报》 北大核心 2025年第7期109-122,共14页
海洋叶绿素a(Chl a)浓度是海洋浮游植物生物量的重要表征,是海洋生态环境变化的直观体现,准确、高效地估算水体Chl a浓度是海洋相关研究的基础。卫星遥感技术可用于大范围、高频次的Chl a浓度监测,为我们理解海洋生态环境变化提供了重... 海洋叶绿素a(Chl a)浓度是海洋浮游植物生物量的重要表征,是海洋生态环境变化的直观体现,准确、高效地估算水体Chl a浓度是海洋相关研究的基础。卫星遥感技术可用于大范围、高频次的Chl a浓度监测,为我们理解海洋生态环境变化提供了重要支撑。但是,由于复杂的生物光学特征,近岸浑浊水体Chl a浓度的遥感反演结果具有很大的不确定性,需要我们利用大量现场实测数据进行验证和优化。本文基于2010-2023年间45个航次的表层Chl a浓度实测数据,利用MODIS同步卫星遥感反射率数据,构建了黄河口邻近海域Chl a浓度的机器学习遥感反演模型。结果表明:与传统的全球标准算法和以往的区域算法相比,机器学习算法获得了更高的反演精度;其中,高斯过程模型表现最佳(R^(2)=0.62,RMSE=0.21 mg/m^(3)),结果很好地呈现了该海域Chl a浓度的时空变化特征。总体来看,该海域Chl a浓度在空间上呈现近岸高于离岸的特征,季节变化呈现较为明显的夏高冬低的单峰结构,2003-2023年间平均Chl a浓度以每年0.02 mg/m^(3)的速率增加。研究结果丰富了近岸海域Chl a浓度遥感反演算法,拓展了机器学习算法的遥感应用,为黄河口邻近海域海洋生态环境评估提供了方法和数据支撑。 展开更多
关键词 叶绿素A浓度 遥感反演模型 MODIS 机器学习 黄河口邻近海域
在线阅读 下载PDF
基于问题导向提示学习和多路推理的检索增强生成问答
13
作者 王昱婷 陈波 +3 位作者 闫强 范意兴 余智华 郭嘉丰 《计算机工程与应用》 北大核心 2025年第12期120-128,共9页
当前大语言模型因其优越的性能,在各个领域都有着重要的应用。但大语言模型存在知识过时、知识不充分及生成结果错误等问题。检索增强生成通过给大语言模型输入精准及时的专业外部知识缓解了这些问题。然而,如何提高生成答案的准确性仍... 当前大语言模型因其优越的性能,在各个领域都有着重要的应用。但大语言模型存在知识过时、知识不充分及生成结果错误等问题。检索增强生成通过给大语言模型输入精准及时的专业外部知识缓解了这些问题。然而,如何提高生成答案的准确性仍是值得关注的热点问题。设计问题导向提示,通过优化提示工程,有效激发了大语言模型对于不同类型问题的理解能力,并充分利用外部信息,提高检索增强生成在回答不同类型问题的问答任务的准确性。同时使用辅助多路推理优化提示与生成答案总结降低模型生成答案的幻觉。在英文检索增强生成基准数据集中的简单问题、比较问题、集合问题与多跳问题以及总体数据进行的实验结果表明,提出的方法能够取得比较好的实现效果。 展开更多
关键词 检索增强生成 提示学习 大语言模型
在线阅读 下载PDF
融合监督微调和检索增强的中医知识问答模型研究
14
作者 王欣宇 杨涛 +2 位作者 王松 徐忆初 胡孔法 《世界科学技术-中医药现代化》 北大核心 2025年第7期1898-1905,共8页
目的充分利用中医问答和文献典籍等中医数据,构建推理能力强、结果可靠的中医知识问答任务模型。方法收集和整理大规模中医语料问答数据,以ChatGLM3为基座,利用PissA方法进行监督微调,结合检索增强生成(Retrieval-augmented generation,... 目的充分利用中医问答和文献典籍等中医数据,构建推理能力强、结果可靠的中医知识问答任务模型。方法收集和整理大规模中医语料问答数据,以ChatGLM3为基座,利用PissA方法进行监督微调,结合检索增强生成(Retrieval-augmented generation,RAG)方法,建立融合监督微调和检索增强的中医知识问答模型。将其与ChatGLM3、SFT、RAG等进行比较,从BLEU、ROUGE1、F值等经典指标角度评价模型效果。结果本文建立的模型在BLEU值和ROUGE1值上分别为14.5830和34.6730,结合RAG后在中医题库推理结果中F值达到0.6398,优于ChatGLM3基线模型0.2654。结论融合监督微调和检索增强的中医垂直领域大模型构建方法可有效提升模型的中医推理性能和可靠性。 展开更多
关键词 监督微调 检索增强生成 大语言模型 中医知识问答
在线阅读 下载PDF
基于大语言模型和知识库的阿尔茨海默病智能问答系统构建研究 被引量:2
15
作者 王文湖 韦昌法 《世界科学技术-中医药现代化》 北大核心 2025年第3期856-866,共11页
目的 利用Langchain框架与大模型相结合并搭载知识库创建一个问答系统,为大模型在医学知识问答领域的应用作出技术探索。方法 引入由中华中医药学会、中华医学会等权威机构认证的阿尔茨海默病(Alzheimer’s disease,AD)诊疗指南和诊疗... 目的 利用Langchain框架与大模型相结合并搭载知识库创建一个问答系统,为大模型在医学知识问答领域的应用作出技术探索。方法 引入由中华中医药学会、中华医学会等权威机构认证的阿尔茨海默病(Alzheimer’s disease,AD)诊疗指南和诊疗规范的知识文件以及医学教科书,构建AD本地知识库。通过知识库增强模型在AD知识问答方面的能力,最终实现ChatGLM3-6B模型在AD医学问答方面的应用。结果 使用响应事实准确性(FA)和响应完整性(CR)作为评估指标,AD问答系统与ChatGLM3-6B、ChatGPT大模型进行对比实验,表现更优的标记为Win,表现持平则为Tie。AD问答系统与ChatGLM3-6B模型进行对比,在FA上AD问答系统Win值88.09%,Tie值7.14%;在CR上AD问答系统Win值85.71%,Tie值11.90%。与ChatGPT模型进行对比,在FA上AD问答系统Win值54.76%,Tie值30.95%;在CR上AD问答系统Win值35.71%,Tie值40.47%。结论 AD问答系统相比ChatGLM3-6B和ChatGPT模型在FA和CR的表现更好,证实了本研究方法的有效性。 展开更多
关键词 大语言模型 检索增强生成 本地知识库 阿尔茨海默病 问答系统
在线阅读 下载PDF
大模型增强的跨模态图文检索方法
16
作者 罗文培 黄德根 《小型微型计算机系统》 北大核心 2025年第7期1544-1553,共10页
在跨模态图像-文本检索(ITR)任务中,基于transformer的跨模态预训练范式是现在的主流.预训练方法通常为预训练模型收集大规模的数据以提升模型在各种下游跨模态任务中的表现.为此,提出了一种数据增广方法以生成大量多样化高质量的文本-... 在跨模态图像-文本检索(ITR)任务中,基于transformer的跨模态预训练范式是现在的主流.预训练方法通常为预训练模型收集大规模的数据以提升模型在各种下游跨模态任务中的表现.为此,提出了一种数据增广方法以生成大量多样化高质量的文本-图像数据作为预训练数据;其次,提出了一种两阶段训练方法,结合了知识蒸馏和对比学习,在该文产出的数据集上进行训练,从而进一步提升模型性能.提出的模型在包括COCO-CN和Flickr30K-CN在内的中文文本-图像检索数据集上取得了SOTA. 展开更多
关键词 图像-文本检索 预训练 知识蒸馏 对比学习
在线阅读 下载PDF
基于混合检索增强的双塔模型研究 被引量:1
17
作者 郜洪奎 马瑞祥 +2 位作者 包骐豪 夏少杰 瞿崇晓 《计算机科学》 北大核心 2025年第6期324-329,共6页
在知识检索的前沿领域,尤其是在大语言模型的应用场景下,研究焦点集中在用纯向量检索技术来高效捕获相关信息,继而将这些信息送入大语言模型进行综合提炼和概括。然而,这种方法的局限性在于,仅依赖向量表示可能无法全面把握检索的复杂性... 在知识检索的前沿领域,尤其是在大语言模型的应用场景下,研究焦点集中在用纯向量检索技术来高效捕获相关信息,继而将这些信息送入大语言模型进行综合提炼和概括。然而,这种方法的局限性在于,仅依赖向量表示可能无法全面把握检索的复杂性,且缺乏有效的排序机制,常使得无关信息冗余,进而削弱了最终答案与用户实际需求的匹配度。为解决这一难题,提出了基于混合检索增强的双塔模型。此模型创新性地融合了多路径召回策略,通过多样化的召回机制互补,确保检索结果既全面又高度相关。模型架构上,采用双层结构,结合了双向循环神经网络与文本卷积神经网络,使得模型可以对检索结果进行多层次的排序优化,极大地提高了结果的相关性和顶部结果的精确度。更进一步,将经过高效排序的高质量信息与原始查询一同送入大语言模型,充分利用其深层次的分析功能,生成更为精准和可信的答案。实验结果表明,提出的方法有效提升了检索的准确性和系统的整体性能,极大地增强了大语言模型在实际应用中的准确度和实用性。 展开更多
关键词 知识搜索 大语言模型 向量检索技术 混合检索增强的双塔模型 多路径召回策略
在线阅读 下载PDF
基于知识图谱的中共党史知识索引设计与实现
18
作者 岳文玉 曹树金 赵怡珑 《图书馆论坛》 北大核心 2025年第3期110-119,共10页
文章通过语义技术将中共党史的知识进行组织、管理和应用,构建新的基于知识图谱的索引,提供对党史知识的查找定位功能,以提高知识检索效率。着手于党史知识图谱的应用研究,利用党史知识图谱优化检索语句的分词、同义转换和语义扩展等任... 文章通过语义技术将中共党史的知识进行组织、管理和应用,构建新的基于知识图谱的索引,提供对党史知识的查找定位功能,以提高知识检索效率。着手于党史知识图谱的应用研究,利用党史知识图谱优化检索语句的分词、同义转换和语义扩展等任务,从而为党史知识索引提供高效支持。通过分词实验分析和基于知识图谱的党史知识检索性能对比分析,验证了党史知识检索系统的有效性。研究发现:借助知识图谱的结构化语义,突破了传统索引方式,实现了基于实体与关系的索引,能够为用户在信息检索过程中提供更多的知识相关性和多样性,进一步提升了党史文献和相关资源的利用效率。 展开更多
关键词 中共党史 知识索引 深度学习 信息检索
在线阅读 下载PDF
基于大语言模型的标准化文件生成方法研究
19
作者 刘哲泽 张宁 郑楠 《复杂系统与复杂性科学》 北大核心 2025年第2期45-54,共10页
为了促进各行业的规范化发展,各领域都需要制定相应的标准化文件,例如国家标准、行业标准。这些标准化文件不仅为行业提供了统一的操作规范,还为相关方提供了明确的指导依据。中共中央、国务院在《国家标准化发展纲要》中明确指出,推进... 为了促进各行业的规范化发展,各领域都需要制定相应的标准化文件,例如国家标准、行业标准。这些标准化文件不仅为行业提供了统一的操作规范,还为相关方提供了明确的指导依据。中共中央、国务院在《国家标准化发展纲要》中明确指出,推进标准的数字化进程是实现行业现代化的重要举措。因此,开展标准化文件的自动化生成研究显得尤为重要。随着人工智能技术的迅速发展,尤其是大语言模型在文本生成任务中的突出表现,利用这些先进技术来实现标准化文件的自动化生成成为可能。基于此背景,提出了一种两阶段生成标准化文件的方案。该方案首先通过大模型生成标准化文件的大纲,然后在此基础上扩展生成完整的文档内容。通过结合上下文学习和检索增强生成等技术,该方法不仅能够生成高质量的文本,还显著提升了生成内容的准确性和专业性。为验证该方案的可行性,我们在自建的数据集上进行了系列实验,结果表明,该方法能够有效地生成符合行业标准的文档,具有良好的实用性和推广潜力。 展开更多
关键词 大语言模型 检索增强生成 文本生成 上下文学习
在线阅读 下载PDF
基于知识图谱的城轨大模型RAG检索增强知识库构建研究 被引量:1
20
作者 于松伟 刘巍 +3 位作者 夏秀江 邵昕 韩德志 韩晓艺 《都市快轨交通》 北大核心 2025年第2期1-7,共7页
当前,数据是城轨大模型落地的关键和核心养料,检索增强生成(retrieval-augmented generation,RAG)技术是城轨行业大模型建设和解决大模型幻觉问题的重要手段之一,但却因行业知识库的缺失难以充分发挥效用。本研究通过实体分类表、术语... 当前,数据是城轨大模型落地的关键和核心养料,检索增强生成(retrieval-augmented generation,RAG)技术是城轨行业大模型建设和解决大模型幻觉问题的重要手段之一,但却因行业知识库的缺失难以充分发挥效用。本研究通过实体分类表、术语词典、属性库、实体关系表,创建分类骨架-语义基准-特征规则-逻辑关系四维架构,尤其新增实体的行业属性,突破传统知识图谱的实体A-关系-实体B三元组架构,从而形成标准化与立体化的行业知识体系。基于此构建的高质量行业知识库作为RAG技术的核心组件,通过数据采集→结构化→向量化→知识化的链路,为大模型提供标准、可信、可溯的领域知识,显著提升城轨大模型生成内容的的可靠性和专业性,为城轨行业迈向数据驱动与知识驱动的新阶段提供核心支撑。 展开更多
关键词 城市轨道交通 人工智能 大模型 DeepSeek RAG 知识库 知识图谱 向量数据库 数据标注
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部