期刊文献+
共找到29,475篇文章
< 1 2 250 >
每页显示 20 50 100
基于信息检索的知识库问答综述 被引量:5
1
作者 田萱 吴志超 《计算机研究与发展》 北大核心 2025年第2期314-335,共22页
知识库问答旨在从知识库中检索相关信息用于模型推理,最终返回准确的答案.近年来随着深度学习和大语言模型的发展,基于信息检索的知识库问答研究成为焦点,涌现出许多新颖方法.从模型方法、数据集等不同方面对基于信息检索的知识库问答... 知识库问答旨在从知识库中检索相关信息用于模型推理,最终返回准确的答案.近年来随着深度学习和大语言模型的发展,基于信息检索的知识库问答研究成为焦点,涌现出许多新颖方法.从模型方法、数据集等不同方面对基于信息检索的知识库问答研究进行梳理总结.首先对知识库问答的研究意义和相关定义进行介绍.然后按照模型执行过程从问句解析、信息检索、模型推理、答案生成这4个阶段阐述每个阶段面临的关键问题以及典型解决方法,对每个阶段所使用到的共性网络模块进行总结.其次针对基于信息检索的知识库问答方法的不可解释性进行分析梳理.此外,对不同特点的相关数据集和不同阶段的基线模型进行了分类介绍与总结.最后对基于信息检索的知识库问答每个执行阶段以及该领域整体发展方向进行了总结和展望. 展开更多
关键词 知识库问答 信息检索 深度学习 大语言模型 阶段性问题
在线阅读 下载PDF
基于大模型检索增强生成的气象数据库问答模型实现 被引量:2
2
作者 江双五 张嘉玮 +1 位作者 华连生 杨菁林 《计算机工程与应用》 北大核心 2025年第5期113-121,共9页
随着信息检索和知识获取需求的增加,智能问答系统在多个垂直领域得到广泛应用。然而,在气象领域仍缺乏专门的智能问答系统研究,严重限制了气象信息的高效利用和气象系统的服务效率。针对这一需求,提出了一种面向气象数据库的大模型检索... 随着信息检索和知识获取需求的增加,智能问答系统在多个垂直领域得到广泛应用。然而,在气象领域仍缺乏专门的智能问答系统研究,严重限制了气象信息的高效利用和气象系统的服务效率。针对这一需求,提出了一种面向气象数据库的大模型检索智能问答技术实现方案。该方案设计了一种基于关系型数据库(SQL)与文档型数据(NoSQL)的多通道查询路由(multi-channel retrieval router,McRR)方法,为了适配数据库进行大模型查询以及增强大模型对查询表的理解,分别提出指令查询转换方法与数据库表摘要方法DNSUM,提升大模型对数据库的语义理解能力,通过结合问题理解、重排序器和响应生成等关键模块,构建了一个端到端的智能问答模型,可实现多数据源的相关知识检索及答案生成。实验结果显示,该模型可以有效理解用户问题并生成准确的答案,具有良好的检索和响应能力。不仅为气象领域提供了一种智能问答的解决方案,也为气象智能问答技术提供了新的应用实施参考。 展开更多
关键词 数据库查询 数据库问答 大语言模型 检索增强生成 气象问答
在线阅读 下载PDF
基于多链的能源数据链上链下安全检索方案
3
作者 肖珂 刘颖 +2 位作者 何云华 徐刚 王超 《计算机工程》 北大核心 2025年第8期238-249,共12页
随着能源行业的数字化转型,能源区块链在能源数据的存储与检索方面发挥着重要作用。然而,能源信息数据种类繁多、信息量巨大,并且涉及市场参与者的商业机密和敏感信息。对于大规模的区块链系统而言,提高其单位存储负载和保护数据隐私是... 随着能源行业的数字化转型,能源区块链在能源数据的存储与检索方面发挥着重要作用。然而,能源信息数据种类繁多、信息量巨大,并且涉及市场参与者的商业机密和敏感信息。对于大规模的区块链系统而言,提高其单位存储负载和保护数据隐私是一项具有挑战性的任务。在未来的应用中,能源数据的存储模式以及如何对其进行安全检索将成为限制能源区块链发展的主要问题。为此,提出一种基于能源区块链的链上链下安全检索方案。利用链上链下协同存储技术,降低链上数据的存储开销,并利用多链协同隐私保护架构实现不同能源数据的互通共享。将设计加密的查找表作为能源区块链内部数据存储结构,并设置标志位,以实现不同来源能源数据的检索。在云端设计一对n的查找表作为加密数据的存储结构,打破了传统检索过程中查询索引和查询对象之间一对一的关系,进一步保护数据的隐私和安全性,实现了能源数据信息的安全检索。实验结果表明,该方案是可行的,具有可靠性和高效性。 展开更多
关键词 能源交易 区块链 链上链下 多链协同 数据存储 安全检索
在线阅读 下载PDF
基于特征分块与域间融合的跨域足迹图像检索方法
4
作者 张艳 申多 +2 位作者 李增辉 朱明 粟娇娇 《计算机辅助设计与图形学学报》 北大核心 2025年第2期303-312,共10页
为了解决现有图像检索方法难以提取跨域足迹图像的高区分性域共享特征等问题,提出了一种基于特征分块与域间融合的跨域足迹图像检索方法.首先,以ResNet50为主干网络提取足迹图像全局特征;然后通过水平分块特征提取方法获取更具鉴别性的... 为了解决现有图像检索方法难以提取跨域足迹图像的高区分性域共享特征等问题,提出了一种基于特征分块与域间融合的跨域足迹图像检索方法.首先,以ResNet50为主干网络提取足迹图像全局特征;然后通过水平分块特征提取方法获取更具鉴别性的特征;最后,采用跨域特征融合方法提取域共享信息,并设计均衡损失以优化融合特征.在自行采集的200人跨域足迹图像数据集上进行实验,在光学检索压力及压力检索光学2种模式下Rank-1分别达到91.38%和84.50%,验证了所提方法的有效性. 展开更多
关键词 图像检索 跨域足迹 特征分块 特征融合 均衡损失
在线阅读 下载PDF
基于交叉量化和样本校正的自监督遥感图像检索
5
作者 潘丽丽 瞿栋梁 +1 位作者 尹晶晶 马雪强 《郑州大学学报(工学版)》 北大核心 2025年第2期60-66,共7页
自监督遥感图像检索模型由于标签缺失导致使用错误的样本对进行学习,从而产生抽样偏差,影响图像表征的准确性,为此提出一种基于交叉量化和样本校正的自监督遥感图像检索模型(CQSC)。首先,为了降低数据存储和处理负载,将传统对比学习中... 自监督遥感图像检索模型由于标签缺失导致使用错误的样本对进行学习,从而产生抽样偏差,影响图像表征的准确性,为此提出一种基于交叉量化和样本校正的自监督遥感图像检索模型(CQSC)。首先,为了降低数据存储和处理负载,将传统对比学习中的映射层与乘积量化相结合,压缩高维图像数据,提高了检索效率;其次,使用交叉学习策略,最大化检索模型中特征映射前后的交叉相似性,增强模型的特征生成能力和检索精度;最后,针对自监督遥感图像检索中因标签缺失导致的抽样偏差,设计自适应纠错标签,标注训练样本,校正训练过程中存在的错误负样本。在UCMerced和EuroSAT数据集上进行了大量实验,结果表明:与PLSH方法相比,在UCMerced数据集上,所提方法mAP@20平均提升了2.52百分点;在EuroSAT数据集上取64 bits时,所提方法mAP@100提升了3.83百分点。 展开更多
关键词 遥感图像检索 对比学习 乘积量化 交叉学习
在线阅读 下载PDF
基于类中心优化辅助三元组损失的遥感图像检索
6
作者 郑宗生 霍志俊 +3 位作者 高萌 王政翰 周文睆 张月维 《计算机工程》 北大核心 2025年第5期305-313,共9页
遥感图像检索的关键是从海量图像中高效、准确地检索出目标样本。遥感图像类内样本分散、方差大,依靠有限样本的传统遥感图像检索不能很好地学习类内样本差异特征,现有的跨批处理内存(XBM)方法的三元组配对冗余、计算复杂。针对这些问题... 遥感图像检索的关键是从海量图像中高效、准确地检索出目标样本。遥感图像类内样本分散、方差大,依靠有限样本的传统遥感图像检索不能很好地学习类内样本差异特征,现有的跨批处理内存(XBM)方法的三元组配对冗余、计算复杂。针对这些问题,提出一种基于类中心优化辅助的三元组损失(CCO-TL)的遥感图像检索方法。CCO-TL使用类中心特征限制类内正样本之间的距离以辅助优化三元组损失,实现类间相互分离,同时类内的样本更加聚集紧凑,得到优化的样本特征;通过改进XBM模块得到批次特征队列(BFQ),用于存储先前训练批次的特征向量,通过改变三元组配对方式,充分挖掘样本信息并解决数据冗余问题,减少训练时间。同时使用BFQ模块进行类中心点特征的实时计算,用计算值取代传统方法的估计值。实验结果表明,基于真实类中心特征辅助优化的三元组损失函数训练的网络模型学习样本间的能力更强,类内更加聚集,类间区分也更明显。最后结合Recall@K等指标进行评估,在UCMD、AID、PN、OP 4个遥感数据集上进行实验,所提算法的精度分别达到93.1%、87.2%、97.1%、82.2%,优于其他研究方法。 展开更多
关键词 图像检索 深度度量学习 三元组损失 类中心 批次
在线阅读 下载PDF
基于混合检索增强生成大语言模型的网络舆情多任务分析 被引量:3
7
作者 王润周 张新生 +2 位作者 王明虎 苏佳 马玉龙 《情报杂志》 北大核心 2025年第5期91-103,共13页
[研究目的]为缓解大语言模型在网络舆情分析过程中出现输出与现实不符或不正确的“幻觉”现象,以及大语言模型的微调过程通常需要耗费大量的机器资源的问题,提出一种混合检索增强生成策略(Retrieval-Augmented Generation,RAG)来提升大... [研究目的]为缓解大语言模型在网络舆情分析过程中出现输出与现实不符或不正确的“幻觉”现象,以及大语言模型的微调过程通常需要耗费大量的机器资源的问题,提出一种混合检索增强生成策略(Retrieval-Augmented Generation,RAG)来提升大语言模型的自然语言理解和生成能力,实现网络舆情的跨领域、跨任务分析。[研究方法]首先,整合高质量舆情事件数据集构建本地RAG知识库以适应不同领域,避免大规模参数微调,在生成过程中引入检索知识减缓“幻觉”现象。并且,引入上下文信息与提示样例进行知识增强,提升大语言模型在下游任务的准确性。最终整合检索内容、上下文信息、提示样例构建针对舆情分析任务的提示语句,将源领域知识迁移到目标领域。[研究结果/结论]实验结果表明,所构建的混合RAG框架在虚假信息检测、自动化报告生成、智能问答、信息抽取、情感分析多种跨领域、跨语言数据集中表现优异,且能够适应少样本学习的场景。 展开更多
关键词 网络舆情 舆情分析 大语言模型 检索增强生成(RAG) 提示学习
在线阅读 下载PDF
一种基于知识图谱的检索增强生成情报问答技术 被引量:4
8
作者 成志宇 陈星霖 +2 位作者 王菁 周中元 张志政 《计算机科学》 北大核心 2025年第1期87-93,共7页
为实现军事情报问答,提出了一种基于知识图谱的检索增强生成框架。该框架通过问题分类、实体识别、实体链接、知识检索有效地获取了背景知识。同时考虑到情报问题多约束的特点,使用回答集编程在知识上通过约束限制减少知识数量或者直接... 为实现军事情报问答,提出了一种基于知识图谱的检索增强生成框架。该框架通过问题分类、实体识别、实体链接、知识检索有效地获取了背景知识。同时考虑到情报问题多约束的特点,使用回答集编程在知识上通过约束限制减少知识数量或者直接获得答案。最后,使用大语言模型在精炼后的知识上对问题进行求解,以减少问题理解过程中的属性识别与链接。在MilRE数据集上的实验表明,所提框架能够提供基于知识图谱的增强知识检索功能,并具有较好的军事情报问题解答能力。 展开更多
关键词 情报问答 回答集编程 大语言模型 检索增强生成 知识图谱
在线阅读 下载PDF
面向大规模图像检索的哈希学习综述 被引量:1
9
作者 张雪凝 刘兴波 +3 位作者 宋井宽 聂秀山 王少华 尹义龙 《软件学报》 北大核心 2025年第1期79-106,共28页
随着互联网空间中图像数据的爆发式增长和图像应用领域的拓宽,大规模图像检索的需求与日俱增.哈希学习为大规模图像检索提供显著的存储与检索效率,并成为近年来一个研究热点.现有哈希学习综述存在着时效性弱与技术路线不清晰的问题,即... 随着互联网空间中图像数据的爆发式增长和图像应用领域的拓宽,大规模图像检索的需求与日俱增.哈希学习为大规模图像检索提供显著的存储与检索效率,并成为近年来一个研究热点.现有哈希学习综述存在着时效性弱与技术路线不清晰的问题,即多总结5–10年前的研究成果,且较少总结哈希学习算法各组成部分间的关联关系.鉴于此,通过总结近20年公开发表的哈希学习文献,对面向大规模图像检索的哈希学习进行系统的综述性研究.首先,介绍哈希学习的技术路线和哈希学习算法的主要组成部分,包括损失函数、优化策略及样本外扩展映射.其次,将面向图像检索的哈希学习算法分为无监督哈希方法和监督哈希方法两类,并分别梳理每类方法的研究现状和演化过程.然后,介绍哈希学习算法评估通用的图像数据集与评估指标,并通过对比实验分析部分经典算法的性能.最后,结合哈希学习的局限性与新挑战对其发展前景进行阶段性总结与展望. 展开更多
关键词 图像检索 大规模数据 近似最近邻检索 哈希学习 相似性保持
在线阅读 下载PDF
云辅助物联网环境下可验证的安全图像检索 被引量:1
10
作者 郭佳琦 马智 +2 位作者 王文胜 田聪 段振华 《通信学报》 北大核心 2025年第3期28-44,共17页
针对现有的云辅助物联网环境中图像检索精度和效率低、服务器潜在恶意性问题,提出一种可验证的安全图像检索方案。采用矩阵形式的索引和查询,结合基于容错学习的改进安全k近邻算法加密特征矩阵,提升索引和查询安全性。利用区块链技术,... 针对现有的云辅助物联网环境中图像检索精度和效率低、服务器潜在恶意性问题,提出一种可验证的安全图像检索方案。采用矩阵形式的索引和查询,结合基于容错学习的改进安全k近邻算法加密特征矩阵,提升索引和查询安全性。利用区块链技术,并结合四叉默克哈希树和高效短签名,实现搜索结果的可验证性。安全性和性能分析表明,所提方案在保证索引和查询安全性的同时,显著降低了索引和查询的加密计算复杂度及密钥存储开销。所提方案在提高图像检索精度和安全性的同时,优化了计算与存储资源,适用于云辅助物联网环境。 展开更多
关键词 图像安全检索 安全k近邻算法 容错学习问题 物联网
在线阅读 下载PDF
基于多智能体与混合检索的学科核心素养表现性评价设计研究 被引量:1
11
作者 王永固 刘泉 +1 位作者 李晓娟 余泽宇 《远程教育杂志》 北大核心 2025年第2期31-44,共14页
在全球教育发展进程中,基于核心素养的智能化教育评价已然成为主流趋势。其中,表现性评价作为衡量学生高阶思维能力的有效手段,于当下教育评价体系中占据关键地位。然而,当前表现性评价在实践层面暴露出诸多问题,主要体现为课程标准导... 在全球教育发展进程中,基于核心素养的智能化教育评价已然成为主流趋势。其中,表现性评价作为衡量学生高阶思维能力的有效手段,于当下教育评价体系中占据关键地位。然而,当前表现性评价在实践层面暴露出诸多问题,主要体现为课程标准导向性欠缺、真实情境构建不充分以及评价规则推理效能低下。针对上述问题,研究基于概念性测评框架(CAF)理论,融合多智能体协同推理与混合RAG策略,构建了一套集评价目标提取、任务设计和量规制定于一体的智能化表现性评价设计系统。为验证该系统的有效性,研究选取中等职业学校信息技术课程中的三个典型教学单元展开实验评估。结果显示:其一,系统生成的评价目标文本在语义准确度和内容完整度方面均表现优异;其二,在任务设计维度,系统在真实性、多样性以及目标一致性上成效显著;其三,在量规设计方面,系统在核心素养导向性和高阶思维递进性维度显著优于教师组设计成果。研究创新性地实现了多智能体与混合RAG策略的深度融合,构建了证据驱动的智能化表现性评价设计范式,为提升核心素养评价设计的科学性与效率提供了新理论路径和创新技术方案,对推动学科核心素养智能化评价的深入发展,具有重要的理论价值与实践指导意义。 展开更多
关键词 以证据为中心 核心素养 表现性评价 多智能体 检索增强生成
在线阅读 下载PDF
基于MFF-SFE的遥感图文跨模态检索方法 被引量:1
12
作者 钟金彦 陈俊 +2 位作者 李宇 吴业炜 葛小青 《中国科学院大学学报(中英文)》 北大核心 2025年第2期236-247,共12页
遥感图文跨模态检索技术能够从海量的遥感数据中快速获取有价值的信息,但现有遥感图文检索方法对遥感图像中的多尺度信息利用不足、目标信息识别效果不佳,检索精度相对较低。为此,提出一种新的遥感图文跨模态检索方法。该方法主要包括... 遥感图文跨模态检索技术能够从海量的遥感数据中快速获取有价值的信息,但现有遥感图文检索方法对遥感图像中的多尺度信息利用不足、目标信息识别效果不佳,检索精度相对较低。为此,提出一种新的遥感图文跨模态检索方法。该方法主要包括一个多尺度特征融合模块和一个显著特征增强模块,分别用于融合遥感图像的多尺度信息、加强对遥感图像目标信息的表达能力,从而提高遥感图文跨模态检索精度。在2个公开的遥感图像文本数据集上进行实验验证,结果表明,在遥感图文跨模态检索任务中,该方法在大部分评价指标上都优于其他方法,具有最佳的总体检索性能。 展开更多
关键词 跨模态检索 遥感图像 深度学习 多尺度特征
在线阅读 下载PDF
基于全同态加密的可验证多关键词密文检索方案 被引量:1
13
作者 唐莹莹 陈玉玲 +1 位作者 罗运 李再东 《计算机工程》 北大核心 2025年第4期188-197,共10页
由于云服务器能够提供强大的存储和计算能力,因此个人和企业更趋向于将加密数据存储于云端。为了解决密文数据检索困难的问题,利用同态加密的密文检索方式成为研究热点。然而,现有的方案主要集中在单关键词检索上,由于检索限制条件较少... 由于云服务器能够提供强大的存储和计算能力,因此个人和企业更趋向于将加密数据存储于云端。为了解决密文数据检索困难的问题,利用同态加密的密文检索方式成为研究热点。然而,现有的方案主要集中在单关键词检索上,由于检索限制条件较少、搜索精度较低,从而导致通信和计算开销较大。另外,将数据托管到第三方提供的不可信云主机上,可能出现删除、修改、返回不真实和不全面的搜索信息等恶意情况。为此,基于全同态加密和不经意伪随机函数提出一种新型的密文检索方案。通过构造加密的关键词索引和哈希表,使得方案能够支持多关键词的连接查询。利用文件的标识和大小生成验证标签,使得数据接收者能够对检索结果的正确性和完整性进行验证。理论分析和实验结果表明,相比于基于全同态加密的单关键词检索方案,在检索2~3个多关键词时,所提方案的密文搜索效率提升36.2%~45.9%,并且在检索更多关键词时拥有更好的综合性能。 展开更多
关键词 云存储 全同态加密 密文检索 安全共享 可验证
在线阅读 下载PDF
重新审视代码补全中的检索增强策略 被引量:1
14
作者 邹佰翰 汪莹 +5 位作者 彭鑫 娄一翎 刘力华 张昕东 林帆 刘名威 《软件学报》 北大核心 2025年第6期2747-2773,共27页
软件开发者在编写代码时,常常会参考项目中实现了相似功能的代码.代码生成模型在生成代码时也具有类似特点,会以输入中给出的代码上下文信息作为参考.基于检索增强的代码补全技术与这一思想类似,该技术从检索库中检索到外部代码作为额... 软件开发者在编写代码时,常常会参考项目中实现了相似功能的代码.代码生成模型在生成代码时也具有类似特点,会以输入中给出的代码上下文信息作为参考.基于检索增强的代码补全技术与这一思想类似,该技术从检索库中检索到外部代码作为额外信息,对生成模型起到提示的作用,从而生成目标代码.现有的基于检索增强的代码补全方法将输入代码和检索结果直接拼接到一起作为生成模型的输入,这种方法带来了一个风险,即检索到的代码片段可能并不能对模型起到提示作用,反而有可能会误导模型,导致生成的代码结果不准确.此外,由于无论检索到的外部代码是否与输入代码完全相关,都会被与输入代码拼接起来输入到模型,这导致该方法的效果在很大程度上依赖于代码检索阶段的准确性.如果检索阶段不能返回可用的代码片段,那么后续的代码补全效果可能也会受到影响.首先,针对现有的代码补全方法中的检索增强策略进行了经验研究,通过定性和定量实验分析检索增强的各个阶段对于代码补全效果的影响,在经验研究中重点识别了代码粒度、代码检索方法、代码后处理方法这3种影响检索增强效果的因素.接着,基于经验研究的结论设计改进方法,提出一种通过分阶段优化代码检索策略来改进检索增强的代码补全方法MAGIC(multi-stage optimization for retrieval augmented code completion),设计了代码切分、二次检索精排、模板提示生成等改进策略,可以有效地提升检索增强对代码补全模型的辅助生成作用,并减少模型在代码生成阶段受到的噪声干扰,提升生成代码的质量.最后,在Java代码数据集上的实验结果表明:与现有的基于检索增强的代码补全方法相比,该方法在编辑相似度和完全匹配指标上分别提升了6.76%和7.81%.与6B参数量的代码大模型相比,该方法能够在节省94.5%的显存和73.8%的推理时间的前提下,在编辑相似度和完全匹配指标上分别提升5.62%和4.66%. 展开更多
关键词 检索增强 大语言模型 代码补全 提示学习 多阶段优化
在线阅读 下载PDF
面向军事领域知识问答系统的多策略检索增强生成方法 被引量:4
15
作者 张艳萍 陈梅芳 +4 位作者 田昌海 易子博 胡文鹏 罗威 罗准辰 《计算机应用》 北大核心 2025年第3期746-754,共9页
基于检索增强生成(RAG)的军事领域知识问答系统已经逐渐成为现代情报人员收集和分析情报的重要工具。针对目前RAG方法的应用策略中的混合检索存在可移植性不强以及非必要使用查询改写容易诱发语义漂移的问题,提出一种多策略检索增强生成... 基于检索增强生成(RAG)的军事领域知识问答系统已经逐渐成为现代情报人员收集和分析情报的重要工具。针对目前RAG方法的应用策略中的混合检索存在可移植性不强以及非必要使用查询改写容易诱发语义漂移的问题,提出一种多策略检索增强生成(MSRAG)方法。首先,根据用户输入的查询特点自适应地匹配检索模型来召回相关文本;其次,利用文本过滤器提取出能够回答问题的关键文本片段;再次,使用文本过滤器进行内容有效性判断以启动基于同义词拓展的查询改写,并将初始查询与改写后的信息合并输入检索控制器以进行更有针对性的再次检索;最后,合并能够回答问题的关键文本片段和问题,并使用提示工程输入生成答案模型来生成响应返回给用户。实验结果表明,MSRAG方法在军事领域数据集(Military)和Medical数据集的ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation Longest common subsequence)指标上相较于凸线性组合RAG方法分别提高了14.35和5.83个百分点。可见,MSRAG方法具备较强的通用性和可移植性,能够缓解非必要查询改写导致的语义漂移现象,有效帮助大模型生成更准确的答案。 展开更多
关键词 检索增强生成 军事知识问答 信息检索 文本过滤 查询改写
在线阅读 下载PDF
基于滑动窗口策略的大语言模型检索增强生成系统
16
作者 毕枫林 张豈明 +5 位作者 张嘉睿 王衍童 陈阳 张琰彬 王伟 周烜 《计算机研究与发展》 北大核心 2025年第7期1597-1610,共14页
提出了一种基于滑动窗口策略的检索增强生成系统,旨在提升大语言模型(large language models,LLMs)输出的事实准确性和可靠性.该系统通过在索引阶段应用滑动窗口机制,有效解决了传统固定大小上下文窗口和静态检索方法的局限性.研究提出... 提出了一种基于滑动窗口策略的检索增强生成系统,旨在提升大语言模型(large language models,LLMs)输出的事实准确性和可靠性.该系统通过在索引阶段应用滑动窗口机制,有效解决了传统固定大小上下文窗口和静态检索方法的局限性.研究提出3种具体的滑动窗口策略以有效处理和分割文本,包括:固定窗口大小和固定步长分割(fixed window size and fixed step length split,FFS)、动态窗口大小和固定步长分割(dynamic window size and fixed step length split,DFS)以及动态窗口大小和动态步长分割(dynamic window size and dynamic step length split,DDS).此外,研究还探讨了使用多查询技术进一步提高检索的准确性和相关性.实验评估使用LLaMA-3模型在多个数据集上进行,结果表明系统在窗口大小为1024和步长为3的配置下达到最佳性能,该配置显著提高了F1得分,体现了在文档段长度和滑动窗口步长之间保持平衡的重要性.滑动窗口策略有效保留了上下文信息,减少了信息丢失,并展示了在不同数据集和查询类型中的适应性. 展开更多
关键词 检索增强生成 滑动窗口机制 大语言模型 信息检索 文档问答
在线阅读 下载PDF
基于问题导向提示学习和多路推理的检索增强生成问答
17
作者 王昱婷 陈波 +3 位作者 闫强 范意兴 余智华 郭嘉丰 《计算机工程与应用》 北大核心 2025年第12期120-128,共9页
当前大语言模型因其优越的性能,在各个领域都有着重要的应用。但大语言模型存在知识过时、知识不充分及生成结果错误等问题。检索增强生成通过给大语言模型输入精准及时的专业外部知识缓解了这些问题。然而,如何提高生成答案的准确性仍... 当前大语言模型因其优越的性能,在各个领域都有着重要的应用。但大语言模型存在知识过时、知识不充分及生成结果错误等问题。检索增强生成通过给大语言模型输入精准及时的专业外部知识缓解了这些问题。然而,如何提高生成答案的准确性仍是值得关注的热点问题。设计问题导向提示,通过优化提示工程,有效激发了大语言模型对于不同类型问题的理解能力,并充分利用外部信息,提高检索增强生成在回答不同类型问题的问答任务的准确性。同时使用辅助多路推理优化提示与生成答案总结降低模型生成答案的幻觉。在英文检索增强生成基准数据集中的简单问题、比较问题、集合问题与多跳问题以及总体数据进行的实验结果表明,提出的方法能够取得比较好的实现效果。 展开更多
关键词 检索增强生成 提示学习 大语言模型
在线阅读 下载PDF
深度学习在基于信息检索的缺陷定位中的应用综述
18
作者 曹帅 牛菲菲 +4 位作者 李传艺 陈俊洁 刘逵 葛季栋 骆斌 《软件学报》 北大核心 2025年第4期1530-1556,共27页
缺陷自动定位方法可以极大程度减轻开发人员调试和维护软件程序的负担.基于信息检索的缺陷定位方法是广泛研究的缺陷自动定位方法之一,并已取得了较好的成果.随着深度学习的普及,将深度学习应用于基于信息检索的缺陷定位成为近年来的研... 缺陷自动定位方法可以极大程度减轻开发人员调试和维护软件程序的负担.基于信息检索的缺陷定位方法是广泛研究的缺陷自动定位方法之一,并已取得了较好的成果.随着深度学习的普及,将深度学习应用于基于信息检索的缺陷定位成为近年来的研究趋势之一.系统梳理和总结了52篇近年来将深度学习引入基于信息检索缺陷定位的工作.首先,总结该类缺陷定位的数据集和评价指标,接着从不同粒度和可迁移性分析了该类技术的定位效果,随后着重梳理了相关工作中信息编码表征方法和特征提取方法.最后总结对比分析了各领域最先进的定位方法,并展望了使用深度学习的基于信息检索的缺陷定位方法的未来发展方向. 展开更多
关键词 深度学习 缺陷定位 信息检索 特征编码 代码表示
在线阅读 下载PDF
基于信息互补与交叉注意力的跨模态检索方法
19
作者 王丹 张峰 +1 位作者 张辉 朱杰 《计算机应用研究》 北大核心 2025年第7期2032-2038,共7页
随着互联网中多模态数据的快速增长,跨模态检索技术受到了广泛关注。然而,现实中一些多模态数据存在语义信息缺失,导致模型难以准确提取出其中蕴涵的语义特征。此外,一些多模态数据还包含了与语义无关的冗余信息,干扰了模型对关键信息... 随着互联网中多模态数据的快速增长,跨模态检索技术受到了广泛关注。然而,现实中一些多模态数据存在语义信息缺失,导致模型难以准确提取出其中蕴涵的语义特征。此外,一些多模态数据还包含了与语义无关的冗余信息,干扰了模型对关键信息的提取。为此,提出了一种基于信息互补与交叉注意力(ICCA)的跨模态检索方法。该方法利用图卷积网络(GCN)建模多标签和数据之间的关系,以补充多模态数据中缺失的语义信息与多标签中缺失的样本细节信息。此外,交叉注意力子模块利用多标签信息,过滤掉数据中语义无关的冗余信息。为了使语义相似的图像和文本在公共表示空间中实现更好的匹配,还提出了一种语义匹配损失。此损失将多标签嵌入融入到图像和文本的匹配过程中,用于进一步增强公共表示的语义性。在NUS-WIDE、MIRFlickr-25K和MS-COCO这三个广泛使用的数据集上进行实验,实验结果表明,ICCA在这些数据集上的平均精度均值(mean average precision,mAP)分别为0.808、0.859和0.837,显著优于现有方法。 展开更多
关键词 信息互补 交叉注意力 图卷积网络 跨模态检索
在线阅读 下载PDF
基于混合检索重排序策略的大模型增强方法
20
作者 张健 唐晋韬 +1 位作者 王挺 李莎莎 《中文信息学报》 北大核心 2025年第4期42-54,共13页
检索增强生成技术通过提供外部知识帮助大语言模型更准确地回答问题,现有研究表明大语言模型对输入中知识的位置敏感,这为研究输入窗口变长后重排序策略对大语言模型性能的潜在影响提供了动机。该文通过构建检索增强生成系统进行实验验... 检索增强生成技术通过提供外部知识帮助大语言模型更准确地回答问题,现有研究表明大语言模型对输入中知识的位置敏感,这为研究输入窗口变长后重排序策略对大语言模型性能的潜在影响提供了动机。该文通过构建检索增强生成系统进行实验验证,以段落形式而不是固定长度切分存储知识更能提高大语言模型的准确率;同时发现在输入中将检索知识前置于问题时,逆序重排序更能提高大语言模型的准确率,且随着检索知识的数量增加效果会更明显。基于此,该文提出基于混合检索的逆序重排序方法。实验表明,该方法在提升大语言模型的准确率方面,相较于传统语义相似性检索逆序方法,最高实现2.5%的提升;与正序重排序相比,也能实现最高3.2%的提升。 展开更多
关键词 检索增强生成 大语言模型 重排序方法
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部