期刊文献+
共找到259篇文章
< 1 2 13 >
每页显示 20 50 100
Context-Aware信息检索技术与模型 被引量:1
1
作者 肖伟 全惠云 《计算机工程与应用》 CSCD 北大核心 2005年第35期169-172,共4页
Context-aware信息检索技术是一种具有自适应性和自组织性的智能信息检索技术,而且是富有挑战性的研究方向。文章首先叙述了与Context-aware相关的基本概念及实现的基本原理,接着介绍了基于不同Context信息的检索模型,并且讨论了各种模... Context-aware信息检索技术是一种具有自适应性和自组织性的智能信息检索技术,而且是富有挑战性的研究方向。文章首先叙述了与Context-aware相关的基本概念及实现的基本原理,接着介绍了基于不同Context信息的检索模型,并且讨论了各种模型的实现技术及适用范围。 展开更多
关键词 信息检索 Context—Aware 检索模型
在线阅读 下载PDF
基于信息检索的知识库问答综述 被引量:6
2
作者 田萱 吴志超 《计算机研究与发展》 北大核心 2025年第2期314-335,共22页
知识库问答旨在从知识库中检索相关信息用于模型推理,最终返回准确的答案.近年来随着深度学习和大语言模型的发展,基于信息检索的知识库问答研究成为焦点,涌现出许多新颖方法.从模型方法、数据集等不同方面对基于信息检索的知识库问答... 知识库问答旨在从知识库中检索相关信息用于模型推理,最终返回准确的答案.近年来随着深度学习和大语言模型的发展,基于信息检索的知识库问答研究成为焦点,涌现出许多新颖方法.从模型方法、数据集等不同方面对基于信息检索的知识库问答研究进行梳理总结.首先对知识库问答的研究意义和相关定义进行介绍.然后按照模型执行过程从问句解析、信息检索、模型推理、答案生成这4个阶段阐述每个阶段面临的关键问题以及典型解决方法,对每个阶段所使用到的共性网络模块进行总结.其次针对基于信息检索的知识库问答方法的不可解释性进行分析梳理.此外,对不同特点的相关数据集和不同阶段的基线模型进行了分类介绍与总结.最后对基于信息检索的知识库问答每个执行阶段以及该领域整体发展方向进行了总结和展望. 展开更多
关键词 知识库问答 信息检索 深度学习 大语言模型 阶段性问题
在线阅读 下载PDF
基于大语言模型的重大慢病健康管理信息系统构建 被引量:1
3
作者 吴天星 曹旭东 +5 位作者 毕胜 陈亚 蔡平强 沙航宇 漆桂林 王昊奋 《计算机研究与发展》 北大核心 2025年第7期1653-1667,共15页
随着全球人口老龄化和生活方式的变化,慢性病(慢病)的管理和治疗变得日益重要.慢病包括心血管疾病、糖尿病、慢性呼吸系统疾病等,它们通常需要长期甚至终身的健康管理,其核心在于制定和执行长期的健康计划,包括合理饮食、适量运动、定... 随着全球人口老龄化和生活方式的变化,慢性病(慢病)的管理和治疗变得日益重要.慢病包括心血管疾病、糖尿病、慢性呼吸系统疾病等,它们通常需要长期甚至终身的健康管理,其核心在于制定和执行长期的健康计划,包括合理饮食、适量运动、定期检查和用药管理等.近年来,大语言模型在医疗领域取得了一定的进展,但并未关注慢病健康管理领域,因此在个性化健康管理建议方面缺乏对中国特定饮食习惯和文化背景的深入理解,在处理数字信息方面的能力有限.为解决这些问题,构建了基于大语言模型的重大慢病健康管理信息系统.其中,通过整合慢病基础知识、健康管理指导原则以及实际的健康管理计划作为领域数据,训练蜻蜓大模型作为系统的核心,用于健康相关问题的有效回答.此外,系统引入了工具增强策略,通过调用工具增强蜻蜓大模型对健康数据中数字信息的处理能力.同时,系统采用了基于不确定性知识图谱的检索增强生成技术,进一步提升蜻蜓大模型在答复慢病管理相关问题时的精确性和可信度.对基于大语言模型的重大慢病健康管理信息系统的测试实验显示,蜻蜓大模型在健康管理对话中的表现明显优于其他大语言模型,并验证了工具增强与检索增强方法的有效性. 展开更多
关键词 信息系统 大语言模型 健康管理 慢病 检索增强生成 蜻蜓
在线阅读 下载PDF
基于大语言模型的企业碳排放分析与知识问答系统
4
作者 韩明 曹智轩 +2 位作者 王敬涛 段丽英 王剑宏 《计算机工程与应用》 北大核心 2025年第16期370-382,共13页
随着全球气候变化日益严重,企业碳排放分析成为国际关注的焦点,针对通用大语言模型(large language model,LLM)知识更新滞后,增强生成架构在处理复杂问题时缺乏专业性与准确性,以及大模型生成结果中幻觉率高的问题,通过构建专有知识库,... 随着全球气候变化日益严重,企业碳排放分析成为国际关注的焦点,针对通用大语言模型(large language model,LLM)知识更新滞后,增强生成架构在处理复杂问题时缺乏专业性与准确性,以及大模型生成结果中幻觉率高的问题,通过构建专有知识库,开发了基于大语言模型的企业碳排放分析与知识问答系统。提出了一种多样化索引模块构建方法,构建高质量的知识与法规检索数据集。针对碳排放报告(政策)领域的知识问答任务,提出了自提示检索增强生成架构,集成意图识别、改进的结构化思维链、混合检索技术、高质量提示工程和Text2SQL系统,支持多维度分析企业可持续性报告,为企业碳排放报告(政策)提供了一种高效、精准的知识问答解决方案。通过多层分块机制、文档索引和幻觉识别功能,确保结果的准确性与可验证性,降低了LLM技术在系统中的幻觉率。通过对比实验,所提算法在各模块的协同下在检索增强生成实验中各指标表现优异,对于企业碳排放报告的关键信息抽取和报告评价,尤其是长文本处理具有明显的优势。 展开更多
关键词 大语言模型(LLM) 知识问答系统 大模型幻觉 信息检索 提示学习
在线阅读 下载PDF
基于双向文本扩展的信息检索重排方法
5
作者 涂新辉 郭聪 宗宇航 《华南理工大学学报(自然科学版)》 北大核心 2025年第9期59-67,共9页
随着大语言模型(LLM)的快速发展,信息检索中的文本匹配和文本扩展技术均取得了显著进展。查询扩展和文档扩展作为增强文本表征的2种重要方法,已广泛应用于现代信息检索系统中。目前,主流的文本扩展方法主要依赖大语言模型实现,然而这些... 随着大语言模型(LLM)的快速发展,信息检索中的文本匹配和文本扩展技术均取得了显著进展。查询扩展和文档扩展作为增强文本表征的2种重要方法,已广泛应用于现代信息检索系统中。目前,主流的文本扩展方法主要依赖大语言模型实现,然而这些模型生成的文本与人工创作的文本在语言多样性和风格上存在明显差异。这种差异可能会影响查询-文档相关性的计算准确度,最终导致整个信息检索系统的性能下降。为此,该文提出了一种基于双向文本扩展的信息检索重排方法(BTE-IRRM)。首先,采用零样本提示使大语言模型生成文档的伪查询和查询的伪文档;然后,计算伪查询和伪文档之间的语义相似度;最后,把原始查询-文档的相似度得分和伪查询-伪文档的语义相似度得分进行加权融合,得到最终的文档排序结果。为验证所提方法的有效性,该文在2个公开数据集(DL19和DL20)上进行了实验。结果表明,相比于现有基线方法,BTEIRRM方法的多项评价指标均取得了显著提升。因此,该文提出的双向文本扩展方法能够进一步增强查询与文档之间的相关性匹配,从而提升整个信息检索系统的性能。 展开更多
关键词 信息检索 大语言模型 查询扩展 文档扩展
在线阅读 下载PDF
基于自适应学习的大模型RAG增强方法
6
作者 孙亚茹 林九川 +3 位作者 付文豪 宋铮 杨莹 卢涛 《计算机工程与设计》 北大核心 2025年第7期2004-2011,共8页
针对大模型在检索增强生成中存在的无效检索、结果不相关及信息利用率低等问题,提出一种自适应学习驱动的优化策略。该策略包含自适应检索增强和生成增强组件。前者通过建模领域问题特征,提升对检索意图的理解,结合知识图谱提高检索实... 针对大模型在检索增强生成中存在的无效检索、结果不相关及信息利用率低等问题,提出一种自适应学习驱动的优化策略。该策略包含自适应检索增强和生成增强组件。前者通过建模领域问题特征,提升对检索意图的理解,结合知识图谱提高检索实体的覆盖性和关联性,增强检索精度;后者利用信息压缩与重排序技术,减少冗余信息,增强相关检索数据对生成过程的影响,确保生成内容的质量。实验结果表明,该策略在短文本生成、长文本生成、多选问答和大规模数据检索等任务中取得了较优结果,有效验证了其在高效利用外部数据资源方面的优越性。 展开更多
关键词 大型语言模型 检索增强生成 自适应学习 意图识别 知识图谱 信息压缩 特征建模
在线阅读 下载PDF
基于滑动窗口策略的大语言模型检索增强生成系统
7
作者 毕枫林 张豈明 +5 位作者 张嘉睿 王衍童 陈阳 张琰彬 王伟 周烜 《计算机研究与发展》 北大核心 2025年第7期1597-1610,共14页
提出了一种基于滑动窗口策略的检索增强生成系统,旨在提升大语言模型(large language models,LLMs)输出的事实准确性和可靠性.该系统通过在索引阶段应用滑动窗口机制,有效解决了传统固定大小上下文窗口和静态检索方法的局限性.研究提出... 提出了一种基于滑动窗口策略的检索增强生成系统,旨在提升大语言模型(large language models,LLMs)输出的事实准确性和可靠性.该系统通过在索引阶段应用滑动窗口机制,有效解决了传统固定大小上下文窗口和静态检索方法的局限性.研究提出3种具体的滑动窗口策略以有效处理和分割文本,包括:固定窗口大小和固定步长分割(fixed window size and fixed step length split,FFS)、动态窗口大小和固定步长分割(dynamic window size and fixed step length split,DFS)以及动态窗口大小和动态步长分割(dynamic window size and dynamic step length split,DDS).此外,研究还探讨了使用多查询技术进一步提高检索的准确性和相关性.实验评估使用LLaMA-3模型在多个数据集上进行,结果表明系统在窗口大小为1024和步长为3的配置下达到最佳性能,该配置显著提高了F1得分,体现了在文档段长度和滑动窗口步长之间保持平衡的重要性.滑动窗口策略有效保留了上下文信息,减少了信息丢失,并展示了在不同数据集和查询类型中的适应性. 展开更多
关键词 检索增强生成 滑动窗口机制 大语言模型 信息检索 文档问答
在线阅读 下载PDF
检入新境:大语言模型引领的信息检索主题与知识关联演化分析 被引量:2
8
作者 陈帅朴 刘芳霖 +3 位作者 钱宇星 倪珍妮 张志剑 荣国阳 《图书情报知识》 北大核心 2025年第3期53-65,87,共14页
[目的/意义]大语言模型(Large Language Model,LLM)正在引领信息检索领域经历从简单的文档检索走向全面满足用户信息需求的新阶段,审视和探讨LLM在这一转型过程中的演化趋势及其未来发展,对于LLM赋能信息检索领域的理论模式创新与实践... [目的/意义]大语言模型(Large Language Model,LLM)正在引领信息检索领域经历从简单的文档检索走向全面满足用户信息需求的新阶段,审视和探讨LLM在这一转型过程中的演化趋势及其未来发展,对于LLM赋能信息检索领域的理论模式创新与实践应用延展有着重要意义。[研究设计/方法]研究选取信息检索领域的多个前沿学科会议,通过主题以及知识关联演化的双重视角分析,深入探究LLM等前沿技术如何推动信息检索领域的演化发展、知识重构以及创新应用,进而揭示在LLM影响下信息检索领域的未来发展方向。[结论/发现]受LLM驱动,信息检索领域的研究主题和知识结构正经历演变。研究范式层面注重人机协同新理念、技术伦理的重视、用户体验增强带来的范式融合。研究技术层面注重LLM的高效检索模型架构与工作流程优化、轻量级语言模型与LLM的协同发展以及LLM的开源及平权发展。然而,LLM赋能信息检索领域仍面临技术评测有效性困难、生成内容的可靠性存疑以及社会应用的复杂性较高等挑战。[创新/价值]将细粒度的知识关联网络引入演化分析框架,创新技术赋能领域研究的多维分析视角。同时从数据层面厘清和揭示信息检索领域的演化规律,明确领域未来发展。 展开更多
关键词 大语言模型 信息检索 主题演化 检索增强生成
在线阅读 下载PDF
基于检索增强生成的开放域问答方法研究 被引量:1
9
作者 白云天 郝文宁 靳大尉 《计算机科学》 北大核心 2025年第S1期36-42,共7页
大型语言模型在自然语言处理任务中取得显著进展,但其对封装在参数内的知识依赖易引发幻觉现象。为缓解这一问题,检索增强生成技术通过信息检索方法降低错误风险。然而,现有方法检索到的文档往往含有不准确或误导性信息,且在评估文档相... 大型语言模型在自然语言处理任务中取得显著进展,但其对封装在参数内的知识依赖易引发幻觉现象。为缓解这一问题,检索增强生成技术通过信息检索方法降低错误风险。然而,现有方法检索到的文档往往含有不准确或误导性信息,且在评估文档相关性方面存在判别准确性不足的问题。针对上述挑战,设计了一种简洁高效的方法,通过结合稀疏检索与稠密检索,兼顾词汇重叠的信息与语义相关性。此外,引入排序器对检索到的候选段落进行重排序,在排序器的输入中注入稀疏和稠密检索的分数,进一步优化了段落的排序质量。为验证所提方法的有效性,在SQuAD和HotpotQA数据集上进行实验,并与现有基准方法比较。实验结果表明,所提方法在提升问答性能方面具有显著优势。 展开更多
关键词 大型语言模型 检索增强生成 信息检索
在线阅读 下载PDF
基于查询感知和信息压缩的检索增强语言模型
10
作者 何欣洋 何智毅 +1 位作者 任思远 彭程 《计算机应用》 北大核心 2025年第S1期24-29,共6页
检索增强生成(RAG)已经成为了解决大语言模型(LLM)存在幻觉、无法获取最新知识等问题的主要方法。然而,目前的RAG方法普遍将检索到的所有文档一起输入到LLM中,没有对不相关的文档进行识别,并且没有考虑单个文档中的噪声对LLM性能的影响... 检索增强生成(RAG)已经成为了解决大语言模型(LLM)存在幻觉、无法获取最新知识等问题的主要方法。然而,目前的RAG方法普遍将检索到的所有文档一起输入到LLM中,没有对不相关的文档进行识别,并且没有考虑单个文档中的噪声对LLM性能的影响,而这些不相关的文档和文档中的噪声会误导LLM生成错误的答案,降低模型性能,并增加LLM的推理时间。针对上述问题,提出一种基于查询感知和信息压缩的检索增强语言模型。首先,在检索过程完成后,通过信息压缩模块利用关键句抽取模块来选择单个文档中的关键句;其次,通过重排器模块选择文档集中最相关的文档,从而达到去除文档中的噪声和过滤不相关文档的目的;最后,提出基于查询感知的上下文学习(ICL)模块,通过在训练集中检索与输入最相似的示例对并把它们插入到LLM的上下文中,利用LLM的ICL能力来提高模型性能。实验结果显示,相比最好的基线模型REAR(RElevance-Aware Retrieval-augmented framework),所提模型在NQ(Natural Questions)、SQuAD(Stanford Question Answering Dataset)和TQA(TriviaQA)数据集的F1值上分别获得了0.70、0.96、1.23个百分点的提升,在NQ和SQuAD数据集的EM(Exact Match)值上分别获得了1.13和0.82个百分点的提升,证明了所提模型在开放域问答(ODQA)任务上的有效性。此外,由于所提出的模型无需额外训练,降低了对计算资源的需求,并且该模型可以应用到任意LLM中,体现了所提模型广泛的适用性。 展开更多
关键词 检索增强生成 大语言模型 上下文学习 信息压缩 开放域问答
在线阅读 下载PDF
基于关系感知注意力的信息检索SQL生成器
11
作者 王孝红 杨帅强 《无线电通信技术》 北大核心 2025年第3期511-519,共9页
结构化查询语言(Structured Query Language,SQL)生成器对于非专业人员检索信息至关重要,模型学习模式链接和模式编码等关系结构是自然语言转换为SQL,即Text-to-SQL任务的关键步骤。不同的关系结构通常利用不同结构的模型进行学习,难以... 结构化查询语言(Structured Query Language,SQL)生成器对于非专业人员检索信息至关重要,模型学习模式链接和模式编码等关系结构是自然语言转换为SQL,即Text-to-SQL任务的关键步骤。不同的关系结构通常利用不同结构的模型进行学习,难以兼容现有固定结构的大型预训练模型。现有方法往往忽视问题依赖结构关系和问题共引用关系对模型的影响,很难同时利用不同的关系结构。为了解决上述问题,提出基于关系感知注意力(Relation-Aware Attention,RAA)的信息检索SQL生成器,使用RAA机制学习模式链接和模式编码等关系结构,引入问题依赖结构关系和问题共引用关系使模型更具泛化性,利用关系副本方法处理关系与输入标记之间的粒度。RAA能够在利用预训练权重的情况下向模型引入新的关系权重。在3个包含单回合和多回合场景的Text-to-SQL数据集上进行了大量实验,结果表明RAA在不同数据集上均表现出最佳性能。 展开更多
关键词 结构化查询语言生成器 信息检索 Text-to-SQL 预训练模型 关系感知注意力
在线阅读 下载PDF
基于检索增强生成的计算机实验指导平台设计与实践
12
作者 潘耀宗 刘凯 +1 位作者 于柯远 陆发平 《实验技术与管理》 北大核心 2025年第4期213-219,共7页
针对当前计算机实验过程中预习效率低、实验进度慢等问题,结合大语言模型检索增强生成技术,设计并实践了计算机实验指导平台。首先进行了知识体系建设,即知识图谱与文本向量数据构建;然后根据实验的不同阶段,设计了大语言模型Prompt模板... 针对当前计算机实验过程中预习效率低、实验进度慢等问题,结合大语言模型检索增强生成技术,设计并实践了计算机实验指导平台。首先进行了知识体系建设,即知识图谱与文本向量数据构建;然后根据实验的不同阶段,设计了大语言模型Prompt模板,保证了检索注入生成效果;最后以遗传算法的路径优化实验为例,阐述了平台的实践过程和应用效果。经实践检验表明,该平台可有效提升学员实验效率、强化实验效果,为实验指导流程优化提供了教学创新思路。 展开更多
关键词 计算机实验 检索增强生成 大语言模型 信息技术
在线阅读 下载PDF
作战仿真想定智能化生成研究综述
13
作者 董志明 胡忠奇 +1 位作者 刘赵阳 周贺阳 《系统仿真学报》 北大核心 2025年第7期1665-1683,共19页
为提高作战仿真效率,给作战仿真想定智能化生成研究提供理论借鉴,针对基于大语言模型的作战仿真想定智能化生成方法进行系统综述。从作战仿真想定的基本内容入手,分析了现今主流想定生成方法的缺点不足,讨论了如何利用大语言模型解决相... 为提高作战仿真效率,给作战仿真想定智能化生成研究提供理论借鉴,针对基于大语言模型的作战仿真想定智能化生成方法进行系统综述。从作战仿真想定的基本内容入手,分析了现今主流想定生成方法的缺点不足,讨论了如何利用大语言模型解决相关问题;梳理了基于大语言模型的作战仿真想定智能化生成范式以及关键支撑技术的研究现状;结合大语言模型热点和作战仿真需求,对作战仿真想定智能化生成的研究前景进行展望。 展开更多
关键词 大语言模型 作战仿真想定 智能化生成 检索增强生成 信息抽取
在线阅读 下载PDF
基于Language Model的地理信息检索模型(英文) 被引量:3
14
作者 黎志升 王煦法 《中国科学技术大学学报》 CAS CSCD 北大核心 2010年第2期203-209,共7页
区别于传统的信息检索,地理信息检索通过一个查询范围词来限制用户的兴趣区域.目前的技术一般是把该查询范围词作为一个过滤器,将在该范围之外的文档排除在查询结果外.但是,词在地理空间的频率分布并不是均匀的,因此词在排序结果中的重... 区别于传统的信息检索,地理信息检索通过一个查询范围词来限制用户的兴趣区域.目前的技术一般是把该查询范围词作为一个过滤器,将在该范围之外的文档排除在查询结果外.但是,词在地理空间的频率分布并不是均匀的,因此词在排序结果中的重要性应该随着查询范围的变化而有所改变.为此,提出了一种新的基于语言模型的地理信息查询模型,把查询范围引入到传统的语言模型中.在该模型中,引入了一个local model来描述查询词的地理分布特性.实验结果表明,新的检索模型优于TF-IDF与传统的语言模型. 展开更多
关键词 语言模型 地理感知 地理 信息检索
在线阅读 下载PDF
基于大模型的电子信息领域知识图谱自动构建与检索技术 被引量:12
15
作者 谢明华 《电讯技术》 北大核心 2024年第8期1228-1234,共7页
当前电子信息领域积累的越来越多宝贵经验知识对知识使用技术提出了新的挑战。知识图谱(Knowledge Graph, KG)技术和大规模预训练语言模型(Large Language Model, LLM)技术在知识使用方面都各自存在缺陷,但两种技术的优缺点能够形成互... 当前电子信息领域积累的越来越多宝贵经验知识对知识使用技术提出了新的挑战。知识图谱(Knowledge Graph, KG)技术和大规模预训练语言模型(Large Language Model, LLM)技术在知识使用方面都各自存在缺陷,但两种技术的优缺点能够形成互补。因此,基于LLM技术,提出了应用于电子信息领域的知识图谱自动构建与检索增强问答技术。首先基于LLM的语义理解能力自动构建电子信息领域知识图谱,然后构建基于知识图谱和检索增强大模型的知识问答系统。在CoNLL2003数据集和构建的电子信息领域数据集上的实验证明了所方法具有较好质量,知识问答系统具有较好的实用效果。所提方法能够更好地满足从业人员从海量文档中提取相关知识,提高知识利用效率的迫切需求,为推动大模型结合知识图谱技术在电子信息垂直领域的落地应用提供参考。 展开更多
关键词 电子信息领域 知识图谱构建 检索增强 大模型
在线阅读 下载PDF
信息效价对错误信息持续影响效应的影响:错误信息信念的中介作用
16
作者 金花 王超 +2 位作者 阴晓娟 贾丽娜 王旭英 《心理与行为研究》 CSSCI 北大核心 2024年第5期690-696,共7页
错误信息的持续影响效应(CIE)已被大量研究证实,但错误信息效价对CIE的影响还不清楚。本研究通过两个行为实验探讨了信息效价对CIE的影响。实验1发现,消极错误信息的CIE显著大于积极错误信息。实验2验证了实验1的结果,并进一步发现,消... 错误信息的持续影响效应(CIE)已被大量研究证实,但错误信息效价对CIE的影响还不清楚。本研究通过两个行为实验探讨了信息效价对CIE的影响。实验1发现,消极错误信息的CIE显著大于积极错误信息。实验2验证了实验1的结果,并进一步发现,消极错误信息信念显著高于积极错误信息信念,并且错误信息信念在效价对CIE的影响中起到中介作用;但消极错误信息的再认正确率和积极错误信息无显著差异。结果支持心理模型更新理论。结果提示,与积极错误信息相比,人们可能更容易信任消极错误信息,致使其更正信息更难以整合到事件的心理模型中,从而产生了更大的CIE,心理模型更新失败假设可以在认知上更好地解释效价对错误信息持续影响效应的影响。 展开更多
关键词 持续影响效应 信息效价 心理模型 提取失败
在线阅读 下载PDF
基于多粒度语义融合的信息检索方法 被引量:3
17
作者 赵征宇 罗景 涂新辉 《计算机应用》 CSCD 北大核心 2024年第6期1775-1780,共6页
信息检索(IR)是一种通过特定的技术和方法组织、处理信息,以满足用户的信息需求的过程。近年来,基于预训练模型的稠密检索方法取得了巨大的成功;然而,这些方法只利用了文本和词语的向量表征计算查询与文档相关度,忽略了它们短语层面间... 信息检索(IR)是一种通过特定的技术和方法组织、处理信息,以满足用户的信息需求的过程。近年来,基于预训练模型的稠密检索方法取得了巨大的成功;然而,这些方法只利用了文本和词语的向量表征计算查询与文档相关度,忽略了它们短语层面间的语义信息。针对该问题,提出一种名为MSIR(Multi-Scale IR)的IR方法。所提方法通过融合查询与文档中多种不同粒度的语义信息提高IR性能。首先,构建查询和文档中词语、短语和文本这3个粒度的语义单元;其次,利用预训练模型对这3个语义单元分别进行编码获得它们的语义表征;最后,利用语义表征计算查询和文档相关度。在Corvid-19、TREC2019和Robust04这3个不同大小的经典数据集上进行了对比实验。与ColBERT(ranking model based on Contextualized late interaction over BERT(Bidirectional Encoder Representation from Transformers))相比,MSIR在Robust04数据集的P@10、P@20、NDCG@10和NDCG@20指标上均实现了约8%的提升,同时在Corvid-19和TREC2019数据集上也取得了一定的改进。实验结果表明,MSIR能够成功融合多种语义粒度,提升检索精度。 展开更多
关键词 语义融合 信息检索 稠密检索 预训练模型 文本检索
在线阅读 下载PDF
大语言模型增强的知识图谱问答研究进展综述 被引量:7
18
作者 冯拓宇 李伟平 +3 位作者 郭庆浪 王刚亮 张雨松 乔子剑 《计算机科学与探索》 CSCD 北大核心 2024年第11期2887-2900,共14页
知识图谱问答(knowledge graph question answering,KGQA)是一种通过处理用户提出的自然语言问题,从知识图谱中获取相关答案的技术。早期的知识图谱问答技术受到知识图谱规模、计算能力以及自然语言处理能力的限制,准确率较低。近年来,... 知识图谱问答(knowledge graph question answering,KGQA)是一种通过处理用户提出的自然语言问题,从知识图谱中获取相关答案的技术。早期的知识图谱问答技术受到知识图谱规模、计算能力以及自然语言处理能力的限制,准确率较低。近年来,随着人工智能技术的进步,特别是大语言模型(large language model,LLM)的发展,知识图谱问答技术的性能得到显著提升。大语言模型如GPT-3等已经被广泛应用于增强知识图谱问答的性能。为了更好地研究学习增强知识图谱问答的技术,对现有的各种大语言模型增强的知识图谱问答方法进行了归纳分析。总结了大语言模型和知识图谱问答的相关知识,即大语言模型的技术原理、训练方法,以及知识图谱、问答和知识图谱问答的基本概念。从语义解析和信息检索两个维度,综述了大语言模型增强知识图谱问答的现有方法,分析了方法所解决的问题及其局限性。收集整理了大语言模型增强知识图谱问答的相关资源和评测方法,并对现有方法的性能表现进行了总结。最后针对现有方法的局限性,分析并提出了未来的重点研究方向。 展开更多
关键词 大语言模型 知识图谱问答 语义解析 信息检索
在线阅读 下载PDF
基于大语言模型的电力知识库智能问答系统构建与评价 被引量:14
19
作者 张金营 王天堃 +5 位作者 么长英 谢华 柴林政 刘书恺 李彤亮 李舟军 《计算机科学》 CSCD 北大核心 2024年第12期286-292,共7页
大语言模型是近年来自然语言处理领域的一个重大突破,已成为该领域研究的一种新范式。在金融、法律等垂直领域,基于FinGPT,ChatLaw等垂直领域大模型的智能问答系统,促进了大模型技术在相关领域的学术研究与应用落地。然而,由于电力领域... 大语言模型是近年来自然语言处理领域的一个重大突破,已成为该领域研究的一种新范式。在金融、法律等垂直领域,基于FinGPT,ChatLaw等垂直领域大模型的智能问答系统,促进了大模型技术在相关领域的学术研究与应用落地。然而,由于电力领域缺乏相关的高质量数据,相关的大模型问答系统的构建工作遇到了较大阻碍。为了构建电力领域的智能问答系统,提出了基于大语言模型的电力知识库智能问答系统ChatPower。为了确保问答效果,ChatPower充分利用了电力管理各环节的数据。通过语义化理解,梳理和整合了大量的电力专业知识,精心设计和构建了一个较大规模的电力系统知识库。该知识库覆盖电力相关规章制度、安全生产管理体系以及发电设备故障知识等方面的内容。此外,通过参考检索到的电力知识,ChatPower显著缓解了问答中存在的模型幻觉问题,并在检索系统中引入了BM25检索、向量库检索与重排相结合的方法,有效降低了单纯依赖向量库检索的不准确性。同时,ChatPower结合基于大模型的提示工程技术,提升了对于规章制度类型问题生成回复的条理性。为了对问答系统进行评价,构建了一个电力知识问答的测试数据集,并对其进行了测试验证,测试结果表明:基于大语言模型的电力知识库问答系统ChatPower能够有效提升电力相关知识的检索和问答的准确性。 展开更多
关键词 大语言模型 知识库问答系统 信息检索 自然语言生成
在线阅读 下载PDF
检索增强生成技术支持下的校园问答系统研究 被引量:5
20
作者 贾春燕 方伟杰 +1 位作者 谢宇威 凌在盈 《通信学报》 CSCD 北大核心 2024年第S2期248-254,共7页
针对高等学校师生用户从海量校园信息中获取有效信息的困难,以校务领域知识为数据源,基于检索增强生成技术,设计了一个校园智能问答系统。融合大语言模型和垂直领域专业知识,以学校百事通项目为依托,将包括办事指南、常见问题、规范性... 针对高等学校师生用户从海量校园信息中获取有效信息的困难,以校务领域知识为数据源,基于检索增强生成技术,设计了一个校园智能问答系统。融合大语言模型和垂直领域专业知识,以学校百事通项目为依托,将包括办事指南、常见问题、规范性文件等校务信息作为外挂数据语料库,应用检索增强生成专用的Infinity数据库,构建校务知识库,采用提示词工程,增强大语言模型生成答案。通过检索增强生成技术进行教育领域特定的校园问答,旨在以互动方式为用户提供各种校务服务信息,有助于解决校园常见问题,简化师生咨询流程,减轻学校管理工作负担。 展开更多
关键词 信息获取 大语言模型 检索增强生成 校园问答
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部