大数据技术在地球科学中的应用已成为国家战略重点,《“十四五”大数据产业发展规划》等政策为多源异构数据整合提供了支撑。大语言模型(LLM)是一种基于深度学习技术的人工智能模型。然而,通用大语言模型(如GPT-4、Deepseek-R1)在专业...大数据技术在地球科学中的应用已成为国家战略重点,《“十四五”大数据产业发展规划》等政策为多源异构数据整合提供了支撑。大语言模型(LLM)是一种基于深度学习技术的人工智能模型。然而,通用大语言模型(如GPT-4、Deepseek-R1)在专业领域存在局限性,因训练语料缺乏地球科学细分知识,导致回答笼统或错误(即“幻觉”)(Singhal et al.,2025),Zhou Zhi等(2024)在医疗领域通过Med-PaLM2构建垂直知识库,He Yong等(2024)法律领域基于LawGPT实现法规精准检索。在地球科学领域尚未形成系统的本地化知识问答方案。展开更多
基于检索增强生成(RAG)的军事领域知识问答系统已经逐渐成为现代情报人员收集和分析情报的重要工具。针对目前RAG方法的应用策略中的混合检索存在可移植性不强以及非必要使用查询改写容易诱发语义漂移的问题,提出一种多策略检索增强生成...基于检索增强生成(RAG)的军事领域知识问答系统已经逐渐成为现代情报人员收集和分析情报的重要工具。针对目前RAG方法的应用策略中的混合检索存在可移植性不强以及非必要使用查询改写容易诱发语义漂移的问题,提出一种多策略检索增强生成(MSRAG)方法。首先,根据用户输入的查询特点自适应地匹配检索模型来召回相关文本;其次,利用文本过滤器提取出能够回答问题的关键文本片段;再次,使用文本过滤器进行内容有效性判断以启动基于同义词拓展的查询改写,并将初始查询与改写后的信息合并输入检索控制器以进行更有针对性的再次检索;最后,合并能够回答问题的关键文本片段和问题,并使用提示工程输入生成答案模型来生成响应返回给用户。实验结果表明,MSRAG方法在军事领域数据集(Military)和Medical数据集的ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation Longest common subsequence)指标上相较于凸线性组合RAG方法分别提高了14.35和5.83个百分点。可见,MSRAG方法具备较强的通用性和可移植性,能够缓解非必要查询改写导致的语义漂移现象,有效帮助大模型生成更准确的答案。展开更多
针对高级装备维修场景下人工方式成本高、准确度依赖人员素质、无法有效利用历史维修经验等问题,提出一种改进检索增强与大语言模型(Large Language Models,LLM)思维链维修策略生成算法。即首先引入意图识别模块以优化处理路径;其次引...针对高级装备维修场景下人工方式成本高、准确度依赖人员素质、无法有效利用历史维修经验等问题,提出一种改进检索增强与大语言模型(Large Language Models,LLM)思维链维修策略生成算法。即首先引入意图识别模块以优化处理路径;其次引入分层路由机制,通过关键因素进行多层分类;再次融合多查询检索器以提升检索效果,引入上下文压缩模块以减少冗余信息,避免注意力干扰;最终通过思维链推理方法,引导大语言模型逐步生成精细化维修策略。在高级装备故障诊断与维修决策领域,以典型航空飞行器维修决策作为实验以及应用验证场景,采用提出的高效维修策略生成算法,显著提升了高级装备维修策略生成准确性与时效性。展开更多
文摘大数据技术在地球科学中的应用已成为国家战略重点,《“十四五”大数据产业发展规划》等政策为多源异构数据整合提供了支撑。大语言模型(LLM)是一种基于深度学习技术的人工智能模型。然而,通用大语言模型(如GPT-4、Deepseek-R1)在专业领域存在局限性,因训练语料缺乏地球科学细分知识,导致回答笼统或错误(即“幻觉”)(Singhal et al.,2025),Zhou Zhi等(2024)在医疗领域通过Med-PaLM2构建垂直知识库,He Yong等(2024)法律领域基于LawGPT实现法规精准检索。在地球科学领域尚未形成系统的本地化知识问答方案。
文摘基于检索增强生成(RAG)的军事领域知识问答系统已经逐渐成为现代情报人员收集和分析情报的重要工具。针对目前RAG方法的应用策略中的混合检索存在可移植性不强以及非必要使用查询改写容易诱发语义漂移的问题,提出一种多策略检索增强生成(MSRAG)方法。首先,根据用户输入的查询特点自适应地匹配检索模型来召回相关文本;其次,利用文本过滤器提取出能够回答问题的关键文本片段;再次,使用文本过滤器进行内容有效性判断以启动基于同义词拓展的查询改写,并将初始查询与改写后的信息合并输入检索控制器以进行更有针对性的再次检索;最后,合并能够回答问题的关键文本片段和问题,并使用提示工程输入生成答案模型来生成响应返回给用户。实验结果表明,MSRAG方法在军事领域数据集(Military)和Medical数据集的ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation Longest common subsequence)指标上相较于凸线性组合RAG方法分别提高了14.35和5.83个百分点。可见,MSRAG方法具备较强的通用性和可移植性,能够缓解非必要查询改写导致的语义漂移现象,有效帮助大模型生成更准确的答案。
文摘针对高级装备维修场景下人工方式成本高、准确度依赖人员素质、无法有效利用历史维修经验等问题,提出一种改进检索增强与大语言模型(Large Language Models,LLM)思维链维修策略生成算法。即首先引入意图识别模块以优化处理路径;其次引入分层路由机制,通过关键因素进行多层分类;再次融合多查询检索器以提升检索效果,引入上下文压缩模块以减少冗余信息,避免注意力干扰;最终通过思维链推理方法,引导大语言模型逐步生成精细化维修策略。在高级装备故障诊断与维修决策领域,以典型航空飞行器维修决策作为实验以及应用验证场景,采用提出的高效维修策略生成算法,显著提升了高级装备维修策略生成准确性与时效性。