题名 基于大模型检索增强生成的气象数据库问答模型实现
被引量:4
1
作者
江双五
张嘉玮
华连生
杨菁林
机构
安徽省气象信息中心
北京航空航天大学
国家计算机网络应急技术处理协调中心
出处
《计算机工程与应用》
北大核心
2025年第5期113-121,共9页
基金
国家重点研发计划(2022YFC3321002)
国家档案局科技项目(2022-X-060)
+1 种基金
中国气象局档案建设专项(YBSZX2024007)
安徽省气象局创新团队建设计划。
文摘
随着信息检索和知识获取需求的增加,智能问答系统在多个垂直领域得到广泛应用。然而,在气象领域仍缺乏专门的智能问答系统研究,严重限制了气象信息的高效利用和气象系统的服务效率。针对这一需求,提出了一种面向气象数据库的大模型检索智能问答技术实现方案。该方案设计了一种基于关系型数据库(SQL)与文档型数据(NoSQL)的多通道查询路由(multi-channel retrieval router,McRR)方法,为了适配数据库进行大模型查询以及增强大模型对查询表的理解,分别提出指令查询转换方法与数据库表摘要方法DNSUM,提升大模型对数据库的语义理解能力,通过结合问题理解、重排序器和响应生成等关键模块,构建了一个端到端的智能问答模型,可实现多数据源的相关知识检索及答案生成。实验结果显示,该模型可以有效理解用户问题并生成准确的答案,具有良好的检索和响应能力。不仅为气象领域提供了一种智能问答的解决方案,也为气象智能问答技术提供了新的应用实施参考。
关键词
数据 库查询
数据 库问答
大语言模型
检索增强生成
气象问答
Keywords
sructured query
database question-answering
large language models(LLM)
retrieval-augmented generation(RAG)
meteorological Q&A
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于大语言模型的航空发动机领域高质量数据集构建
2
作者
邹冠沄
王存俊
孔寅豪
马小庆
李丕绩
机构
南京航空航天大学人工智能学院
模式分析与机器智能工业和信息化部重点实验室(南京航空航天大学)
中国商用飞机有限责任公司上海飞机设计研究院
出处
《数据采集与处理》
北大核心
2025年第3期603-615,共13页
文摘
随着人工智能技术的快速发展,大语言模型(Large language models,LLMs)在多个领域的应用日益广泛。然而,航空发动机领域由于缺乏高质量的人工编写问答数据集,限制了专家问答大模型的应用。本文提出了一种基于LLMs的问答数据集自动化构建方法,该方法无需人工干预即可生成高质量的开放式问答数据。在数据生成阶段,采用上下文学习方法和输入优先生成策略,增强了生成数据的稳定性;在数据过滤阶段,通过原文相似度的忠实度评估和大模型的语义质量评估,建立了数据质量自动评估机制,有效筛选出受幻觉影响的异常数据,确保数据的事实可靠性。实验结果表明,该方法显著提升了生成数据集的质量,经过指令微调后的模型在航空发动机领域的知识问答表现显著提升。本文的研究成果不仅为航空发动机领域的大模型应用提供了坚实基础,也为其他复杂工程领域的数据集自动化构建提供了参考。
关键词
大语言模型
垂直领域大模型
问答数据 生成
问答数据 质量评估
Keywords
large language model
vertical domain large language model
question-answering data generation
quality assessment of question-answering data
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于大规模问答对数据的查询扩展技术研究
被引量:2
3
作者
王君泽
张祥
徐晓林
机构
华中科技大学公共管理学院
华中科技大学电子与信息工程系
出处
《情报学报》
CSSCI
北大核心
2012年第4期407-415,共9页
基金
国家社科基金项目(10BTQ046)
国家科技支撑计划(2009BAK65B05)
中国博士后科学基金资助项目(20110491139).
文摘
查询扩展是信息检索领域中的一个热门话题,其目标是将与初始查询词相关的其他单词添加到初始查询请求中,以更详细地描述用户的信息需求.本文将查询过程视为特殊的问答过程,并基于此思想提出一种新的查询扩展方法.本文的贡献主要有以下几点:① 借助统计语言模型从大规模问答对数据中挖掘单词之间的扩展关系,并根据单词间的扩展关系对候选扩展词进行评级;② 提出一个新的查询扩展词选取策略,以克服已有查询扩展方法仅依赖评级的扩展词选取策略的不足.通过在真实数据集合上的实验,证明本文提出的查询扩展方法可以取得优于传统方法的性能,具有一定的实用性.
关键词
查询扩展
信息检索
问答数据
语言模型
Keywords
query expansion, information retrieval, Q&A data, language model
分类号
G633.410.2
[文化科学—教育学]
题名 大模型驱动的科技政策法规问答系统研究
被引量:3
4
作者
向小伟
申艳光
胡明昊
闫天伟
罗威
罗准辰
机构
河北工程大学信息与电气工程学院
军事科学院军事科学信息研究中心
国防科技大学计算机学院
出处
《计算机科学与探索》
CSCD
北大核心
2024年第9期2349-2360,共12页
基金
国家自然科学基金面上项目(62376284)。
文摘
科技政策法规问答系统(Q&A)在帮助公众理解和应用科技法规方面发挥关键作用。大语言模型(LLM)可以显著提升科技政策法规问答系统的准确性和效率。然而,基于大语言模型的科技政策法规问答系统仍然存在以下问题:缺乏大规模高质量的科技政策法规问答数据集,且现有自动构建大规模数据集的方法在引用和整合政策法规知识方面存在不足;问答系统在处理科技政策法规问题时,专业性、准确性不足且模型知识更新滞后。为解决这些问题,提出了一种检索增强自提示的问答数据集构建方法,并构建了一个大规模高质量的科技政策法规问答数据集;同时,构建了科技政策法规问答系统,该系统结合了经过低秩自适应(LoRA)微调技术优化的大语言模型与科技政策法规知识库,并运用提示学习技术,来引导系统生成准确的答案。实验结果显示,构建的问答数据集在引用和整合科技政策法规知识方面,比传统方法构建的问答数据集有显著提升;相较于通用大语言模型驱动的问答系统,该问答系统在各项指标上也有明显提高。
关键词
大语言模型
问答数据 集
低秩自适应微调
提示学习
科技政策法规
问答 系统
Keywords
large language model
question-and-answer dataset
low-rank adaptive fine-tuning
prompt learning
science and technology policy and regulation
question-and-answer system
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于大规模问答对数据的问题检索模型
被引量:1
5
作者
蔡宇
杨广超
机构
重庆医科大学附属第一医院网络信息中心
重庆大学计算机学院
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第21期29-31,共3页
基金
重庆市自然科学基金资助项目(CSTC2008BB2296)
文摘
根据用户提交的查询请求,利用统计语言模型计算查询请求和问句之间的相似度,确定用户查询词所代表的信息需求,由此从海量数据中检索出可以满足该信息需求的问答对,并使用答案质量评估模型对其进行评估。实验结果表明,该问题检索模型可以根据用户请求提供具有较高质量的问答对答案。
关键词
问答 对数据
统计语言模型
答案质量评估
问题检索
语义相似度
Keywords
question-answer data
statistical language model
answer quality evaluation
question retrieval
semantic similarity
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 融合知识图谱和语义匹配的医疗问答系统
被引量:4
6
作者
徐若卿
机构
三峡大学计算机与信息学院
出处
《现代电子技术》
北大核心
2024年第8期49-54,共6页
文摘
问答系统是自然语言处理领域中的一项重要任务,常应用于医疗服务。传统的问答系统通过知识图谱的实体关系匹配返回相应的尾实体作为答案,然而,倘若实体或关系无法识别,又或者在知识图谱中并不存在相应的实体关系,问答将无法继续进行。为了解决这一问题,建立一种融合知识图谱和语义匹配模型的中文医疗问答混合系统。当所提问题无法在知识图谱中进行实体关系匹配时,该模型能继续从问答对数据集中找到最相似的问题,并返回相应结果作为答案。在语义匹配模型方面,结合中文医疗相似问题对,在Sentence-BERT模型上进行微调训练,并引入双曲空间中的距离度量函数对句子对进行相似度度量。结果表明:在整体性能方面,所提模型相较于BERT这类大语言模型精度能提升7.16%;在度量能力方面,双曲度量相较于通用欧氏空间度量,如余弦度量,最高能有2.28%的精度提升和1.58%的F_1值提升。
关键词
医疗问答 系统
知识图谱
语义匹配
问答 对数据 集
相似问题对
双曲距离度量
Keywords
question answering system
knowledge graph
semantic matching
question answering on dataset
similar problem pairs
hyperbolic distance metric
分类号
TN919.5-34
[电子电信—通信与信息系统]
题名 面向问题生成的预训练模型适应性优化方法研究
被引量:1
7
作者
苏玉兰
洪宇
朱鸿雨
武恺莉
张民
机构
苏州大学计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2022年第3期91-100,共10页
基金
国家自然科学基金(62076174)
江苏省研究生科研与实践创新计划项目(SJCX20_1064)。
文摘
问题生成的核心任务是“在给定上下文语境的前提下,对目标答案自动生成相应的疑问句”。问题生成是自然语言处理领域中富有挑战性的任务之一,其对可靠的语义编码和解码技术有着极高的要求。目前,预训练语言模型已在不同自然语言处理任务中得到广泛应用,并取得了较好的应用效果。该文继承这一趋势,尝试将预训练语言模型UNILM应用于现有“基于编码和解码架构”的问题生成系统中,并集中在其适应性问题上开展研究。该文针对预训练模型在解码阶段频繁出现的“暴露偏差”和“掩码异构”问题,分别研究了基于随机抗噪和迁移学习的训练方法,借以提升UNILM在问题生成过程中的适应能力。同时,该文在SQuAD数据集上开展问题生成实验,实验结果证明,随机抗噪和迁移学习都能优化UNILM的解码性能,使之在答案可知场景的数据划分split1和split2上,分别将BLEU4指标提升到20.31%和21.95%;并在答案不可知场景的split1数据集上将BLEU4指标提升到17.90%。
关键词
问题生成
暴露偏差
问答数据 集
迁移学习
Keywords
question generation
exposure bias
question-answering dataset
transfer learning
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 面向复杂查询请求的SQL自动生成模型
被引量:3
8
作者
余波
彭敦陆
机构
上海理工大学光电信息与计算机工程学院
出处
《小型微型计算机系统》
CSCD
北大核心
2021年第11期2446-2451,共6页
基金
国家自然科学基金项目(61772342)资助.
文摘
将自然语言自动转换成恰当的SQL语句是基于关系数据库智能问答系统的核心,而一个SQL语句执行后能否得到期望的查询结果在很大程度上取决于where子句的表达是否正确.目前,大多数Text2Sql算法只利用了数据库表的列语义向量来提取where子句中出现的值,但是当where子句中存在多列多值时往往无法准确地提取对应的值.本文提出的一种神经网络模型———2-SQL,将提取where子句中值的方式改进为范式转变模式.通过对运算符和值进行枚举,生成一系列的候选查询条件组合,再采用Transformer模型将查询请求语句与查询条件组合进行语义匹配,来实现对候选查询条件的筛选.实验表明,与现有Text2Sql相比较,2-SQL对复杂查询where子句中出现的值的提取具有较好的效果.
关键词
Text2Sql
数据 库问答 系统
语义匹配
2-SQL
Keywords
Text2Sql
database question answering system
semantic matching
2-SQL
分类号
TP311
[自动化与计算机技术—计算机软件与理论]