期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于大模型检索增强生成的气象数据库问答模型实现 被引量:4
1
作者 江双五 张嘉玮 +1 位作者 华连生 杨菁林 《计算机工程与应用》 北大核心 2025年第5期113-121,共9页
随着信息检索和知识获取需求的增加,智能问答系统在多个垂直领域得到广泛应用。然而,在气象领域仍缺乏专门的智能问答系统研究,严重限制了气象信息的高效利用和气象系统的服务效率。针对这一需求,提出了一种面向气象数据库的大模型检索... 随着信息检索和知识获取需求的增加,智能问答系统在多个垂直领域得到广泛应用。然而,在气象领域仍缺乏专门的智能问答系统研究,严重限制了气象信息的高效利用和气象系统的服务效率。针对这一需求,提出了一种面向气象数据库的大模型检索智能问答技术实现方案。该方案设计了一种基于关系型数据库(SQL)与文档型数据(NoSQL)的多通道查询路由(multi-channel retrieval router,McRR)方法,为了适配数据库进行大模型查询以及增强大模型对查询表的理解,分别提出指令查询转换方法与数据库表摘要方法DNSUM,提升大模型对数据库的语义理解能力,通过结合问题理解、重排序器和响应生成等关键模块,构建了一个端到端的智能问答模型,可实现多数据源的相关知识检索及答案生成。实验结果显示,该模型可以有效理解用户问题并生成准确的答案,具有良好的检索和响应能力。不仅为气象领域提供了一种智能问答的解决方案,也为气象智能问答技术提供了新的应用实施参考。 展开更多
关键词 数据库查询 数据问答 大语言模型 检索增强生成 气象问答
在线阅读 下载PDF
基于大语言模型的航空发动机领域高质量数据集构建
2
作者 邹冠沄 王存俊 +2 位作者 孔寅豪 马小庆 李丕绩 《数据采集与处理》 北大核心 2025年第3期603-615,共13页
随着人工智能技术的快速发展,大语言模型(Large language models,LLMs)在多个领域的应用日益广泛。然而,航空发动机领域由于缺乏高质量的人工编写问答数据集,限制了专家问答大模型的应用。本文提出了一种基于LLMs的问答数据集自动化构... 随着人工智能技术的快速发展,大语言模型(Large language models,LLMs)在多个领域的应用日益广泛。然而,航空发动机领域由于缺乏高质量的人工编写问答数据集,限制了专家问答大模型的应用。本文提出了一种基于LLMs的问答数据集自动化构建方法,该方法无需人工干预即可生成高质量的开放式问答数据。在数据生成阶段,采用上下文学习方法和输入优先生成策略,增强了生成数据的稳定性;在数据过滤阶段,通过原文相似度的忠实度评估和大模型的语义质量评估,建立了数据质量自动评估机制,有效筛选出受幻觉影响的异常数据,确保数据的事实可靠性。实验结果表明,该方法显著提升了生成数据集的质量,经过指令微调后的模型在航空发动机领域的知识问答表现显著提升。本文的研究成果不仅为航空发动机领域的大模型应用提供了坚实基础,也为其他复杂工程领域的数据集自动化构建提供了参考。 展开更多
关键词 大语言模型 垂直领域大模型 问答数据生成 问答数据质量评估
在线阅读 下载PDF
基于大规模问答对数据的查询扩展技术研究 被引量:2
3
作者 王君泽 张祥 徐晓林 《情报学报》 CSSCI 北大核心 2012年第4期407-415,共9页
查询扩展是信息检索领域中的一个热门话题,其目标是将与初始查询词相关的其他单词添加到初始查询请求中,以更详细地描述用户的信息需求.本文将查询过程视为特殊的问答过程,并基于此思想提出一种新的查询扩展方法.本文的贡献主要有以下... 查询扩展是信息检索领域中的一个热门话题,其目标是将与初始查询词相关的其他单词添加到初始查询请求中,以更详细地描述用户的信息需求.本文将查询过程视为特殊的问答过程,并基于此思想提出一种新的查询扩展方法.本文的贡献主要有以下几点:① 借助统计语言模型从大规模问答对数据中挖掘单词之间的扩展关系,并根据单词间的扩展关系对候选扩展词进行评级;② 提出一个新的查询扩展词选取策略,以克服已有查询扩展方法仅依赖评级的扩展词选取策略的不足.通过在真实数据集合上的实验,证明本文提出的查询扩展方法可以取得优于传统方法的性能,具有一定的实用性. 展开更多
关键词 查询扩展 信息检索 问答数据 语言模型
在线阅读 下载PDF
大模型驱动的科技政策法规问答系统研究 被引量:3
4
作者 向小伟 申艳光 +3 位作者 胡明昊 闫天伟 罗威 罗准辰 《计算机科学与探索》 CSCD 北大核心 2024年第9期2349-2360,共12页
科技政策法规问答系统(Q&A)在帮助公众理解和应用科技法规方面发挥关键作用。大语言模型(LLM)可以显著提升科技政策法规问答系统的准确性和效率。然而,基于大语言模型的科技政策法规问答系统仍然存在以下问题:缺乏大规模高质量的科... 科技政策法规问答系统(Q&A)在帮助公众理解和应用科技法规方面发挥关键作用。大语言模型(LLM)可以显著提升科技政策法规问答系统的准确性和效率。然而,基于大语言模型的科技政策法规问答系统仍然存在以下问题:缺乏大规模高质量的科技政策法规问答数据集,且现有自动构建大规模数据集的方法在引用和整合政策法规知识方面存在不足;问答系统在处理科技政策法规问题时,专业性、准确性不足且模型知识更新滞后。为解决这些问题,提出了一种检索增强自提示的问答数据集构建方法,并构建了一个大规模高质量的科技政策法规问答数据集;同时,构建了科技政策法规问答系统,该系统结合了经过低秩自适应(LoRA)微调技术优化的大语言模型与科技政策法规知识库,并运用提示学习技术,来引导系统生成准确的答案。实验结果显示,构建的问答数据集在引用和整合科技政策法规知识方面,比传统方法构建的问答数据集有显著提升;相较于通用大语言模型驱动的问答系统,该问答系统在各项指标上也有明显提高。 展开更多
关键词 大语言模型 问答数据 低秩自适应微调 提示学习 科技政策法规 问答系统
在线阅读 下载PDF
基于大规模问答对数据的问题检索模型 被引量:1
5
作者 蔡宇 杨广超 《计算机工程》 CAS CSCD 北大核心 2011年第21期29-31,共3页
根据用户提交的查询请求,利用统计语言模型计算查询请求和问句之间的相似度,确定用户查询词所代表的信息需求,由此从海量数据中检索出可以满足该信息需求的问答对,并使用答案质量评估模型对其进行评估。实验结果表明,该问题检索模型可... 根据用户提交的查询请求,利用统计语言模型计算查询请求和问句之间的相似度,确定用户查询词所代表的信息需求,由此从海量数据中检索出可以满足该信息需求的问答对,并使用答案质量评估模型对其进行评估。实验结果表明,该问题检索模型可以根据用户请求提供具有较高质量的问答对答案。 展开更多
关键词 问答数据 统计语言模型 答案质量评估 问题检索 语义相似度
在线阅读 下载PDF
融合知识图谱和语义匹配的医疗问答系统 被引量:4
6
作者 徐若卿 《现代电子技术》 北大核心 2024年第8期49-54,共6页
问答系统是自然语言处理领域中的一项重要任务,常应用于医疗服务。传统的问答系统通过知识图谱的实体关系匹配返回相应的尾实体作为答案,然而,倘若实体或关系无法识别,又或者在知识图谱中并不存在相应的实体关系,问答将无法继续进行。... 问答系统是自然语言处理领域中的一项重要任务,常应用于医疗服务。传统的问答系统通过知识图谱的实体关系匹配返回相应的尾实体作为答案,然而,倘若实体或关系无法识别,又或者在知识图谱中并不存在相应的实体关系,问答将无法继续进行。为了解决这一问题,建立一种融合知识图谱和语义匹配模型的中文医疗问答混合系统。当所提问题无法在知识图谱中进行实体关系匹配时,该模型能继续从问答对数据集中找到最相似的问题,并返回相应结果作为答案。在语义匹配模型方面,结合中文医疗相似问题对,在Sentence-BERT模型上进行微调训练,并引入双曲空间中的距离度量函数对句子对进行相似度度量。结果表明:在整体性能方面,所提模型相较于BERT这类大语言模型精度能提升7.16%;在度量能力方面,双曲度量相较于通用欧氏空间度量,如余弦度量,最高能有2.28%的精度提升和1.58%的F_1值提升。 展开更多
关键词 医疗问答系统 知识图谱 语义匹配 问答数据 相似问题对 双曲距离度量
在线阅读 下载PDF
面向问题生成的预训练模型适应性优化方法研究 被引量:1
7
作者 苏玉兰 洪宇 +2 位作者 朱鸿雨 武恺莉 张民 《中文信息学报》 CSCD 北大核心 2022年第3期91-100,共10页
问题生成的核心任务是“在给定上下文语境的前提下,对目标答案自动生成相应的疑问句”。问题生成是自然语言处理领域中富有挑战性的任务之一,其对可靠的语义编码和解码技术有着极高的要求。目前,预训练语言模型已在不同自然语言处理任... 问题生成的核心任务是“在给定上下文语境的前提下,对目标答案自动生成相应的疑问句”。问题生成是自然语言处理领域中富有挑战性的任务之一,其对可靠的语义编码和解码技术有着极高的要求。目前,预训练语言模型已在不同自然语言处理任务中得到广泛应用,并取得了较好的应用效果。该文继承这一趋势,尝试将预训练语言模型UNILM应用于现有“基于编码和解码架构”的问题生成系统中,并集中在其适应性问题上开展研究。该文针对预训练模型在解码阶段频繁出现的“暴露偏差”和“掩码异构”问题,分别研究了基于随机抗噪和迁移学习的训练方法,借以提升UNILM在问题生成过程中的适应能力。同时,该文在SQuAD数据集上开展问题生成实验,实验结果证明,随机抗噪和迁移学习都能优化UNILM的解码性能,使之在答案可知场景的数据划分split1和split2上,分别将BLEU4指标提升到20.31%和21.95%;并在答案不可知场景的split1数据集上将BLEU4指标提升到17.90%。 展开更多
关键词 问题生成 暴露偏差 问答数据 迁移学习
在线阅读 下载PDF
面向复杂查询请求的SQL自动生成模型 被引量:3
8
作者 余波 彭敦陆 《小型微型计算机系统》 CSCD 北大核心 2021年第11期2446-2451,共6页
将自然语言自动转换成恰当的SQL语句是基于关系数据库智能问答系统的核心,而一个SQL语句执行后能否得到期望的查询结果在很大程度上取决于where子句的表达是否正确.目前,大多数Text2Sql算法只利用了数据库表的列语义向量来提取where子... 将自然语言自动转换成恰当的SQL语句是基于关系数据库智能问答系统的核心,而一个SQL语句执行后能否得到期望的查询结果在很大程度上取决于where子句的表达是否正确.目前,大多数Text2Sql算法只利用了数据库表的列语义向量来提取where子句中出现的值,但是当where子句中存在多列多值时往往无法准确地提取对应的值.本文提出的一种神经网络模型———2-SQL,将提取where子句中值的方式改进为范式转变模式.通过对运算符和值进行枚举,生成一系列的候选查询条件组合,再采用Transformer模型将查询请求语句与查询条件组合进行语义匹配,来实现对候选查询条件的筛选.实验表明,与现有Text2Sql相比较,2-SQL对复杂查询where子句中出现的值的提取具有较好的效果. 展开更多
关键词 Text2Sql 数据问答系统 语义匹配 2-SQL
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部