-
题名大模型驱动的科技政策法规问答系统研究
被引量:3
- 1
-
-
作者
向小伟
申艳光
胡明昊
闫天伟
罗威
罗准辰
-
机构
河北工程大学信息与电气工程学院
军事科学院军事科学信息研究中心
国防科技大学计算机学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2024年第9期2349-2360,共12页
-
基金
国家自然科学基金面上项目(62376284)。
-
文摘
科技政策法规问答系统(Q&A)在帮助公众理解和应用科技法规方面发挥关键作用。大语言模型(LLM)可以显著提升科技政策法规问答系统的准确性和效率。然而,基于大语言模型的科技政策法规问答系统仍然存在以下问题:缺乏大规模高质量的科技政策法规问答数据集,且现有自动构建大规模数据集的方法在引用和整合政策法规知识方面存在不足;问答系统在处理科技政策法规问题时,专业性、准确性不足且模型知识更新滞后。为解决这些问题,提出了一种检索增强自提示的问答数据集构建方法,并构建了一个大规模高质量的科技政策法规问答数据集;同时,构建了科技政策法规问答系统,该系统结合了经过低秩自适应(LoRA)微调技术优化的大语言模型与科技政策法规知识库,并运用提示学习技术,来引导系统生成准确的答案。实验结果显示,构建的问答数据集在引用和整合科技政策法规知识方面,比传统方法构建的问答数据集有显著提升;相较于通用大语言模型驱动的问答系统,该问答系统在各项指标上也有明显提高。
-
关键词
大语言模型
问答数据集
低秩自适应微调
提示学习
科技政策法规
问答系统
-
Keywords
large language model
question-and-answer dataset
low-rank adaptive fine-tuning
prompt learning
science and technology policy and regulation
question-and-answer system
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合知识图谱和语义匹配的医疗问答系统
被引量:4
- 2
-
-
作者
徐若卿
-
机构
三峡大学计算机与信息学院
-
出处
《现代电子技术》
北大核心
2024年第8期49-54,共6页
-
文摘
问答系统是自然语言处理领域中的一项重要任务,常应用于医疗服务。传统的问答系统通过知识图谱的实体关系匹配返回相应的尾实体作为答案,然而,倘若实体或关系无法识别,又或者在知识图谱中并不存在相应的实体关系,问答将无法继续进行。为了解决这一问题,建立一种融合知识图谱和语义匹配模型的中文医疗问答混合系统。当所提问题无法在知识图谱中进行实体关系匹配时,该模型能继续从问答对数据集中找到最相似的问题,并返回相应结果作为答案。在语义匹配模型方面,结合中文医疗相似问题对,在Sentence-BERT模型上进行微调训练,并引入双曲空间中的距离度量函数对句子对进行相似度度量。结果表明:在整体性能方面,所提模型相较于BERT这类大语言模型精度能提升7.16%;在度量能力方面,双曲度量相较于通用欧氏空间度量,如余弦度量,最高能有2.28%的精度提升和1.58%的F_1值提升。
-
关键词
医疗问答系统
知识图谱
语义匹配
问答对数据集
相似问题对
双曲距离度量
-
Keywords
question answering system
knowledge graph
semantic matching
question answering on dataset
similar problem pairs
hyperbolic distance metric
-
分类号
TN919.5-34
[电子电信—通信与信息系统]
-
-
题名面向问题生成的预训练模型适应性优化方法研究
被引量:1
- 3
-
-
作者
苏玉兰
洪宇
朱鸿雨
武恺莉
张民
-
机构
苏州大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2022年第3期91-100,共10页
-
基金
国家自然科学基金(62076174)
江苏省研究生科研与实践创新计划项目(SJCX20_1064)。
-
文摘
问题生成的核心任务是“在给定上下文语境的前提下,对目标答案自动生成相应的疑问句”。问题生成是自然语言处理领域中富有挑战性的任务之一,其对可靠的语义编码和解码技术有着极高的要求。目前,预训练语言模型已在不同自然语言处理任务中得到广泛应用,并取得了较好的应用效果。该文继承这一趋势,尝试将预训练语言模型UNILM应用于现有“基于编码和解码架构”的问题生成系统中,并集中在其适应性问题上开展研究。该文针对预训练模型在解码阶段频繁出现的“暴露偏差”和“掩码异构”问题,分别研究了基于随机抗噪和迁移学习的训练方法,借以提升UNILM在问题生成过程中的适应能力。同时,该文在SQuAD数据集上开展问题生成实验,实验结果证明,随机抗噪和迁移学习都能优化UNILM的解码性能,使之在答案可知场景的数据划分split1和split2上,分别将BLEU4指标提升到20.31%和21.95%;并在答案不可知场景的split1数据集上将BLEU4指标提升到17.90%。
-
关键词
问题生成
暴露偏差
问答数据集
迁移学习
-
Keywords
question generation
exposure bias
question-answering dataset
transfer learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-