目的:性早熟危险因素的准确识别有助于临床诊疗,但运用自然语言处理非结构化数据的方法仍有待评价。本研究旨在基于性早熟电子病历中个体危险因素抽取评价提示词工程方法的性能。方法:根据CRISPE(capacity and role-insight-statement-p...目的:性早熟危险因素的准确识别有助于临床诊疗,但运用自然语言处理非结构化数据的方法仍有待评价。本研究旨在基于性早熟电子病历中个体危险因素抽取评价提示词工程方法的性能。方法:根据CRISPE(capacity and role-insight-statement-personality-experiment)提示词框架制订简单提示词和优化提示词,2种提示词分别引导大语言模型GLM-4-9B从653份电子病历记录中提取10种性早熟的危险因素,采用准确率、精确率、召回率和F1值作为信息抽取任务的评价指标。结果:在简单提示词和优化提示词下,模型总体的准确率、精确率、召回率和F1值分别为84.18%、98.09%、81.99%、89.32%和97.15%、98.31%、98.16%、98.23%。优化提示词在年龄(<9岁和≥9岁)和就诊时间(<2023年和≥2023年)各组间的模型性能差异小于简单提示词。在简单提示词下,模型抽取每种危险因素的准确率的区间范围为60.03%~97.24%;在优化提示词下,准确率的区间范围为92.19%~99.85%。2种提示词在抽取“饮料摄入情况”时的准确率差异最大(60.03%vs 92.19%),在抽取“母亲初潮年龄”时差异最小(97.24%vs99.23%)。在简单提示词、优化提示词和真实值3种情况下,零食摄入情况、饮料摄入情况、豆浆摄入情况、蜂蜜摄入情况、保健品服用情况、补品服用情况、睡眠质量、开灯睡觉情况的分布特征差异均具有统计学意义(均P<0.001),运动情况(P=0.966)和母亲初潮年龄(P=0.952)的分布特征差异无统计学意义。结论:优化提示词相比简单提示词更能有效地完成电子病历中个体危险因素的抽取任务,表明提示词工程在提升大语言模型性能方面具有重要作用。展开更多
针对再制造知识多环节和歧义性等特点导致的传统抽取方法标注数据依赖性强、多跳关系解析能力不足等问题,提出一种基于大语言模型链式提示词的再制造工艺知识多粒度抽取方法,通过融合提示词工程与思维链推理,结合语义对齐机制,利用大语...针对再制造知识多环节和歧义性等特点导致的传统抽取方法标注数据依赖性强、多跳关系解析能力不足等问题,提出一种基于大语言模型链式提示词的再制造工艺知识多粒度抽取方法,通过融合提示词工程与思维链推理,结合语义对齐机制,利用大语言模型(large language model,LLM)实现粗粒度到细粒度知识的精准提取。首先,基于提示词工程引导LLM完成初始知识的粗粒度抽取,定位再制造工艺核心实体;其次,设计思维链推理框架,驱动LLMs解析实体间复杂逻辑关系,并通过余弦相似度实现异构语义对齐,提升细粒度知识的语义一致性与匹配精度。试验结果表明,链式提示词法的F1分数达88.0%,较传统方法提升超30%,且多跳关系覆盖率达89.2%,有效解决了传统技术对标注数据的依赖问题。展开更多
为提高应用文编写效率,提出一种融合大语言模型(large language model,LLM)与向量知识库(vector knowledge base)的应用文自动生成框架.根据目标应用场景,以人工编写的标准应用文为范本,构建结构化辅助生成文件,并建立相应类型应用文的...为提高应用文编写效率,提出一种融合大语言模型(large language model,LLM)与向量知识库(vector knowledge base)的应用文自动生成框架.根据目标应用场景,以人工编写的标准应用文为范本,构建结构化辅助生成文件,并建立相应类型应用文的向量知识库.利用目标类型应用文的章节标题和用户输入的关键信息在知识库中进行检索,匹配相关文段;设置提示词引导LLM,以召回的参考文段及用户输入的提示信息为参考,使用末级标题作为分割标志,分章节生成应用文文本;最终按规定格式整合全文并输出完整的目标应用文.以应急预案为例,在同一评价标准下使用ChatGPT-4Turbo进行评测,自动生成的应急预案高度趋近于人工编写的质量,二者的文档质量相似度达95.87%.所提方法能够在算力资源有限的情况下突破字数限制,生成符合基本标准的长篇幅应用文,可供人工参考或直接使用,极大提高了编写人员的工作效率.展开更多
大语言模型(Large Language Models,LLMs)目前正在重塑各行各业的学习方式、思维模式和研究范式。如何使LLMs与行业结合、重构LLMs与行业的关系,是推动企业数字化变革和社会发展的重要命题。要实现LLMs在垂域发挥重要作用,最重要的是提...大语言模型(Large Language Models,LLMs)目前正在重塑各行各业的学习方式、思维模式和研究范式。如何使LLMs与行业结合、重构LLMs与行业的关系,是推动企业数字化变革和社会发展的重要命题。要实现LLMs在垂域发挥重要作用,最重要的是提升LLMs的推理能力。本文以如何提升LLMs在会计领域的推理能力为起点,提出会计垂域推理能力的概念、研究路径、评测标准,分析中文开源模型清华智谱的GLM系列的评测结果,为后续的推理研究提供标准范式,并为如何提升会计推理能力提供评价标准,力图推动LLMs在会计领域达到应有水平。同时,为验证LLMs的会计推理能力,本文比较了GLM-6B、GLM-130B、GLM-4在算术推理能力和会计常识推理能力方面的差别,并将OPENAI的GPT-4作为基准进行分析。结果表明,在不同推理提示工程下,模型规模显著影响推理能力,虽然各种模型算术推理能力已经得到极大的提高,但是会计推理能力还远不能达到应用水平,需要在应用中逐层优化,研究为LLMs会计垂域进入应用实践的优化过程提供参考。展开更多
文摘目的:性早熟危险因素的准确识别有助于临床诊疗,但运用自然语言处理非结构化数据的方法仍有待评价。本研究旨在基于性早熟电子病历中个体危险因素抽取评价提示词工程方法的性能。方法:根据CRISPE(capacity and role-insight-statement-personality-experiment)提示词框架制订简单提示词和优化提示词,2种提示词分别引导大语言模型GLM-4-9B从653份电子病历记录中提取10种性早熟的危险因素,采用准确率、精确率、召回率和F1值作为信息抽取任务的评价指标。结果:在简单提示词和优化提示词下,模型总体的准确率、精确率、召回率和F1值分别为84.18%、98.09%、81.99%、89.32%和97.15%、98.31%、98.16%、98.23%。优化提示词在年龄(<9岁和≥9岁)和就诊时间(<2023年和≥2023年)各组间的模型性能差异小于简单提示词。在简单提示词下,模型抽取每种危险因素的准确率的区间范围为60.03%~97.24%;在优化提示词下,准确率的区间范围为92.19%~99.85%。2种提示词在抽取“饮料摄入情况”时的准确率差异最大(60.03%vs 92.19%),在抽取“母亲初潮年龄”时差异最小(97.24%vs99.23%)。在简单提示词、优化提示词和真实值3种情况下,零食摄入情况、饮料摄入情况、豆浆摄入情况、蜂蜜摄入情况、保健品服用情况、补品服用情况、睡眠质量、开灯睡觉情况的分布特征差异均具有统计学意义(均P<0.001),运动情况(P=0.966)和母亲初潮年龄(P=0.952)的分布特征差异无统计学意义。结论:优化提示词相比简单提示词更能有效地完成电子病历中个体危险因素的抽取任务,表明提示词工程在提升大语言模型性能方面具有重要作用。
文摘针对再制造知识多环节和歧义性等特点导致的传统抽取方法标注数据依赖性强、多跳关系解析能力不足等问题,提出一种基于大语言模型链式提示词的再制造工艺知识多粒度抽取方法,通过融合提示词工程与思维链推理,结合语义对齐机制,利用大语言模型(large language model,LLM)实现粗粒度到细粒度知识的精准提取。首先,基于提示词工程引导LLM完成初始知识的粗粒度抽取,定位再制造工艺核心实体;其次,设计思维链推理框架,驱动LLMs解析实体间复杂逻辑关系,并通过余弦相似度实现异构语义对齐,提升细粒度知识的语义一致性与匹配精度。试验结果表明,链式提示词法的F1分数达88.0%,较传统方法提升超30%,且多跳关系覆盖率达89.2%,有效解决了传统技术对标注数据的依赖问题。
文摘为提高应用文编写效率,提出一种融合大语言模型(large language model,LLM)与向量知识库(vector knowledge base)的应用文自动生成框架.根据目标应用场景,以人工编写的标准应用文为范本,构建结构化辅助生成文件,并建立相应类型应用文的向量知识库.利用目标类型应用文的章节标题和用户输入的关键信息在知识库中进行检索,匹配相关文段;设置提示词引导LLM,以召回的参考文段及用户输入的提示信息为参考,使用末级标题作为分割标志,分章节生成应用文文本;最终按规定格式整合全文并输出完整的目标应用文.以应急预案为例,在同一评价标准下使用ChatGPT-4Turbo进行评测,自动生成的应急预案高度趋近于人工编写的质量,二者的文档质量相似度达95.87%.所提方法能够在算力资源有限的情况下突破字数限制,生成符合基本标准的长篇幅应用文,可供人工参考或直接使用,极大提高了编写人员的工作效率.
文摘大语言模型(Large Language Models,LLMs)目前正在重塑各行各业的学习方式、思维模式和研究范式。如何使LLMs与行业结合、重构LLMs与行业的关系,是推动企业数字化变革和社会发展的重要命题。要实现LLMs在垂域发挥重要作用,最重要的是提升LLMs的推理能力。本文以如何提升LLMs在会计领域的推理能力为起点,提出会计垂域推理能力的概念、研究路径、评测标准,分析中文开源模型清华智谱的GLM系列的评测结果,为后续的推理研究提供标准范式,并为如何提升会计推理能力提供评价标准,力图推动LLMs在会计领域达到应有水平。同时,为验证LLMs的会计推理能力,本文比较了GLM-6B、GLM-130B、GLM-4在算术推理能力和会计常识推理能力方面的差别,并将OPENAI的GPT-4作为基准进行分析。结果表明,在不同推理提示工程下,模型规模显著影响推理能力,虽然各种模型算术推理能力已经得到极大的提高,但是会计推理能力还远不能达到应用水平,需要在应用中逐层优化,研究为LLMs会计垂域进入应用实践的优化过程提供参考。