[目的/意义]大语言模型(Large Language Models,LLMs)依托其强大的认知理解和内容生成能力,发展迅速,有望成为智慧农业领域一种全新的研究范式。然而,由于通用LLMs缺乏农业领域知识,对于专业性问题通常会产生事实性错误或信息不完备的...[目的/意义]大语言模型(Large Language Models,LLMs)依托其强大的认知理解和内容生成能力,发展迅速,有望成为智慧农业领域一种全新的研究范式。然而,由于通用LLMs缺乏农业领域知识,对于专业性问题通常会产生事实性错误或信息不完备的回复。为提升大模型在农业领域的适应性,本研究提出了一种知识图谱引导的农业LLMs--KGLLM。[方法]该模型基于信息熵实现知识过滤,并在解码阶段显式利用知识图谱的语义信息约束其内容生成。具体而言,将输入问题中的关键实体链接到农业知识图谱,形成知识推理路径和问答依据。为保证此外源知识的有效性,进一步评估引入每条知识前后模型输出内容的熵差,对无法提升答案确定性的知识进行过滤。经筛选的知识路径将被用于调整词表概率,以增加与知识高度相关词的输出,实现知识图谱对LLMs的显式引导。[结果和讨论]本研究在5种主流的通用LLMs上实现了农业知识图谱引导技术,包括Baichuan、ChatGLM、Qwen等开源大模型,同时与最优的知识图谱检索增强生成技术进行了对比。实验结果表明,本研究提出的方法在内容流畅性、准确性、真实性和领域忠诚度方面都有显著提升,相较于GPT-4o,在Mean BLEU、ROUGE、BertScore上分别平均提升了2.5923、2.8151和9.84%。通过消融实验亦证明了知识引导的农业LLMs不仅实现了冗余知识过滤,而且在解码过程中可有效调整词表输出分布,有助于提升通用LLMs在农业领域的适应性及问答的可解释性。[结论]本研究为后续农业LLMs的构建提供了可借鉴思路,表明知识图谱引导的方法在提升模型的领域适应性和回答质量具有潜在的应用价值。展开更多
针对利用海量数据构建分类模型时训练数据规模大、训练时间长且碳排放量大的问题,提出面向低能耗高性能的分类器两阶段数据选择方法TSDS(Two-Stage Data Selection)。首先,通过修正余弦相似度确定聚类中心,并将样本数据进行基于不相似...针对利用海量数据构建分类模型时训练数据规模大、训练时间长且碳排放量大的问题,提出面向低能耗高性能的分类器两阶段数据选择方法TSDS(Two-Stage Data Selection)。首先,通过修正余弦相似度确定聚类中心,并将样本数据进行基于不相似点的分裂层次聚类;其次,对聚类结果按数据分布自适应抽样以组成高质量的子样本集;最后,利用子样本集在分类模型上训练,在加速训练过程的同时提升模型精度。在Spambase、Bupa和Phoneme等6个数据集上构建支持向量机(SVM)和多层感知机(MLP)分类模型,验证TSDS的性能。实验结果表明在样本数据压缩比达到85.00%的情况下,TSDS能将分类模型准确率提升3~10个百分点,同时加速模型训练,使训练SVM分类器的能耗平均降低93.76%,训练MLP分类器的能耗平均降低75.41%。可见,TSDS在大数据场景的分类任务上既能缩短训练时间和减少能耗,又能提升分类器性能,从而助力实现“双碳”目标。展开更多
建筑结构的地震响应预测是基于性能的地震工程中建筑评估的重要组成部分。聚焦于地震响应预测中的少样本场景,提出了一种融合了大语言模型(large language model,LLM)和提示学习的震动响应预测方法LLM-PaP。该方法将LLM对时序数据的通...建筑结构的地震响应预测是基于性能的地震工程中建筑评估的重要组成部分。聚焦于地震响应预测中的少样本场景,提出了一种融合了大语言模型(large language model,LLM)和提示学习的震动响应预测方法LLM-PaP。该方法将LLM对时序数据的通用分析能力迁移到地震响应预测中,以克服一般模型在小样本条件下的性能缺陷。在模型中引入“PaP(prompt-as-prefix)”思想,为时间序列增加自然语言任务指令和地震输入序列数据的统计信息,以增强模型对输入序列的理解能力并引导推理预测过程。在两个数据算例的实验中验证了所提方法的有效性。结果表明:LLM-PaP在数据集上的预测性能显著优于基于MLP、频域和Transformer等先进预测方法。进一步的泛化性实验结果揭示了LLM-PaP在跨数据集适应上的卓越性能。LLM-PaP为地震响应预测任务提供了一种创新性的解决方案,为未来大模型与震动响应预测领域的交叉性研究提供了新的思路和方法。展开更多
文摘[目的/意义]大语言模型(Large Language Models,LLMs)依托其强大的认知理解和内容生成能力,发展迅速,有望成为智慧农业领域一种全新的研究范式。然而,由于通用LLMs缺乏农业领域知识,对于专业性问题通常会产生事实性错误或信息不完备的回复。为提升大模型在农业领域的适应性,本研究提出了一种知识图谱引导的农业LLMs--KGLLM。[方法]该模型基于信息熵实现知识过滤,并在解码阶段显式利用知识图谱的语义信息约束其内容生成。具体而言,将输入问题中的关键实体链接到农业知识图谱,形成知识推理路径和问答依据。为保证此外源知识的有效性,进一步评估引入每条知识前后模型输出内容的熵差,对无法提升答案确定性的知识进行过滤。经筛选的知识路径将被用于调整词表概率,以增加与知识高度相关词的输出,实现知识图谱对LLMs的显式引导。[结果和讨论]本研究在5种主流的通用LLMs上实现了农业知识图谱引导技术,包括Baichuan、ChatGLM、Qwen等开源大模型,同时与最优的知识图谱检索增强生成技术进行了对比。实验结果表明,本研究提出的方法在内容流畅性、准确性、真实性和领域忠诚度方面都有显著提升,相较于GPT-4o,在Mean BLEU、ROUGE、BertScore上分别平均提升了2.5923、2.8151和9.84%。通过消融实验亦证明了知识引导的农业LLMs不仅实现了冗余知识过滤,而且在解码过程中可有效调整词表输出分布,有助于提升通用LLMs在农业领域的适应性及问答的可解释性。[结论]本研究为后续农业LLMs的构建提供了可借鉴思路,表明知识图谱引导的方法在提升模型的领域适应性和回答质量具有潜在的应用价值。
文摘针对利用海量数据构建分类模型时训练数据规模大、训练时间长且碳排放量大的问题,提出面向低能耗高性能的分类器两阶段数据选择方法TSDS(Two-Stage Data Selection)。首先,通过修正余弦相似度确定聚类中心,并将样本数据进行基于不相似点的分裂层次聚类;其次,对聚类结果按数据分布自适应抽样以组成高质量的子样本集;最后,利用子样本集在分类模型上训练,在加速训练过程的同时提升模型精度。在Spambase、Bupa和Phoneme等6个数据集上构建支持向量机(SVM)和多层感知机(MLP)分类模型,验证TSDS的性能。实验结果表明在样本数据压缩比达到85.00%的情况下,TSDS能将分类模型准确率提升3~10个百分点,同时加速模型训练,使训练SVM分类器的能耗平均降低93.76%,训练MLP分类器的能耗平均降低75.41%。可见,TSDS在大数据场景的分类任务上既能缩短训练时间和减少能耗,又能提升分类器性能,从而助力实现“双碳”目标。
文摘建筑结构的地震响应预测是基于性能的地震工程中建筑评估的重要组成部分。聚焦于地震响应预测中的少样本场景,提出了一种融合了大语言模型(large language model,LLM)和提示学习的震动响应预测方法LLM-PaP。该方法将LLM对时序数据的通用分析能力迁移到地震响应预测中,以克服一般模型在小样本条件下的性能缺陷。在模型中引入“PaP(prompt-as-prefix)”思想,为时间序列增加自然语言任务指令和地震输入序列数据的统计信息,以增强模型对输入序列的理解能力并引导推理预测过程。在两个数据算例的实验中验证了所提方法的有效性。结果表明:LLM-PaP在数据集上的预测性能显著优于基于MLP、频域和Transformer等先进预测方法。进一步的泛化性实验结果揭示了LLM-PaP在跨数据集适应上的卓越性能。LLM-PaP为地震响应预测任务提供了一种创新性的解决方案,为未来大模型与震动响应预测领域的交叉性研究提供了新的思路和方法。