大语言模型(LLMs,Large Language Models)具有极强的自然语言理解和复杂问题求解能力,本文基于大语言模型构建了矿物问答系统,以高效地获取矿物知识。该系统首先从互联网资源获取矿物数据,清洗后将矿物数据结构化为矿物文档和问答对;将...大语言模型(LLMs,Large Language Models)具有极强的自然语言理解和复杂问题求解能力,本文基于大语言模型构建了矿物问答系统,以高效地获取矿物知识。该系统首先从互联网资源获取矿物数据,清洗后将矿物数据结构化为矿物文档和问答对;将矿物文档经过格式转换和建立索引后转化为矿物知识库,用于检索增强大语言模型生成,问答对用于微调大语言模型。使用矿物知识库检索增强大语言模型生成时,采用先召回再精排的两级检索模式,以获得更好的大语言模型生成结果。矿物大语言模型微调采用了主流的低秩适配(Low-Rank Adaption,LoRA)方法,以较少的训练参数获得了与全参微调性能相当的效果,节省了计算资源。实验结果表明,基于检索增强生成的大语言模型的矿物问答系统能以较高的准确率快捷地获取矿物知识。展开更多
属性级情感分析作为一种细粒度情感分析方法,目前在许多应用场景中都具有重要作用.然而,随着社交媒体和在线评论的日益广泛以及各类新兴领域的出现,使得跨领域属性级情感分析面临着标签数据不足以及源领域与目标领域文本分布差异等挑战...属性级情感分析作为一种细粒度情感分析方法,目前在许多应用场景中都具有重要作用.然而,随着社交媒体和在线评论的日益广泛以及各类新兴领域的出现,使得跨领域属性级情感分析面临着标签数据不足以及源领域与目标领域文本分布差异等挑战.目前已有许多数据增强方法试图解决这些问题,但现有方法生成的文本仍存在语义不连贯、结构单一以及特征与源领域过于趋同等问题.为了克服这些问题,提出一种基于大语言模型(large language model,LLM)数据增强的跨领域属性级情感分析方法.所提方法利用大模型丰富的语言知识,合理构建针对跨领域属性级别情感分析任务的引导语句,挖掘目标领域与源领域相似文本,通过上下文学习的方式,使用领域关联关键词引导LLM生成目标领域有标签文本数据,用以解决目标领域数据缺乏以及领域特异性问题,从而有效提高跨领域属性级情感分析的准确性和鲁棒性.所提方法在多个真实数据集中进行实验,实验结果表明,该方法可以有效提升基线模型在跨领域属性级情感分析中的表现.展开更多
近年来,大语言模型(Large language model,LLM)在自然语言处理中取得重大进展.在模型足够大时,大语言模型涌现出传统的预训练语言模型(Pre-trained language model,PLM)不具备的推理能力.为了探究如何将大语言模型的涌现能力应用于中文...近年来,大语言模型(Large language model,LLM)在自然语言处理中取得重大进展.在模型足够大时,大语言模型涌现出传统的预训练语言模型(Pre-trained language model,PLM)不具备的推理能力.为了探究如何将大语言模型的涌现能力应用于中文实体链接任务,适配了以下四种方法:知识增强、适配器微调、提示学习和语境学习(In-context learning,ICL).在Hansel和CLEEK数据集上的实证研究表明,基于Qwen-7B/ChatGLM3-6B的监督学习方法超过基于小模型的方法,在Hansel-FS数据集上提升3.9%~11.8%,在Hansel-ZS数据集上提升0.7%~4.1%,在CLEEK数据集上提升0.6%~3.7%.而当模型参数量达到720亿时,Qwen-72B的无监督方法实现与监督微调Qwen-7B相近的结果(-2.4%~+1.4%).此外,大语言模型Qwen在长尾实体场景下有明显的优势(11.8%),且随着参数量的增加,优势会更加明显(13.2%).对错误案例进行分析(以下简称错误分析)发现,实体粒度和实体类别相关错误占比较高,分别为36%和25%.这表明在实体链接任务中,准确划分实体边界以及正确判断实体类别是提高系统性能的关键.展开更多
当前信息抽取任务主要依赖大语言模型(LLM),而标书信息中广泛存在领域术语,模型缺乏相关先验知识,导致微调效率低且抽取性能不佳。此外,模型的抽取和泛化性能在很大程度上依赖于提示信息的质量和提示模板的构建方式。针对上述问题,提出...当前信息抽取任务主要依赖大语言模型(LLM),而标书信息中广泛存在领域术语,模型缺乏相关先验知识,导致微调效率低且抽取性能不佳。此外,模型的抽取和泛化性能在很大程度上依赖于提示信息的质量和提示模板的构建方式。针对上述问题,提出一种基于提示学习的标书信息抽取方法(TIEPL)。首先,利用生成式信息抽取的提示学习方法对LLM注入领域知识,以实现预训练和微调阶段的统一优化;其次,以LoRA(Low-Rank Adaption)微调方法为框架,单独设计提示训练旁路,并设计标书场景关键词提示模板,从而增强模型信息抽取与提示的双向关联。在自建的招中标数据集上的实验结果表明,相较于次优的UIE(Universal Information Extraction)方法,TIEPL的ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation)和BLEU-4(BiLingual Evaluation Understudy)分别提高1.05和4.71个百分点,能更准确和完整地生成抽取结果,验证了所提方法在提高标书信息抽取准确性和泛化性方面的有效性。展开更多
微调后的大语言模型(Large language models,LLMs)在多任务中表现出色,但集中式训练存在用户隐私泄漏的风险。联邦学习(Federated learning,FL)通过本地训练避免了数据共享,但LLMs庞大的参数量对资源受限的设备和通信带宽构成挑战,导致...微调后的大语言模型(Large language models,LLMs)在多任务中表现出色,但集中式训练存在用户隐私泄漏的风险。联邦学习(Federated learning,FL)通过本地训练避免了数据共享,但LLMs庞大的参数量对资源受限的设备和通信带宽构成挑战,导致在边缘网络中部署困难。结合分割学习(Split learning,SL),联邦分割学习可以有效解决这一问题。基于模型深层权重的影响更为显著,以及对部分层的训练准确率略低于整体模型训练的发现,本文按照Transformer层对模型进行分割,同时引入低秩适应(Low⁃rank adaption,LoRA)进一步降低资源开销和提升安全性。因此,在设备端,仅对最后几层进行低秩适应和训练,然后上传至服务器进行聚合。为了降低开销并保证模型性能,本文提出了基于联邦分割学习与LoRA的RoBERTa预训练模型微调方法。通过联合优化边缘设备的计算频率和模型微调的秩,在资源受限的情况下最大化秩,提高模型的准确率。仿真结果显示,仅训练LLMs最后3层的情况下,在一定范围内(1~32)增加秩的取值可以提高模型的准确率。同时,增大模型每轮的容忍时延和设备的能量阈值可以进一步提升模型的准确率。展开更多
文摘大语言模型(LLMs,Large Language Models)具有极强的自然语言理解和复杂问题求解能力,本文基于大语言模型构建了矿物问答系统,以高效地获取矿物知识。该系统首先从互联网资源获取矿物数据,清洗后将矿物数据结构化为矿物文档和问答对;将矿物文档经过格式转换和建立索引后转化为矿物知识库,用于检索增强大语言模型生成,问答对用于微调大语言模型。使用矿物知识库检索增强大语言模型生成时,采用先召回再精排的两级检索模式,以获得更好的大语言模型生成结果。矿物大语言模型微调采用了主流的低秩适配(Low-Rank Adaption,LoRA)方法,以较少的训练参数获得了与全参微调性能相当的效果,节省了计算资源。实验结果表明,基于检索增强生成的大语言模型的矿物问答系统能以较高的准确率快捷地获取矿物知识。
文摘属性级情感分析作为一种细粒度情感分析方法,目前在许多应用场景中都具有重要作用.然而,随着社交媒体和在线评论的日益广泛以及各类新兴领域的出现,使得跨领域属性级情感分析面临着标签数据不足以及源领域与目标领域文本分布差异等挑战.目前已有许多数据增强方法试图解决这些问题,但现有方法生成的文本仍存在语义不连贯、结构单一以及特征与源领域过于趋同等问题.为了克服这些问题,提出一种基于大语言模型(large language model,LLM)数据增强的跨领域属性级情感分析方法.所提方法利用大模型丰富的语言知识,合理构建针对跨领域属性级别情感分析任务的引导语句,挖掘目标领域与源领域相似文本,通过上下文学习的方式,使用领域关联关键词引导LLM生成目标领域有标签文本数据,用以解决目标领域数据缺乏以及领域特异性问题,从而有效提高跨领域属性级情感分析的准确性和鲁棒性.所提方法在多个真实数据集中进行实验,实验结果表明,该方法可以有效提升基线模型在跨领域属性级情感分析中的表现.
文摘近年来,大语言模型(Large language model,LLM)在自然语言处理中取得重大进展.在模型足够大时,大语言模型涌现出传统的预训练语言模型(Pre-trained language model,PLM)不具备的推理能力.为了探究如何将大语言模型的涌现能力应用于中文实体链接任务,适配了以下四种方法:知识增强、适配器微调、提示学习和语境学习(In-context learning,ICL).在Hansel和CLEEK数据集上的实证研究表明,基于Qwen-7B/ChatGLM3-6B的监督学习方法超过基于小模型的方法,在Hansel-FS数据集上提升3.9%~11.8%,在Hansel-ZS数据集上提升0.7%~4.1%,在CLEEK数据集上提升0.6%~3.7%.而当模型参数量达到720亿时,Qwen-72B的无监督方法实现与监督微调Qwen-7B相近的结果(-2.4%~+1.4%).此外,大语言模型Qwen在长尾实体场景下有明显的优势(11.8%),且随着参数量的增加,优势会更加明显(13.2%).对错误案例进行分析(以下简称错误分析)发现,实体粒度和实体类别相关错误占比较高,分别为36%和25%.这表明在实体链接任务中,准确划分实体边界以及正确判断实体类别是提高系统性能的关键.
文摘当前信息抽取任务主要依赖大语言模型(LLM),而标书信息中广泛存在领域术语,模型缺乏相关先验知识,导致微调效率低且抽取性能不佳。此外,模型的抽取和泛化性能在很大程度上依赖于提示信息的质量和提示模板的构建方式。针对上述问题,提出一种基于提示学习的标书信息抽取方法(TIEPL)。首先,利用生成式信息抽取的提示学习方法对LLM注入领域知识,以实现预训练和微调阶段的统一优化;其次,以LoRA(Low-Rank Adaption)微调方法为框架,单独设计提示训练旁路,并设计标书场景关键词提示模板,从而增强模型信息抽取与提示的双向关联。在自建的招中标数据集上的实验结果表明,相较于次优的UIE(Universal Information Extraction)方法,TIEPL的ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation)和BLEU-4(BiLingual Evaluation Understudy)分别提高1.05和4.71个百分点,能更准确和完整地生成抽取结果,验证了所提方法在提高标书信息抽取准确性和泛化性方面的有效性。