[目的/意义]针对实体嵌套、实体类型混淆等问题导致的农业病害命名实体识别(Named Entities Recognition,NER)准确率不高的情况,以PointerNet为基准模型,提出一种基于RoFormer预训练模型的指针网络农业病害NER方法RoFormer-PointerNet。...[目的/意义]针对实体嵌套、实体类型混淆等问题导致的农业病害命名实体识别(Named Entities Recognition,NER)准确率不高的情况,以PointerNet为基准模型,提出一种基于RoFormer预训练模型的指针网络农业病害NER方法RoFormer-PointerNet。[方法]采用RoFormer预训练模型对输入的文本进行向量化,利用其独特的旋转位置嵌入方法来捕捉位置信息,丰富字词特征信息,从而解决一词多义导致的类型易混淆的问题。使用指针网络进行解码,利用指针网络的首尾指针标注方式抽取句子中的所有实体,首尾指针标注方式可以解决实体抽取中存在的嵌套问题。[结果和讨论]自建农业病害数据集,数据集中包含2867条标注语料,共10282个实体。为验证RoFormer预训练模型在实体抽取上的优越性,采用Word2Vec、BERT、RoBERTa等多种向量化模型进行对比试验,RoFormer-PointerNet与其他模型相比,模型精确率、召回率、F1值均为最优,分别为87.49%,85.76%和86.62%。为验证RoFormer-PointerNet在缓解实体嵌套的优势,与使用最为广泛的双向长短期记忆神经网络(Bidirectional Long Short-Term Memory,BiLSTM)和条件随机场(Conditional Random Field,CRF)模型进行对比试验,RoFormer-PointerNet比RoFormer-BiLSTM模型、RoFormer-CRF模型和RoFormer-BiLSTM-CRF模型分别高出4.8%、5.67%和3.87%,证明用指针网络模型可以很好解决实体嵌套问题。最后验证RoFormer-PointerNet方法在农业病害数据集中的识别性能,针对病害症状、病害名称、防治方法等8类实体进行了识别实验,本方法识别的精确率、召回率和F1值分别为87.49%、85.76%和86.62%,为同类最优。[结论]本研究提出的方法能有效识别中文农业病害文本中的实体,识别效果优于其他模型。在解决实体抽取过程中的实体嵌套和类型混淆等问题方面具有一定优势。展开更多
预训练扩散先验图像复原依赖预训练的扩散模型,无须微调即可处理各种经典图像复原任务。然而,目前的预训练扩散先验图像复原方法在处理高分辨率图像时效率低下,并且存在分布外问题(out of distribution,OOD)。针对以上问题,提出了一种...预训练扩散先验图像复原依赖预训练的扩散模型,无须微调即可处理各种经典图像复原任务。然而,目前的预训练扩散先验图像复原方法在处理高分辨率图像时效率低下,并且存在分布外问题(out of distribution,OOD)。针对以上问题,提出了一种基于预训练扩散模型的两阶段高分辨率图像复原方法,命名为由粗到细(coarse-to-fine,C2F)的方法。首先在预训练模型固定尺寸的coarse阶段得到粗糙的复原结果以保证输出一致性。然后在原尺寸的fine阶段上以coarse阶段结果为起点,使用更短的扩散过程来大幅度提升复原速度与获取一致性结果。在人脸与自然环境等多种场景下,以修复、上色、去模糊三种经典复原任务为目标,两阶段方法在任何尺寸下皆可获得最高水平的输出结果。对于1024尺寸的图像复原,采样次数需求仅需要同类方法的22%,速度达到了同类方法的4.5倍,避免了OOD问题,并且在PSNR与FID指标上达到最高水平。实验表明,所提方法对高分辨率图像的复原速度远高于其他方法,并且避免了OOD问题,具有良好的复原效果。展开更多
知识超图(knowledge hypergraph,KHG)是超图结构的知识图谱。现有知识超图链接预测模型主要存在以下不足:模型输入时将实体和关系简单地表示为嵌入层的ID(索引),而没有考虑实体和关系之间复杂的联系和语义;编码时只考虑位置和角色信息,...知识超图(knowledge hypergraph,KHG)是超图结构的知识图谱。现有知识超图链接预测模型主要存在以下不足:模型输入时将实体和关系简单地表示为嵌入层的ID(索引),而没有考虑实体和关系之间复杂的联系和语义;编码时只考虑位置和角色信息,而忽略了实体邻域结构和多元关系间的联系,导致实体和关系表示能力不足;模型训练时采样的负样本质量不够高,不能帮助模型高效学习样本特征。针对以上问题,提出一种联合预训练模型和层级注意力的知识超图链接预测模型(link prediction in knowledge hypergraph combining pretrained model and hierarchical attention,LPPH)。该模型引入预训练模型和简化的团式展开方法初始化超图嵌入,将实体和关系之间复杂联系和语义融入至实体和关系嵌入中;编码时使用层级注意力机制聚合实体邻域结构信息以增强实体表示,并使用实体-关系融合操作增强关系表示;提出一种基于过滤机制和主动学习的负样本选择策略,实现模型的高效训练。真实数据集上的大量实验结果验证了LPPH能有效提高知识超图链接预测的效果。展开更多
实体关系抽取是构建大规模知识图谱和专业领域数据集的重要基础之一,为此提出了一种基于预训练大语言模型的实体关系抽取框架(entity relation extraction framework based on pre-trained large language model, PLLM-RE),并针对循环...实体关系抽取是构建大规模知识图谱和专业领域数据集的重要基础之一,为此提出了一种基于预训练大语言模型的实体关系抽取框架(entity relation extraction framework based on pre-trained large language model, PLLM-RE),并针对循环经济政策进行了实体关系抽取研究。基于所提出的PLLM-RE框架,首先使用RoBERTa模型进行循环经济政策文本的实体识别,然后选取基于Transformer的双向编码器表示(bidirectional encoder representation from Transformers, BERT)模型进行循环经济政策实体关系抽取研究,以构建该政策领域的知识图谱。研究结果表明,PLLM-RE框架在循环经济政策实体关系抽取任务上的性能优于对比模型BiLSTM-ATT、PCNN、BERT以及ALBERT,验证了所提框架在循环经济政策实体关系抽取任务上的适配性和优越性,为后续循环经济领域资源的信息挖掘和政策分析提供了新思路。展开更多
文摘[目的/意义]针对实体嵌套、实体类型混淆等问题导致的农业病害命名实体识别(Named Entities Recognition,NER)准确率不高的情况,以PointerNet为基准模型,提出一种基于RoFormer预训练模型的指针网络农业病害NER方法RoFormer-PointerNet。[方法]采用RoFormer预训练模型对输入的文本进行向量化,利用其独特的旋转位置嵌入方法来捕捉位置信息,丰富字词特征信息,从而解决一词多义导致的类型易混淆的问题。使用指针网络进行解码,利用指针网络的首尾指针标注方式抽取句子中的所有实体,首尾指针标注方式可以解决实体抽取中存在的嵌套问题。[结果和讨论]自建农业病害数据集,数据集中包含2867条标注语料,共10282个实体。为验证RoFormer预训练模型在实体抽取上的优越性,采用Word2Vec、BERT、RoBERTa等多种向量化模型进行对比试验,RoFormer-PointerNet与其他模型相比,模型精确率、召回率、F1值均为最优,分别为87.49%,85.76%和86.62%。为验证RoFormer-PointerNet在缓解实体嵌套的优势,与使用最为广泛的双向长短期记忆神经网络(Bidirectional Long Short-Term Memory,BiLSTM)和条件随机场(Conditional Random Field,CRF)模型进行对比试验,RoFormer-PointerNet比RoFormer-BiLSTM模型、RoFormer-CRF模型和RoFormer-BiLSTM-CRF模型分别高出4.8%、5.67%和3.87%,证明用指针网络模型可以很好解决实体嵌套问题。最后验证RoFormer-PointerNet方法在农业病害数据集中的识别性能,针对病害症状、病害名称、防治方法等8类实体进行了识别实验,本方法识别的精确率、召回率和F1值分别为87.49%、85.76%和86.62%,为同类最优。[结论]本研究提出的方法能有效识别中文农业病害文本中的实体,识别效果优于其他模型。在解决实体抽取过程中的实体嵌套和类型混淆等问题方面具有一定优势。
文摘预训练扩散先验图像复原依赖预训练的扩散模型,无须微调即可处理各种经典图像复原任务。然而,目前的预训练扩散先验图像复原方法在处理高分辨率图像时效率低下,并且存在分布外问题(out of distribution,OOD)。针对以上问题,提出了一种基于预训练扩散模型的两阶段高分辨率图像复原方法,命名为由粗到细(coarse-to-fine,C2F)的方法。首先在预训练模型固定尺寸的coarse阶段得到粗糙的复原结果以保证输出一致性。然后在原尺寸的fine阶段上以coarse阶段结果为起点,使用更短的扩散过程来大幅度提升复原速度与获取一致性结果。在人脸与自然环境等多种场景下,以修复、上色、去模糊三种经典复原任务为目标,两阶段方法在任何尺寸下皆可获得最高水平的输出结果。对于1024尺寸的图像复原,采样次数需求仅需要同类方法的22%,速度达到了同类方法的4.5倍,避免了OOD问题,并且在PSNR与FID指标上达到最高水平。实验表明,所提方法对高分辨率图像的复原速度远高于其他方法,并且避免了OOD问题,具有良好的复原效果。
文摘知识超图(knowledge hypergraph,KHG)是超图结构的知识图谱。现有知识超图链接预测模型主要存在以下不足:模型输入时将实体和关系简单地表示为嵌入层的ID(索引),而没有考虑实体和关系之间复杂的联系和语义;编码时只考虑位置和角色信息,而忽略了实体邻域结构和多元关系间的联系,导致实体和关系表示能力不足;模型训练时采样的负样本质量不够高,不能帮助模型高效学习样本特征。针对以上问题,提出一种联合预训练模型和层级注意力的知识超图链接预测模型(link prediction in knowledge hypergraph combining pretrained model and hierarchical attention,LPPH)。该模型引入预训练模型和简化的团式展开方法初始化超图嵌入,将实体和关系之间复杂联系和语义融入至实体和关系嵌入中;编码时使用层级注意力机制聚合实体邻域结构信息以增强实体表示,并使用实体-关系融合操作增强关系表示;提出一种基于过滤机制和主动学习的负样本选择策略,实现模型的高效训练。真实数据集上的大量实验结果验证了LPPH能有效提高知识超图链接预测的效果。
文摘实体关系抽取是构建大规模知识图谱和专业领域数据集的重要基础之一,为此提出了一种基于预训练大语言模型的实体关系抽取框架(entity relation extraction framework based on pre-trained large language model, PLLM-RE),并针对循环经济政策进行了实体关系抽取研究。基于所提出的PLLM-RE框架,首先使用RoBERTa模型进行循环经济政策文本的实体识别,然后选取基于Transformer的双向编码器表示(bidirectional encoder representation from Transformers, BERT)模型进行循环经济政策实体关系抽取研究,以构建该政策领域的知识图谱。研究结果表明,PLLM-RE框架在循环经济政策实体关系抽取任务上的性能优于对比模型BiLSTM-ATT、PCNN、BERT以及ALBERT,验证了所提框架在循环经济政策实体关系抽取任务上的适配性和优越性,为后续循环经济领域资源的信息挖掘和政策分析提供了新思路。