-
题名基于mBART的农作物命名实体规范化研究
- 1
-
-
作者
胡玉雪
黄仲强
王同官
苏东宇
申余丰
沙灜
-
机构
华中农业大学信息学院
-
出处
《农业机械学报》
2025年第7期558-566,共9页
-
基金
国家自然科学基金项目(62272188)
中央高校基本科研业务费专项资金项目(2662021JC008)
内蒙古自治区科技重大专项(2021ZD0046)。
-
文摘
由于地域、文化差异,农业文本中实体名称混乱,使得自动识别和提取信息变得复杂,限制了农业信息化发展。为提高农业信息提取效率,本文提出了基于mBART的农业命名实体规范化方法mJoint。首先,基于农业领域专家的知识经验,构建了一个以农作物为主的农业文本数据集,涵盖豆类、谷物和油料三大农作物,共包含22440条高质量的农业标注数据。其次,农业实体规范化问题涉及农业非规范化实体的检测与识别2个问题,本文提出基于mBART的统一生成式框架来联合检测、识别出农业非规范实体,直接完成农业命名实体规范化任务。为了提高农业实体规范化效果,在模型中额外引入农业非规范实体检测和农业非规范实体识别2个辅助任务。最后,在提出的农作物数据集上进行大量实验,结果表明,本文提出的mJoint在农业命名实体规范化任务上的P、R与F1值都达到0.99以上,相较于其他对比方法,各项指标均为最优。与大语言模型相比,本文提出的方法同样具有显著优势。
-
关键词
农业文本
农作物
命名实体规范化
mBART
统一生成式框架
-
Keywords
agricultural text
crop
named entity normalization
mBART
unified generative framework
-
分类号
TP391.1
[自动化与计算机技术]
-