针对苹果栽培领域命名实体识别中由于标注数据稀缺、字符嵌入表征单一以及多维度特征挖掘不充分导致的模型识别精度低的问题,提出一种基于多特征融合的中文苹果栽培命名实体识别模型(apple cultivation named entity recognition model,...针对苹果栽培领域命名实体识别中由于标注数据稀缺、字符嵌入表征单一以及多维度特征挖掘不充分导致的模型识别精度低的问题,提出一种基于多特征融合的中文苹果栽培命名实体识别模型(apple cultivation named entity recognition model,ACNM)。首先,围绕苹果栽培主要生产环节,构建涵盖14个实体类别的苹果栽培命名实体识别数据集(apple cultivation named entity recognition dataset,ACND),并设计一个数据增强层对其进行实体级和语句级变换增强;其次,设计了一个多特征嵌入层(multi-feature-layer with pre-trained model,glyph,radical and lexicon,MPGRL)提取和动态融合苹果栽培文本的字符、字形、偏旁和词汇嵌入等多维度特征,通过引入动态字词表示、汉字视觉形态特征、汉字内部结构和词汇边界信息增强字符的语义表示;然后利用接受加权键值(receptance weighted key value,RWKV)模型架构进行编码,提升模型对多维度特征和长距离上下文信息的提取能力,最后通过条件随机场(conditional random field,CRF)进行解码获得最优标签序列。试验结果表明,数据增强和多特征融合有效提升了模型识别精度,ACNM模型在ACND的F1值达到97.02%,优于SoftLexicon、WC-LSTM和TENER等模型;在公开数据集CLUENER2020、CCKS2017和Boson上,F1值分别达到79.33%、95.20%和83.06%,同样优于其他对比模型。该研究对于苹果栽培知识图谱构建具有重要意义,同时可为其他农作物命名实体识别提供参考。展开更多
文摘针对苹果栽培领域命名实体识别中由于标注数据稀缺、字符嵌入表征单一以及多维度特征挖掘不充分导致的模型识别精度低的问题,提出一种基于多特征融合的中文苹果栽培命名实体识别模型(apple cultivation named entity recognition model,ACNM)。首先,围绕苹果栽培主要生产环节,构建涵盖14个实体类别的苹果栽培命名实体识别数据集(apple cultivation named entity recognition dataset,ACND),并设计一个数据增强层对其进行实体级和语句级变换增强;其次,设计了一个多特征嵌入层(multi-feature-layer with pre-trained model,glyph,radical and lexicon,MPGRL)提取和动态融合苹果栽培文本的字符、字形、偏旁和词汇嵌入等多维度特征,通过引入动态字词表示、汉字视觉形态特征、汉字内部结构和词汇边界信息增强字符的语义表示;然后利用接受加权键值(receptance weighted key value,RWKV)模型架构进行编码,提升模型对多维度特征和长距离上下文信息的提取能力,最后通过条件随机场(conditional random field,CRF)进行解码获得最优标签序列。试验结果表明,数据增强和多特征融合有效提升了模型识别精度,ACNM模型在ACND的F1值达到97.02%,优于SoftLexicon、WC-LSTM和TENER等模型;在公开数据集CLUENER2020、CCKS2017和Boson上,F1值分别达到79.33%、95.20%和83.06%,同样优于其他对比模型。该研究对于苹果栽培知识图谱构建具有重要意义,同时可为其他农作物命名实体识别提供参考。