针对现有害虫智能识别方法仅能鉴别害虫类型而无法获取其详细生物特性的局限,该研究提出一种跨模态枸杞害虫检索模型(cross-modal wolfberry pest retrieval, CWPR),旨在实现害虫图像与其对应文本描述的精准匹配。模型通过一种两层级特...针对现有害虫智能识别方法仅能鉴别害虫类型而无法获取其详细生物特性的局限,该研究提出一种跨模态枸杞害虫检索模型(cross-modal wolfberry pest retrieval, CWPR),旨在实现害虫图像与其对应文本描述的精准匹配。模型通过一种两层级特征融合方法,深度融合视觉Transformer特征和文本双向编码特征;同时引入标签增强技术,融入物种分布信息以学习强化的标签矩阵,有效缓解害虫数据种类不平衡问题。相较于单层融合方案,两层级特征融合使检索性能提升了1.21个百分点;标签增强技术的引入进一步使性能平均提升0.8个百分点。与现有较先进的跨模态检索方法相比,CWPR在两种跨模态枸杞害虫检索任务中平均性能高出1.89个百分点。该模型具备较高的跨模态检索精确度,可为枸杞害虫相关情报信息的有效获取提供有力技术支撑。展开更多
文摘针对现有害虫智能识别方法仅能鉴别害虫类型而无法获取其详细生物特性的局限,该研究提出一种跨模态枸杞害虫检索模型(cross-modal wolfberry pest retrieval, CWPR),旨在实现害虫图像与其对应文本描述的精准匹配。模型通过一种两层级特征融合方法,深度融合视觉Transformer特征和文本双向编码特征;同时引入标签增强技术,融入物种分布信息以学习强化的标签矩阵,有效缓解害虫数据种类不平衡问题。相较于单层融合方案,两层级特征融合使检索性能提升了1.21个百分点;标签增强技术的引入进一步使性能平均提升0.8个百分点。与现有较先进的跨模态检索方法相比,CWPR在两种跨模态枸杞害虫检索任务中平均性能高出1.89个百分点。该模型具备较高的跨模态检索精确度,可为枸杞害虫相关情报信息的有效获取提供有力技术支撑。