-
题名基于系统分类学信息的鸟类音频零样本分类
- 1
-
-
作者
谢珊珊
张军国
谢将剑
张长春
-
机构
北京林业大学工学院、林业装备与自动化国家林业和草原局重点实验室、林木资源高效生产全国重点实验室
-
出处
《林业科学》
北大核心
2025年第2期12-20,共9页
-
基金
国家自然科学基金项目(62303063,32371874)。
-
文摘
【目的】通过大量音频-文本对构建的鸟类音频预训练模型能基于物种类别辅助信息对缺乏训练样本的音频进行零样本分类,以减轻数据采集的负担,为鸟类音频零样本分类研究提供有效的理论依据,也为开放环境中的生态监测和物种分布变化分析提供参考。【方法】利用反映鸟类系统发育关系的系统分类学信息作为声音类的物种类别辅助信息,以预训练的RoBERTa文本编码器和HTSAT音频编码器分别提取系统分类学信息的语义嵌入和鸟类音频的声学嵌入,通过对比学习方法计算语义嵌入和声学嵌入的相似度,构建鸟类对比语言-音频预训练模型(CLAP-Bird),然后基于零样本类的物种类别辅助信息和CLAP-Bird模型实现零样本分类。【结果】在一个包含725 h的大型不平衡鸟类音频数据集上训练和评估了所提出的方法,在5个不同的8~10个类别的测试集上获得的平均F1_score为0.289,与以鸟类学名、鸟类生活史和基础特性信息作为物种类别辅助信息的基线模型相比,本文提出的模型对鸟类音频零样本分类性能明显提升。【结论】鸟类的系统分类学信息作为物种类别辅助信息,提供了关于鸟类的生物学遗传信息,有助于模型更好地理解鸟类鸣声之间的关系,提升了鸟类音频零样本学习的性能。且训练集与测试集的系统分类学关系越接近,则对测试集的零样本分类性能越好。
-
关键词
鸟类音频分类
零样本学习
系统分类学信息
物种类别辅助信息
对比学习
-
Keywords
bird audio classification
zero-shot learning
taxonomy
side information for species class
contrastive learning
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-