-
题名基于多模态表征学习的自动音频字幕方法
- 1
-
-
作者
谭力文
周翊
柳银
曹寅
-
机构
重庆邮电大学通信与信息工程学院
西交利物浦大学智能科学系
-
出处
《计算机应用研究》
北大核心
2025年第6期1662-1667,共6页
-
基金
国家自然科学基金资助项目(62301096)
重庆市自然科学基金资助项目(CSTB2023NSCQMSX0659)
+1 种基金
国家重点研究与发展(R&D)计划资助项目(2024QY2630)
西交利物浦大学资助项目(RDF-22-01-084)。
-
文摘
在自动音频字幕(automated audio captioning,AAC)和大多数多模态研究领域中,模态差异一直构成重大挑战。增强模型对文本信息的理解,在建立文本和音频两种模态之间的无缝连接中起着至关重要的作用。最近的研究集中在通过对比学习的方法来缩小这两种模态之间的差距,但仅使用简单的对比损失函数来弥合这两种模态之间的差异是具有挑战性的。为减少模态差异带来的影响,增强模型对两种模态特征的利用率,提出基于多模态表征学习的音频字幕方法SimTLNet,通过引入一种全新的表征模块TRANSLATOR,构造孪生表征结构,并联合对比学习和动量更新模型权重的方式,使模型能够同时学习音频模态和文本模态之间共有的高维语义信息。该方法在AudioCaps和Clotho V2数据集上的METEOR、CIDEr和SPIDEr-FL分别达到了0.251、0.782、0.480和0.187、0.475、0.303,并取得了可以与先进方法相媲美的结果,有效弥合了两种模态之间的差异。
-
关键词
音频字幕
表征学习
对比学习
模态差异
孪生网络
-
Keywords
audio captioning
representation learning
contrastive learning
modality discrepancies
twin network
-
分类号
TP37
[自动化与计算机技术—计算机系统结构]
-