期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于多模态表征学习的自动音频字幕方法
1
作者 谭力文 周翊 +1 位作者 柳银 曹寅 《计算机应用研究》 北大核心 2025年第6期1662-1667,共6页
在自动音频字幕(automated audio captioning,AAC)和大多数多模态研究领域中,模态差异一直构成重大挑战。增强模型对文本信息的理解,在建立文本和音频两种模态之间的无缝连接中起着至关重要的作用。最近的研究集中在通过对比学习的方法... 在自动音频字幕(automated audio captioning,AAC)和大多数多模态研究领域中,模态差异一直构成重大挑战。增强模型对文本信息的理解,在建立文本和音频两种模态之间的无缝连接中起着至关重要的作用。最近的研究集中在通过对比学习的方法来缩小这两种模态之间的差距,但仅使用简单的对比损失函数来弥合这两种模态之间的差异是具有挑战性的。为减少模态差异带来的影响,增强模型对两种模态特征的利用率,提出基于多模态表征学习的音频字幕方法SimTLNet,通过引入一种全新的表征模块TRANSLATOR,构造孪生表征结构,并联合对比学习和动量更新模型权重的方式,使模型能够同时学习音频模态和文本模态之间共有的高维语义信息。该方法在AudioCaps和Clotho V2数据集上的METEOR、CIDEr和SPIDEr-FL分别达到了0.251、0.782、0.480和0.187、0.475、0.303,并取得了可以与先进方法相媲美的结果,有效弥合了两种模态之间的差异。 展开更多
关键词 音频字幕 表征学习 对比学习 模态差异 孪生网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部