-
题名基于层次化一致性语义学习的多模态意图识别
- 1
-
-
作者
彭俊杰
李铮一
张换香
王兰
-
机构
上海大学计算机工程与科学学院
内蒙古科技大学创新创业教育学院
-
出处
《电子学报》
北大核心
2025年第6期2007-2021,共15页
-
基金
上海市服务业发展引导资金项目(No.06162021592)。
-
文摘
多模态意图识别(Multimodal Intent Recognition,MIR)是在现实世界中理解人类意图的重要研究方向,旨在通过融合语言、视觉和音频等多种模态信息来准确判断说话人的意图.然而,现有的MIR研究大多集中在如何为文本模态构建多模态语义环境,对视觉和音频模态中蕴含的大量语义信息(如动作和情感语义)的利用则不够深入.尽管视觉和音频模态富含与意图相关的信息,但其固有的冗余信息和噪声却制约了模型对这些模态特征的有效利用.为解决上述问题,本文提出了一种能够有效利用音频模态语义关系,同时有效抑制冗余信息的MIR模型.该模型通过构建抑制冗余信息的初级语义特征,引导学习不同尺度的模态内与模态间语义关联,以理解说话人的意图.在此基础之上,模型利用不同模态特征间潜在的意图一致性,将提取到的音视频语义特征与具有明确意图语义的文本特征进行配对,从而过滤掉那些单独通过意图识别任务无法消除的无关语义信息.此外,模型采用多模态融合门控机制,整合来自不同模态的意图语义.在多个意图理解任务的数据集上的实验表明:所提出的方法能够有效提取音视频模态语义并滤除意图识别无关语义,且在性能上优于现有的MIR方法.具体而言,在准确率(ACCuracy,ACC)值、精确度(Precision,P)值、召回率(Recall,R)值和F_(1)值(F1score,F_(1))上均取得了0.7~1.8个百分点的提升.
-
关键词
意图识别
多模态融合
多模态语义学习
多任务学习
跨模态注意力
-
Keywords
intent recognition
multimodal fusion
multimodal semantic learning
multi-task learning
cross-modal attention
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-