期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于层次化一致性语义学习的多模态意图识别
1
作者 彭俊杰 李铮一 +1 位作者 张换香 王兰 《电子学报》 北大核心 2025年第6期2007-2021,共15页
多模态意图识别(Multimodal Intent Recognition,MIR)是在现实世界中理解人类意图的重要研究方向,旨在通过融合语言、视觉和音频等多种模态信息来准确判断说话人的意图.然而,现有的MIR研究大多集中在如何为文本模态构建多模态语义环境,... 多模态意图识别(Multimodal Intent Recognition,MIR)是在现实世界中理解人类意图的重要研究方向,旨在通过融合语言、视觉和音频等多种模态信息来准确判断说话人的意图.然而,现有的MIR研究大多集中在如何为文本模态构建多模态语义环境,对视觉和音频模态中蕴含的大量语义信息(如动作和情感语义)的利用则不够深入.尽管视觉和音频模态富含与意图相关的信息,但其固有的冗余信息和噪声却制约了模型对这些模态特征的有效利用.为解决上述问题,本文提出了一种能够有效利用音频模态语义关系,同时有效抑制冗余信息的MIR模型.该模型通过构建抑制冗余信息的初级语义特征,引导学习不同尺度的模态内与模态间语义关联,以理解说话人的意图.在此基础之上,模型利用不同模态特征间潜在的意图一致性,将提取到的音视频语义特征与具有明确意图语义的文本特征进行配对,从而过滤掉那些单独通过意图识别任务无法消除的无关语义信息.此外,模型采用多模态融合门控机制,整合来自不同模态的意图语义.在多个意图理解任务的数据集上的实验表明:所提出的方法能够有效提取音视频模态语义并滤除意图识别无关语义,且在性能上优于现有的MIR方法.具体而言,在准确率(ACCuracy,ACC)值、精确度(Precision,P)值、召回率(Recall,R)值和F_(1)值(F1score,F_(1))上均取得了0.7~1.8个百分点的提升. 展开更多
关键词 意图识别 多模态融合 多模态语义学习 多任务学习 模态注意力
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部