-
题名结合双流网络和双向五元组损失的跨人脸-语音匹配
被引量:1
- 1
-
-
作者
柳欣
王锐
钟必能
王楠楠
-
机构
华侨大学计算机科学与技术学院
综合业务网理论及关键技术国家重点实验室(西安电子科技大学)
厦门市计算机视觉与模式识别重点实验室(华侨大学)
广西师范大学计算机科学与信息工程学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2022年第3期694-705,共12页
-
基金
国家自然科学基金项目(61673185,61922066,61972167)
综合业务网理论及关键技术国家重点实验室基金项目(ISN20-11)
+1 种基金
福建省自然科学基金项目(2020J01084)
之江实验室开放课题(2021KH0AB01)。
-
文摘
面部视觉信息和语音信息是人机交互过程中最为直接和灵活的方式,从而基于智能方式的人脸和语音跨模态感知吸引了国内外研究学者的广泛关注.然而,由于人脸-语音样本的异质性以及语义鸿沟问题,现有方法并不能很好地解决一些难度比较高的跨人脸-语音匹配任务.提出了一种结合双流网络和双向五元组损失的跨人脸-语音特征学习框架,该框架学到的特征可直接用于4种不同的跨人脸-语音匹配任务.首先,在双流深度网络顶端引入一种新的权重共享的多模态加权残差网络,以挖掘人脸和语音模态间的语义关联;接着,设计了一种融合多种样本对构造策略的双向五元组损失,极大地提高了数据利用率和模型的泛化性能;最后,在模型训练中进行ID分类学习,以保证跨模态表示的可分性.实验结果表明,与现有方法相比,能够在4个不同跨人脸-语音匹配任务上取得效果的全面提升,某些评价指标效果提升近5%.
-
关键词
人脸-语音关联
跨模态感知
双流网络
双向五元组损失
加权残差网络
-
Keywords
face-voice associations
cross-modal perception
double-stream networks
bi-quintuple loss
weighted residual network
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名结合分层深度网络与双向五元组损失的跨模态异常检测
被引量:1
- 2
-
-
作者
范烨
彭淑娟
柳欣
崔振
王楠楠
-
机构
华侨大学计算机科学与技术学院
厦门市计算机视觉与模式识别重点实验室(华侨大学)
南京理工大学计算机科学与工程学院
综合业务网理论及关键技术国家重点实验室(西安电子科技大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2022年第12期2770-2780,共11页
-
基金
之江实验室开放课题(2021KH0AB01)
国家自然科学基金项目(61673185,61922066,62072244)
+1 种基金
福建省自然科学基金项目(2020J01083,2020J01084)
高维信息智能感知与系统教育部重点实验室开放课题(JYB202102)。
-
文摘
大数据环境下的跨模态异常检测是一个非常有价值且极具挑战性的工作.针对目前已有跨模态异常检测框架对数据异常值类型检测不全面以及数据利用率较低的问题,提出了一个结合分层深度网络与相似度双向五元组损失的跨模态异常检测方法.首先,提出的框架引入一个单视图异常检测网络层,通过模态内近邻样本相似度来检测数据样本中是否存在属性异常与部分属性类别异常点;接着,提出基于相似度双向五元组损失的双分支深度网络用于检测数据中的类别异常与剩余部分的属性类别异常,该损失一方面能够使不同属性数据正交化,另一方面使得相同属性数据之间线性相关,从而有效地加大了不同属性数据之间的特征差异性,以及增加了相同属性之间的特征相关性;同时,提出的双分支网络通过模态间双向约束和模态内的邻域约束,极大提高了数据利用率和模型的泛化能力.实验结果表明,所提出的框架可以全面检测出不同模态中所有的异常类型样本点,并且表现优于现有的可应用于跨模态异常检测的方法,优势明显.
-
关键词
跨模态异常检测
分层深度网络
双向五元组损失
邻域约束
双向约束
-
Keywords
cross-modal anomaly detection
hierarchical deep network
bi-quintuple loss
neighborhood constraint
bidirectional constraint
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-