-
题名基于视-触跨模态感知的智能导盲系统
被引量:5
- 1
-
-
作者
朱文霖
刘华平
王博文
孙富春
-
机构
河北工业大学省部共建电工装备可靠性与智能化国家重点实验室
清华大学智能技术与系统国家重点实验室
-
出处
《智能系统学报》
CSCD
北大核心
2020年第1期33-40,共8页
-
基金
国家自然科学基金重点项目(U1613212)
河北省自然科学基金项目(E2017202035).
-
文摘
盲人活动援助是盲人日常生活的重要组成部分。这些技术大多用于帮助盲人导航和躲避障碍物,很少有研究将地面信息转换成一种给用户直观感受的触觉信息。为了满足上述需求,本文提出了一种可以提供触觉反馈的盲人辅助地面识别智能导盲杖系统。试图利用深度生成对抗训练的方法来产生振动触觉刺激,使用改进的DiscoGAN训练了我们的端到端生成网络。为了训练我们的网络,构建了视触跨模态数据集GroVib。通过上机实验和实物实验来评估方案的可行性,通过上机实验结果表明参与者通过触觉识别地面的准确率为84.7%,触觉的平均真实感受得分为71.3,在真实场景实验中,参与者只需平均3.35次尝试就可以根据触觉反馈来识别地面。
-
关键词
盲人用户
电子手杖
跨模态技术
触觉
数据集
深度学习
计算机视觉
生成对抗网络
-
Keywords
blind users
electronic cane
cross-modal technology
touch
data set
deep learning
computer vision
GANs
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名视觉问答技术研究综述
被引量:2
- 2
-
-
作者
王虞
孙海春
-
机构
中国人民公安大学信息网络安全学院
安全防范技术与风险评估公安部重点实验室
-
出处
《计算机科学与探索》
CSCD
北大核心
2023年第7期1487-1505,共19页
-
基金
公安部技术研究计划项目(2020JSYJC22)
北京市自然科学基金(4184099)。
-
文摘
视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析等多项技术,能够支撑许多前沿交互式人工智能高层任务,如视觉对话、视觉导航等,具有广泛的应用前景和极高的应用价值。近几年,计算机视觉、自然语言处理及图-文跨模态领域人工智能模型的发展为视觉问答任务的实现提供了许多新的技术和方法。主要对2019—2022年视觉问答领域的主流模型及专业数据集进行总结。首先,依据视觉问答任务实现的模块框架,对关键步骤中的主流技术方法进行综述讨论。其次,按照主流模型采用的技术方法,将该领域内各类模型进行细分,并简要介绍改进重点和局限性。随后,综述视觉问答常用数据集与评价指标,对几类典型模型性能进行对比阐述。最后,对现阶段视觉问答领域内亟待解决的问题进行重点阐述,并对视觉问答领域未来应用及技术发展进行预测和展望。
-
关键词
视觉问答(VQA)
模态融合
视觉对话
智能问答
跨模态技术
-
Keywords
visual question answering(VQA)
modal fusion
visual dialogue
intelligent question answering
crossmodal technology
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-