期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于视-触跨模态感知的智能导盲系统 被引量:5
1
作者 朱文霖 刘华平 +1 位作者 王博文 孙富春 《智能系统学报》 CSCD 北大核心 2020年第1期33-40,共8页
盲人活动援助是盲人日常生活的重要组成部分。这些技术大多用于帮助盲人导航和躲避障碍物,很少有研究将地面信息转换成一种给用户直观感受的触觉信息。为了满足上述需求,本文提出了一种可以提供触觉反馈的盲人辅助地面识别智能导盲杖系... 盲人活动援助是盲人日常生活的重要组成部分。这些技术大多用于帮助盲人导航和躲避障碍物,很少有研究将地面信息转换成一种给用户直观感受的触觉信息。为了满足上述需求,本文提出了一种可以提供触觉反馈的盲人辅助地面识别智能导盲杖系统。试图利用深度生成对抗训练的方法来产生振动触觉刺激,使用改进的DiscoGAN训练了我们的端到端生成网络。为了训练我们的网络,构建了视触跨模态数据集GroVib。通过上机实验和实物实验来评估方案的可行性,通过上机实验结果表明参与者通过触觉识别地面的准确率为84.7%,触觉的平均真实感受得分为71.3,在真实场景实验中,参与者只需平均3.35次尝试就可以根据触觉反馈来识别地面。 展开更多
关键词 盲人用户 电子手杖 跨模态技术 触觉 数据集 深度学习 计算机视觉 生成对抗网络
在线阅读 下载PDF
视觉问答技术研究综述 被引量:2
2
作者 王虞 孙海春 《计算机科学与探索》 CSCD 北大核心 2023年第7期1487-1505,共19页
视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析... 视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析等多项技术,能够支撑许多前沿交互式人工智能高层任务,如视觉对话、视觉导航等,具有广泛的应用前景和极高的应用价值。近几年,计算机视觉、自然语言处理及图-文跨模态领域人工智能模型的发展为视觉问答任务的实现提供了许多新的技术和方法。主要对2019—2022年视觉问答领域的主流模型及专业数据集进行总结。首先,依据视觉问答任务实现的模块框架,对关键步骤中的主流技术方法进行综述讨论。其次,按照主流模型采用的技术方法,将该领域内各类模型进行细分,并简要介绍改进重点和局限性。随后,综述视觉问答常用数据集与评价指标,对几类典型模型性能进行对比阐述。最后,对现阶段视觉问答领域内亟待解决的问题进行重点阐述,并对视觉问答领域未来应用及技术发展进行预测和展望。 展开更多
关键词 视觉问答(VQA) 模态融合 视觉对话 智能问答 跨模态技术
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部