-
题名视觉图灵三境界:大模型时代下视觉智能进展与展望
- 1
-
-
作者
黄凯奇
武美奇
陈宏昊
丰效坤
张岱凌
-
机构
中国科学院自动化研究所智能系统与工程研究中心&复杂系统认知与决策重点实验室
中国科学院大学计算机科学与技术学院
中国科学院大学人工智能学院
-
出处
《图学学报》
北大核心
2025年第5期919-930,共12页
-
基金
新一代人工智能国家科技重大专项(2022ZD0116403)。
-
文摘
视觉图灵是通过图灵评测的方式对计算机视觉模型进行评估,为计算机视觉的发展提供了类人评估基准。随着大模型时代的到来,计算机视觉技术的飞速发展极大提升了视觉能力,尤其在图像分类、物体检测分割以及视频理解等领域表现出色。然而,与人类视觉相比,这些算法在适应性、跨场景泛化和高层次认知推理等方面仍存在显著差距。本文从视觉图灵的三重境界(看所见、看所知和看所想)出发对视觉智能发展进行了梳理,对大模型时代下智能技术面临的瓶颈与挑战进行了整理和分析,介绍了视觉智能从物理世界感知到语义理解认知再到主观心理建模的能力跃迁路径,为推动计算机视觉技术更加接近人类的视觉感知与认知能力的发展提供了思路。
-
关键词
视觉图灵三境界
视觉图灵
多模态大模型
视觉智能
类人智能
-
Keywords
visual turing three realms
visual turing test
MLLMs
visual intelligence
human-like intelligence
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名视觉图灵:从人机对抗看计算机视觉下一步发展
被引量:8
- 2
-
-
作者
黄凯奇
赵鑫
李乔哲
胡世宇
-
机构
中国科学院自动化研究所智能系统与工程研究中心
中国科学院脑科学与智能技术卓越创新中心
-
出处
《图学学报》
CSCD
北大核心
2021年第3期339-348,共10页
-
文摘
计算机视觉一直是人工智能研究的热点方向,经过近60年的发展,已经在算法、技术和应用等方面取得了巨大的进步。近十年来,以大数据、大算力为基础的深度学习进一步推动计算机视觉走向大模型时代,但其算法适应能力仍然和人类存在较大差距。本文从视觉任务评估评测(评测数据集、评测指标、评估方式)出发,对计算机视觉的发展进行了总结,对现存的依赖大数据学习的计算机视觉发展问题进行了梳理和分析,从人机对抗智能评测提出了计算机视觉下一步发展方向:视觉图灵。最后对视觉图灵发展方向进行了思考和讨论,探讨了未来研究可能的方向。
-
关键词
计算机视觉
视觉图灵
评估评测
图灵测试
数据集
-
Keywords
computer vision
visual Turing
evaluation of visual tasks
Turing test
datasets
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-