-
题名多媒体内容理解的研究现状与展望
被引量:36
- 1
-
-
作者
彭宇新
綦金玮
黄鑫
-
机构
北京大学计算机科学技术研究所
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2019年第1期183-208,共26页
-
基金
国家自然科学基金项目(61771025
61532005)~~
-
文摘
随着多媒体和网络技术的迅猛发展,海量的图像、视频、文本、音频等多媒体数据快速涌现.这些不同媒体的数据在形式上多源异构,语义上相互关联.认知科学研究表明,人脑生理组织结构决定了其对外界的感知和认知过程是跨越多种感官信息的融合处理.如何对不同媒体的数据进行语义分析和关联建模以实现多媒体内容理解,成为了一个研究和应用的关键问题,受到了学术界和工业界的广泛关注.选取了多媒体内容理解的5个最新热点研究方向:图像细分类与检索、视频分类与目标检测、跨媒体检索、视觉描述与生成、视觉问答,分别阐述了它们的基本概念、代表性方法、研究现状等,并进一步阐述了多媒体内容理解面临的重要挑战,同时给出未来的发展趋势,旨在帮助读者全面了解多媒体内容理解的研究现状,吸引更多研究人员投身相关研究并为他们提供技术参考,推动该领域的进一步发展.
-
关键词
多媒体内容理解
图像细分类与检索
视频分类与目标检测
跨媒体检索
视觉描述与生成
视觉问答
-
Keywords
multimedia content understanding
fine-grained image classification and retrieval
video classification and object detection
cross-media retrieval
visual description and generation
visual question answering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-