题名 面向智能交互的图像识别技术综述与展望
被引量:100
1
作者
蒋树强
闵巍庆
王树徽
机构
中国科学院 智能 信息 处理 重点 实验室 (中国科学院计算技术研究所 )
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第1期113-122,共10页
基金
国家自然科学基金重点项目(61532018)
国家自然科学基金优秀青年科学基金项目(61322212)
+1 种基金
国家自然科学基金青年科学基金项目(61303160)
国家"九七三"重点基础研究发展计划基金项目(2012CB316400)~~
文摘
视觉在人与人交互以及人与自然界的交互过程中起到非常重要的作用,让终端设备具有智能的视觉识别和交互能力是人工智能和计算机技术的核心挑战和远大目标之一.可以看到,近年来视觉识别技术发展飞速,新的创新技术不断涌现,新的研究问题不断被提出,面向智能交互的应用呈现出一些新的动态,正在不断刷新人们对此领域的原有认识.从视觉识别、视觉描述和视觉问答3个角度对图像识别技术进行综述,对基于深度学习的图像识别以及场景分类技术进行了具体介绍,对视觉描述和问答技术的最新技术进行了分析和讨论,同时对面向移动终端和机器人的视觉识别和交互应用进行了介绍,最后对该领域的未来研究趋势进行了分析.
关键词
图像识别
智能的视觉识别
智能交互
视觉描述
视觉问答
深度学习
Keywords
image recognition
intelligent visual recognition
intelligent interaction
visual descriptionvisual question and answering (VQA)
deep learning
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 迁移学习研究进展
被引量:500
2
作者
庄福振
罗平
何清
史忠植
机构
中国科学院 智能 信息 处理 重点 实验室 (中国科学院计算技术研究所 )
出处
《软件学报》
EI
CSCD
北大核心
2015年第1期26-39,共14页
基金
国家自然科学基金(61473273
61473274
+4 种基金
61175052
61203297)
国家高技术研究发展计划(863)(2014AA015105
2013AA01A606
2012AA011003)
文摘
近年来,迁移学习已经引起了广泛的关注和研究.迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法.它放宽了传统机器学习中的两个基本假设:(1)用于学习的训练样本与新的测试样本满足独立同分布的条件;(2)必须有足够可利用的训练样本才能学习得到一个好的分类模型.目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题.对迁移学习算法的研究以及相关理论研究的进展进行了综述,并介绍了在该领域所做的研究工作,特别是利用生成模型在概念层面建立迁移学习模型.最后介绍了迁移学习在文本分类、协同过滤等方面的应用工作,并指出了迁移学习下一步可能的研究方向.
关键词
迁移学习
相关领域
独立同分布
生成模型
概念学习
Keywords
transfer learning
related domain
independent and identical distribution
generative model
concept learning
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 图像描述生成研究进展
被引量:8
3
作者
李志欣
魏海洋
张灿龙
马慧芳
史忠植
机构
广西多源信息 挖掘与安全重点 实验室 (广西师范大学)
西北师范大学计算 机科学 与工程学院
中国科学院 智能 信息 处理 重点 实验室 (中国科学院计算技术研究所 )
出处
《计算机研究与发展》
EI
CSCD
北大核心
2021年第9期1951-1974,共24页
基金
国家自然科学基金项目(61966004,61663004,61866004,61762078)
广西自然科学基金项目(2019GXNSFDA245018,2018GXNSFDA281009,2017GXNSFAA198365)。
文摘
图像描述生成结合了计算机视觉和自然语言处理2个研究领域,不仅要求完备的图像语义理解,还要求复杂的自然语言表达,是进一步研究符合人类感知的视觉智能的关键任务.对图像描述生成的研究进展做了回顾.首先,归纳分析了当前基于深度学习的图像描述生成方法涉及的5个关键技术,包括整体架构、学习策略、特征映射、语言模型和注意机制.然后,按照发展进程将现有的图像描述生成方法分为四大类,即基于模板的方法、基于检索的方法、基于编码器-解码器架构的方法和基于复合架构的方法,并阐述了各类方法的基本概念、代表性方法和研究现状,重点讨论了基于编码器-解码器架构的各种方法及其创新思路,如多模态空间、视觉空间、语义空间、注意机制、模型优化等.接着,从实验的角度给出图像描述生成的常用数据集和评估措施,并在2个基准数据集上比较了一些典型方法的性能.最后,以提升图像描述的准确性、完整性、新颖性、多样性为依据,展示了图像描述生成的未来发展趋势.
关键词
图像描述生成
编码器-解码器架构
复合架构
注意机制
卷积神经网络
循环神经网络
长短期记忆网络
Keywords
image captioning
encoder-decoder architecture
compositional architecture
attention mechanism
convolutional neural network
recurrent neural network
long short-term memory
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于集合效用边际贡献学习的可解释薪酬预测算法
被引量:1
4
作者
孙莹
章玉婷
庄福振
祝恒书
何清
熊辉
机构
香港科技大学(广州)人工智能 学域
中国科学院计算技术研究所 专项技术 研究 中心
北京航空航天大学人工智能 研究 院
BOSS直聘职业科学 实验室
中国科学院 智能 信息 处理 重点 实验室 (中国科学院计算技术研究所 )
中国科学院 大学
出处
《计算机研究与发展》
EI
CSCD
北大核心
2024年第5期1276-1289,共14页
基金
国家自然科学基金项目(62176014,61836013)
广州市科技计划市校联合资助项目(2023A03J0141)
中央高校基本科研业务费专项资金。
文摘
知识技能对薪酬影响作用视为一种多变量影响下高维元素集合的效用建模问题.深度神经网络为解决复杂问题提供了新的机遇,但针对知识导向的细粒度薪酬预测问题,仍缺乏能够对复杂变量影响下的集合效用进行准确、可解释建模的神经网络结构.为此,提出一种基于边际贡献的增量式集合效用网络(marginal contribution-based incremental set utility network,MCISUN)来拟合元素加入时的效用增量,从而灵活且可解释地建模集合效用.区别于以往基于池化层的排列不变性建模算法,MCISUN构建顺序敏感的中间结果,利用集合的排列不变性实现数据增强,有效提升模型数据效率及泛化性.最后,大规模真实薪酬数据上的实验结果表明所提模型在基于技能的薪酬预测任务上比最先进的(state-of-the-art,SOTA)模型效果提升超过30%.同时,定性实验证明模型能够为技能设置合理的贡献值且发现技能间的关联.
关键词
集合效用建模
边际贡献
薪酬预测
神经网络
可解释性
Keywords
set utility modeling
marginal contribution
salary prediction
neural network
interpretability
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种利用人脸对称性的光照归一化方法
被引量:6
5
作者
韩琥
山世光
陈熙霖
高文
机构
中国科学院 智能 信息 处理 重点 实验室 (中国科学院计算技术研究所 )
中国科学院 大学
北京大学信息 科学 技术 学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第4期767-775,共9页
基金
国家自然科学基金项目(61025010
61173065
U0835005)
文摘
光照归一化在光照鲁棒的人脸识别中被广泛使用.许多现有光照归一化方法将人脸图像视为自然图像,而忽略了人脸这一类特定物体的先验属性,因此很难从一幅具有侧光的人脸图像中恢复阴影区域中的人脸信息.提出了利用人脸对称性先验的光照归一化方法,在能量最小化框架下,对人脸图像的阴影区域进行光照归一化时参考其对称非阴影区域中的人脸结构信息,同时提出了无阴影信度图将二元最优化问题简化为一元最优化问题,以降低光照归一化方法的计算代价.在合成阴影和真实阴影人脸图像上的实验表明,利用人脸对称性的光照归一化方法能有效恢复图像阴影区域中的人脸特征,并对人脸误配准和非对称几何归一化具有一定的鲁棒性.
关键词
光照归一化
人脸对称性
能量最小化
光照鲁棒
人脸识别
Keywords
lighting normalization
face symmetry
energy minimization
illumination invariant
facerecognition
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 结构化稀疏线性判别分析
被引量:5
6
作者
崔振
山世光
陈熙霖
机构
华侨大学计算 机科学 与技术 学院
中国科学院 智能 信息 处理 重点 实验室 (中国科学院计算技术研究所 )
中国科学院 大学
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第10期2295-2301,共7页
基金
国家自然科学基金项目(61173065
61202297
+1 种基金
61202299)
北京市自然科学基金重点项目(4111003)
文摘
在监督场景下线性判别分析(linear discriminant analysis,LDA)是一种非常有效的特征提取方法.然而,LDA在小样本情况下通常会出现过拟合现象,并且学习的投影变换难以给出人类认知上的解释.针对这些问题,特别是可解释性结构的发现,借助于LDA的线性回归模型和结构化稀疏L2,1范数,提出了结构化稀疏线性判别分析(structured sparse LDA,SSLDA)方法.进一步,为了去除线性变换间的相关性,提出了正交化的SSLDA(orthogonalized SSLDA,OSSLDA),它能更加有效地学习到细致的结构信息.为了求解这2个模型,引入了一个半二次的优化算法,它在投影变换和新引入的辅助变量之间采用交替优化的思想.为了验证所提出的方法,在AR、扩展的YaleB和MultiPIE 3个人脸数据库上对比了LDA及其变种方法,实验表明了所提出方法的有效性以及可解释性.
关键词
线性判别分析
正交化
人脸识别
最小二乘
结构化稀疏
Keywords
linear discriminant analysis (LDA)
orthogonalization
face recognition
least squares
structured sparse
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
题名 元数据存储库系统中违背良格式约束潜在操作的推理
7
作者
赵晓非
高阳
史颖欢
史忠植
机构
天津工业大学计算 机科学 与软件学院
计算 机软件新技术 国家重点 实验室 (南京大学)
中国科学院 智能 信息 处理 重点 实验室 (中国科学院计算技术研究所 )
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第5期1095-1105,共11页
基金
国家自然科学基金项目(61035003
61072085
+3 种基金
51378350)
国家"九七三"重点基础研究发展计划基金项目(2013CB329502)
计算机软件新技术国家重点实验室(南京大学)开放课题项目(KFKT2014B16)
天津市科技特派员项目(15JCTPJC58100)~~
文摘
存储库系统的元数据组织方式呈现出分层、多级并且动态变化的复杂结构;存储库系统标准对确保良格式约束规定得并不充分,上述2个原因使得确保基于元对象设施(meta object facility,MOF)建立的元数据存储库系统的状态不违背良格式约束成为一个令人棘手的问题.提出了一种能够自动推断可能违背良格式约束的潜在操作的方法.首先定义了一组比MOF的构造活动更精确和灵活的MOF内部活动并建立了二者之间的对应关系;接着研究了如何推断可能违背约束条件的内部活动;最后通过比对与这些内部活动相对应的构造活动是否在操作规范中出现,研究了如何推断违背约束条件的潜在操作,该方法可以用于约束检测领域.由于可以剔除许多无关的检测,该方法可以有效地提高良格式约束检测的效率.此外该方法对约束设计领域也有一定的参考价值.
关键词
存储库系统
良格式约束
元对象设施
约束检测
构造活动
内部活动
Keywords
repository system
well-formedness constraint
meta object facility (MOF)
constraint checking
establishment activity
inner activity
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于稀疏表示的含噪图像超分辨重建方法
被引量:11
8
作者
窦诺
赵瑞珍
岑翼刚
胡绍海
张勇东
机构
北京交通大学信息 科学 研究所
北京市现代信息 科学 与网络技术 重点 实验室 (北京交通大学信息 科学 研究所 )
中国科学院 智能 信息 处理 重点 实验室 (中国科学院计算技术研究所 )
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第4期943-951,共9页
基金
国家"八六三"高技术研究发展计划基金项目(2014AA015202)
国家自然科学基金项目(61073079
+4 种基金
61272028)
中央高校基本科研业务费专项基金项目(2013JBZ003)
教育部高等学校博士点专项基金项目(20120009110008)
教育部新世纪优秀人才支持计划基金项目(NCET-12-0768)
教育部创新团队发展计划基金项目(IRT201206)
文摘
传统的含噪图像超分辨方法只能将图像去噪和图像超分辨分别进行处理,基于稀疏表示与字典训练的含噪声图像超分辨重建方法将两者融合在一起.提出一种基于图像块在训练字典下稀疏表示的协同处理方法,来解决含噪图像超分辨的问题.由于图像块可以由字典下的稀疏系数来表示,所以可训练一个分别适用于含噪低分辨率图像块和清晰高分辨率图像块的字典对,使得高低分辨率图像块在该字典对下具有相同的稀疏表示.当输入含噪低分辨率图像块时,先计算出其在低分辨率字典下的稀疏表示系数,然后利用此稀疏系数在高分辨率字典下进行重建,可得到清晰高分辨率图像块,最后通过整体优化完成清晰高分辨率图像,实现图像超分辨和图像去噪的目的.实验证明,采用局部自适应插值的方法放大低分辨率图像到中间分辨率再进行特征提取,比以往采用的双三线性插值的方法在重建图像质量上有提高,并通过研究字典λ参数的设置使得超分辨重建和去噪结果同时达到最佳,即在图像的视觉和质量上都具有较为明显的优势,具有很好的鲁棒性和有效性.
关键词
稀疏表示
图像超分辨
图像去噪
字典训练
图像重建
Keywords
sparse representation
image super-resolution
image denoising
dictionary learning
image reconstruction
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
题名 多层次细粒度并行HEVC帧内模式选择算法
被引量:2
9
作者
张峻
代锋
马宜科
张勇东
机构
中国科学院 智能 信息 处理 重点 实验室 (中国科学院计算技术研究所 )
中国科学院 大学
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第4期873-883,共11页
基金
国家自然科学基金项目(61379084
61402440)
中国科学院科研装备研制项目(YZ201321)~~
文摘
在众核平台上并行加速是解决高效视频编码(high efficiency video coding,HEVC)标准编码复杂度高的有效方法.传统的粗粒度并行方案如Tiles和WPP未能在并行度和编码质量之间取得较好的平衡,对编码质量影响较大或者并行度不高.充分挖掘HEVC帧内模式选择中的并行性,提出了一种在CTU内使用的多层次细粒度的帧内模式选择算法.具体说来,对帧内模式选择过程进行了子任务划分,分析并消除了相邻编码块之间多种阻碍并行计算的数据依赖关系,包括帧内预测参考像素依赖、预测模式依赖和熵编码依赖等,实现了同一个CTU内所有层次的细粒度编码块的代价计算和模式选择并行进行.将算法在Tile-Gx36平台上实现,实验结果表明此并行算法与HEVC参考代码HM相比能获得18倍的整体编码加速比而且编码质量损失较小(码率上升3%).
关键词
高效视频编码
帧内预测
众核
并行模式选择
细粒度
Keywords
high efficiency video coding(HEVC)
intra prediction
many-core
parallel mode decision
fine-grained
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 语义增强的多模态虚假新闻检测
被引量:22
10
作者
亓鹏
曹娟
盛强
机构
中国科学院 智能 信息 处理 重点 实验室 (中国科学院计算技术研究所 )
中国科学院计算技术研究所
中国科学院 大学
出处
《计算机研究与发展》
EI
CSCD
北大核心
2021年第7期1456-1465,共10页
基金
国家自然科学基金重点项目(U1703261)。
文摘
近年来社交媒体逐渐成为人们获取新闻信息的主要渠道,但其在给人们带来方便的同时也促进了虚假新闻的传播.在社交媒体的富媒体化趋势下,虚假新闻逐渐由单一的文本形式向多模态形式转变,因此多模态虚假新闻检测正在受到越来越多的关注.现有的多模态虚假新闻检测方法大多依赖于和数据集高度相关的表现层面特征,对新闻的语义层面特征建模不足,难以理解文本和视觉实体的深层语义,在新数据上的泛化能力受限.提出了一种语义增强的多模态虚假新闻检测方法,通过利用预训练语言模型中隐含的事实知识以及显式的视觉实体提取,更好地理解多模态新闻的深层语义.提取不同语义层次的视觉特征,在此基础上采用文本引导的注意力机制建模图文之间的语义交互,从而更好地融合多模态异构特征.在基于微博新闻的真实数据集上的实验结果表明:该方法能够有效提高多模态虚假新闻检测的性能.
关键词
社交媒体
虚假新闻检测
多模态
知识融合
注意力机制
Keywords
social media
fake news detection
multi-modal
knowledge fusion
attention mechanism
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 多尺度拼图重构网络的食品图像识别
被引量:6
11
作者
刘宇昕
闵巍庆
蒋树强
芮勇
机构
中国科学院 智能 信息 处理 重点 实验室 (中国科学院计算技术研究所 )
中国科学院 大学
联想集团
出处
《软件学报》
EI
CSCD
北大核心
2022年第11期4379-4395,共17页
基金
国家自然科学基金(61972378,U1936203,U19B2040)。
文摘
近年来,食品图像识别由于在健康饮食管理、无人餐厅等领域的广泛应用而受到了越来越多的关注.不同于其他物体识别任务,食品图像属于细粒度图像,具有较高的类内差异性和类间相似性,而且食品图像没有固定的语义模式和空间布局,这些特点使得食品图像识别更具挑战性.为此,提出了一种用于食品图像识别的多尺度拼图重构网络(multi-scale jigsaw and reconstruction network,MJR-Net).MJR-Net由拼图重构模块、特征金字塔模块和通道注意力模块这3部分组成.拼图重构模块使用破坏重构学习方法将原始图像进行破坏和重构,以提取局部的判别性细节特征;特征金字塔模块可以融合不同尺寸的中层特征,以捕获多尺度的局部判别性特征;通道注意力模块对不同特征通道的重要程度进行建模,以增强判别性的视觉模式,减弱噪声干扰.此外,还使用A-softmax和Focal损失,分别从增大类间差异和修正分类样本的角度优化网络.MJR-Net在ETH Food-101,Vireo Food-172和ISIA Food-500这3个食品数据集上进行实验,分别取得了90.82%,91.37%和64.95%的识别准确率.实验结果表明,与其他食品图像识别方法相比,MJR-Net表现出较大的竞争力,并在Vireo Food-172和ISIA Food-500上取得了最优识别性能.全面的消融实验和可视化分析证明了该方法的有效性.
关键词
食品图像识别
深度学习
拼图重构
特征金字塔
注意力机制
Keywords
food image recognition
deep learning
jigsaw and reconstruction
feature pyramid
attention mechanism
分类号
TP393
[自动化与计算机技术—计算机应用技术]