-
题名大语言模型知识引导的开放域多标签动作识别
- 1
-
-
作者
朱荣江
石语珩
杨硕
王子奕
吴心筱
-
机构
北京理工大学计算机学院
智能信息技术北京市重点实验室(北京理工大学)
深圳北理莫斯科大学
广东省智能感知与计算重点实验室(深圳北理莫斯科大学)
-
出处
《计算机研究与发展》
北大核心
2025年第8期1875-1883,共9页
-
文摘
开放域多标签动作识别任务旨在对视频中训练阶段未见的人的多类动作进行识别.相较于传统动作识别,该任务更适应实际场景,具有广泛的应用前景.然而,开放域多标签动作识别具有很大的挑战性,需要将模型有效泛化到未见过的新动作类别.为了解决此问题,提出大语言模型知识引导的开放域多标签动作识别方法.该方法挖掘大语言模型蕴含的丰富的动作类别共现知识,并将共现知识嵌入视觉-语言模型的提示学习,实现基本动作类别(base action classes)与新动作类别(novel action classes)之间的信息传递,从而提升新类别的识别性能.在实验中将基本动作类别和新动作类别的比例设置为3∶1和1∶1,分别表示为“75%可见”和“50%可见”.在AVA和Movie Net数据集上的实验结果表明,相较于现有方法,当基本动作类别为“75%”时,该方法在2个数据集的新动作类别识别指标m AP上分别提升了1.95个百分点和1.21个百分点;当面临基本动作类别为“50%”的更困难场景时,提出的方法在这2个数据集上新动作类别识别指标m AP上分别提升了2.59个百分点和1.06个百分点.
-
关键词
开放域动作识别
多标签分类
提示学习
大语言模型
CLIP模型
-
Keywords
open-vocabulary action recognition
multi-label classification
prompt learning
large language model
CLIP model
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名医学影像计算机辅助检测与诊断系统综述
被引量:78
- 2
-
-
作者
郑光远
刘峡壁
韩光辉
-
机构
智能信息技术北京市重点实验室(北京理工大学)
北京理工大学计算机学院
商丘师范学院计算机学院
-
出处
《软件学报》
EI
CSCD
北大核心
2018年第5期1471-1514,共44页
-
基金
国家自然科学基金(60973059
81171407)
教育部新世纪优秀人才支持计划(NCET-10-0044)~~
-
文摘
计算机辅助检测/诊断(computer-aided detection/diagnosis,简称CAD)能够提高诊断的准确性,减少假阳性的产生,为医生提供有效的诊断决策支持.旨在分析计算机辅助诊断工具的最新发展.以CAD研究较多的四大致命性癌症的发病医学部位为主线,按照不同的成像技术和病类,对目前CAD在不同医学图像领域的应用进行了较为详尽的综述,从图像数据集、算法和评估方法等方面做多维度梳理.最后分析了医学图像CAD系统研究领域目前存在的问题,并对此领域的研究趋势和发展方向进行展望.
-
关键词
计算机辅助检测(CADe)
计算机辅助诊断(CADx)
医学图像
肺癌
乳腺癌
结直肠癌
前列腺癌
-
Keywords
computer-aided detection (CADe)
computer-aided diagnosis (CADx)
medical image
lung cancer
mammary cancer
colorectal cancer
prostatic cancer
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名视觉注意力检测综述
被引量:62
- 3
-
-
作者
王文冠
沈建冰
贾云得
-
机构
智能信息技术北京市重点实验室(北京理工大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2019年第2期416-439,共24页
-
基金
国家自然科学基金(61673062)
北京市自然科学基金(4182056)~~
-
文摘
人类能够迅速地选取视野中的关键部分,选择性地将视觉处理资源分配给这些视觉显著的区域.在计算机视觉领域,理解和模拟人类视觉系统的这种注意力机制,得到了学界的大力关注,并显示出了广阔的应用前景.近年来,随着计算能力的增强以及大规模显著性检测数据集的建立,深度学习技术逐渐成为视觉注意力机制计算和建模的主要手段.综述了视觉注意力检测的最新研究进展,包括人眼关注点检测和显著物体检测,并讨论了当前流行的视觉显著性检测数据集和常用的评估指标.对基于深度学习的工作进行了综述,也对之前代表性的非深度学习模型进行了讨论,同时,对这些模型在不同的数据集上的性能进行了详细评估.最后探讨了该领域的研究趋势和未来的发展方向.
-
关键词
视觉注意力
视觉显著性
人眼关注点预测
显著物体检测
-
Keywords
visual attention
visual saliency
eye fixation prediction
salient object detection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-