-
题名一种基于标记传播的大规模图像分类方法
被引量:4
- 1
-
-
作者
佘俏俏
俞扬
姜远
周志华
-
机构
南京大学计算机软件新技术国家重点实验室
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2012年第11期2289-2295,共7页
-
基金
国家自然科学基金项目(60975043
61073097)
+1 种基金
江苏省333高层次人才培养工程资助项目
百度主题研究项目
-
文摘
在基于内容的图像检索中,图像标记具有十分重要的作用.由于为图像加标注代价昂贵,研究者通过利用大量的未标记数据来提高分类性能,标记传播是其中的一类有效方法.随着数据采集、存储技术的发展,数字图像的积累越来越容易,但现有的标记传播方法难以处理真实世界中的大规模数据.因此,针对大规模图像标记,融合标记传播和随机森林技术,提出一种新方法RFLP.它使用随机决策树进行样本压缩,使得传统的标记传播方法能够在压缩过的示例上高效执行,以利用未标记数据提高分类性能,然后利用随机森林将标记传播的结果推广到所有未标记示例上.实验结果表明,新方法RFLP的可扩展性明显优于传统标记传播方法,且其分类性能良好.
-
关键词
图像标记
大规模问题
标记传播
直推式学习
随机森林
-
Keywords
image annotation
large-scale problem
label propagation transductive learning random forest
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种直推式多标记文档分类方法
被引量:10
- 2
-
-
作者
姜远
佘俏俏
黎铭
周志华
-
机构
南京大学计算机软件新技术国家重点实验室
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2008年第11期1817-1823,共7页
-
基金
国家自然科学基金项目(60505013
60721002)
+1 种基金
国家"八六三"高技术研究发展计划基金项目(2007AA01Z169)
全国优秀博士学位论文作者专项基金项目(200343)
-
文摘
真实世界的文档往往同时属于多个类别,因此,利用多标记学习技术进行文档分类是一个重要的研究方向.现有多标记文档分类方法需要利用大量有正确分类标记的文档才能获得好的分类性能,然而,在实际应用中往往只能得到少量的有标记文档作为分类所需的训练文档.出于利用未标记文档的想法,提出一种基于随机游走的直推式多标记文档分类方法,可以利用大量的未标记文档来辅助提高分类性能.实验结果表明,该方法的性能优于现有直推式多标记分类方法CNMF.
-
关键词
文档分类
多标记学习
直推学习
未标记文档
随机游走
-
Keywords
text categorization
multi-label learning
transductive learning
unlabeled document
random walk
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名2018机器阅读理解技术竞赛总体报告
被引量:1
- 3
-
-
作者
刘凯
刘璐
刘璟
吕雅娟
佘俏俏
张倩
时迎超
-
机构
百度自然语言处理部
-
出处
《中文信息学报》
CSCD
北大核心
2018年第10期118-129,共12页
-
文摘
机器阅读理解是自然语言处理和人工智能领域的前沿课题,"2018机器阅读理解技术竞赛"旨在推动相关技术研究和应用的发展。竞赛发布了最大规模的中文阅读理解数据集,提供了先进的开源基线系统,采用改进的自动评价指标,吸引了国内外千余支队伍参与,参赛系统效果提升显著。该文详细介绍技术竞赛的总体情况、竞赛设置、组织流程、评价结果,并对参赛系统结果进行了分析。
-
关键词
机器阅读理解
自动问答
数据集
技术评测
-
Keywords
machine reading comprehension
question answering
dataset
technology evaluation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-