-
题名基于多源的跨领域数据分类快速新算法
被引量:9
- 1
-
-
作者
顾鑫
王士同
许敏
-
机构
江南大学数字媒体学院
江苏北方湖光光电有限责任公司
无锡职业技术学院
-
出处
《自动化学报》
EI
CSCD
北大核心
2014年第3期531-547,共17页
-
基金
国家自然科学基金(60903100
60975027)资助~~
-
文摘
研究跨领域学习与分类是为了将对多源域的有监督学习结果有效地迁移至目标域,实现对目标域的无标记分类.当前的跨领域学习一般侧重于对单一源域到目标域的学习,且样本规模普遍较小,此类方法领域自适应性较差,面对大样本数据更显得无能为力,从而直接影响跨域学习的分类精度与效率.为了尽可能多地利用相关领域的有用数据,本文提出了一种多源跨领域分类算法(Multiple sources cross-domain classification,MSCC),该算法依据被众多实验证明有效的"罗杰斯特回归模型"与"一致性方法"构建多个源域分类器并综合指导目标域的数据分类.为了充分高效利用大样本的源域数据,满足大样本的快速运算,在MSCC的基础上,本文结合最新的CDdual(Dual coordinate descent method)算法,提出了算法MSCC的快速算法MSCC-CDdual,并进行了相关的理论分析.人工数据集、文本数据集与图像数据集的实验运行结果表明,该算法对于大样本数据集有着较高的分类精度、快速的运行速度和较高的领域自适应性.本文的主要贡献体现在三个方面:1)针对多源跨领域分类提出了一种新的"一致性方法",该方法有利于将MSCC算法发展为MSCC-CDdual快速算法;2)提出了MSCC-CDdual快速算法,该算法既适用于样本较少的数据集又适用于大样本数据集;3)MSCC-CDdual算法在高维数据集上相比其他算法展现了其独特的优势.
-
关键词
跨领域
多源
罗杰斯特回归
后验概率
分类
-
Keywords
Cross-domain, multi-source, logistic regression, posterior probability, classification
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名大样本多源域与小目标域的跨领域快速分类学习
被引量:6
- 2
-
-
作者
顾鑫
王士同
-
机构
江南大学数字媒体学院
江苏北方湖光光电有限责任公司
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第3期519-535,共17页
-
基金
国家自然科学基金项目(61170122
61272210)
+1 种基金
江苏省自然科学基金项目(BK2011003)
江苏省333高层次人才培养工程基金项目(BRA2011192)
-
文摘
传统的跨领域分类学习一般考虑均衡的单一源域到单一目标域的学习,但在现实世界中数据往往是不平衡的.当用于解决不平衡分类问题时,由于分类器的偏向性,其分类精度、抗噪性能往往有不同程度的下降.为了克服域间不平衡性,提出了一种不平衡多源跨领域分类算法(imbalance multisource classfication on cross-domain learning,IMCCL),该算法依据被众多实验证明有效的"逻辑回归模型"与"后验概率最大法则"构建多个训练域分类器并综合指导目标域的数据分类.为了充分高效利用大样本的源域数据,满足大样本的快速运算,在结合CDdual算法的基础上,提出了IMCCL的快速算法(IMCCL-CDdual).将其应用到文本数据分类与图像识别分类的实验结果表明:该算法具有较高的识别率、快速的识别速度和抗干扰性和领域自适应性.
-
关键词
跨领域
多源
逻辑回归
后验概率
分类
不平衡
-
Keywords
unbalance cross-domain
multi-source
logistic regression
posteriori probability
classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于数据分类的领域自适应新算法
被引量:1
- 3
-
-
作者
顾鑫
王士同
-
机构
江南大学数字媒体学院
江苏北方湖光光电有限责任公司
-
出处
《计算机工程与科学》
CSCD
北大核心
2014年第2期275-285,共11页
-
基金
国家自然科学基金资助项目(61170122
60975027)
江苏省研究生创新工程项目(CXZZ11-0483)
-
文摘
一般的机器学习都假设训练数据与测试数据分布相同,而领域自适应算法则是在不同数据分布条件下进行知识传递和学习,在数据挖掘、数据校正、数据预测等领域有着广泛的应用。支持向量机SVM的主要思想是针对二分类问题,在高维空间寻找一个最优分类超平面,以保证最小的分类错误率。CCMEB理论由Tsang I提出的,是一种改进了核向量机CVM的最小包含球算法,在大样本数据集处理上有着较快的速度。而CCMEB理论同样适用于二分类的SVM数据集。将SVM理论、CCMEB理论与概率分布理论相结合,提出了一种全新的基于数据分类的领域自适应算法CCMEB-SVMDA,该算法通过计算各自分类数据组的包含球球心,能够有效地对不同领域数据进行整体校正和相似度识别,具有较好的便捷性和自适应性。在UCI数据、文本分类等数据上对该算法进行了验证,取得了较好的效果。
-
关键词
支持向量机
领域自适应
最小包含球
中心约束型最小包含球
-
Keywords
SVM
domain adaptation
minimum enclosing ball
CCMEB
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-