现有的领域自适应方法在定义领域间分布距离时,通常仅从领域样本的整体分布上考虑,而未对带类标签的领域样本分布分别进行考虑,从而在一些具有非平衡数据集的应用领域上表现出一定的局限性.对此,在充分考虑源领域样本类信息的基础上,基...现有的领域自适应方法在定义领域间分布距离时,通常仅从领域样本的整体分布上考虑,而未对带类标签的领域样本分布分别进行考虑,从而在一些具有非平衡数据集的应用领域上表现出一定的局限性.对此,在充分考虑源领域样本类信息的基础上,基于结构风险最小化模型,提出了基于类分布的领域自适应支持向量机(Domain adaptation support vector machine based on class distribution,CDASVM),并将其拓展为可处理多源问题的多源领域自适应支持向量机(CDASVM from multiple sources,MSCDASVM),在人造和真实的非平衡数据集上的实验结果表明,所提方法只有优化或可比较的模式分类性能.展开更多
考虑将特征选择集成到支持向量机分类器中,提出集成特征选择的最优化支持向量机分类器——FS-SDPSVM(Feature Selection in Semi-definite Program for Support Vector Machine)。该模型将每个特征分别在核空间中做特征映射,然后通过参...考虑将特征选择集成到支持向量机分类器中,提出集成特征选择的最优化支持向量机分类器——FS-SDPSVM(Feature Selection in Semi-definite Program for Support Vector Machine)。该模型将每个特征分别在核空间中做特征映射,然后通过参数组合构成新的核矩阵,将特征选择过程与机器分类过程统一在一个优化目标下,同时达到特征选择与分类最优。在特征筛选方面,根据模型参数提出用于特征筛选的特征支持度和特征贡献度,通过控制二者的上下限可以在最优分类和最少特征之间灵活取舍。实证中分别将最优分类(FS-SDP-SVM1)和最少特征(FS-SDPSVM2)两类集成化特征选择算法与Relief-F、SFS、SBS算法在UCI机器学习数据和人造数据中进行对比实验。结果表明,提出的FS-SDP-SVM算法在保持较好泛化能力的基础上,在多数实验数据集中实现了最大分类准确率或最少特征数量;在人工数据中,该方法可以准确地选出真正的特征,去除噪声特征。展开更多
文摘现有的领域自适应方法在定义领域间分布距离时,通常仅从领域样本的整体分布上考虑,而未对带类标签的领域样本分布分别进行考虑,从而在一些具有非平衡数据集的应用领域上表现出一定的局限性.对此,在充分考虑源领域样本类信息的基础上,基于结构风险最小化模型,提出了基于类分布的领域自适应支持向量机(Domain adaptation support vector machine based on class distribution,CDASVM),并将其拓展为可处理多源问题的多源领域自适应支持向量机(CDASVM from multiple sources,MSCDASVM),在人造和真实的非平衡数据集上的实验结果表明,所提方法只有优化或可比较的模式分类性能.
文摘考虑将特征选择集成到支持向量机分类器中,提出集成特征选择的最优化支持向量机分类器——FS-SDPSVM(Feature Selection in Semi-definite Program for Support Vector Machine)。该模型将每个特征分别在核空间中做特征映射,然后通过参数组合构成新的核矩阵,将特征选择过程与机器分类过程统一在一个优化目标下,同时达到特征选择与分类最优。在特征筛选方面,根据模型参数提出用于特征筛选的特征支持度和特征贡献度,通过控制二者的上下限可以在最优分类和最少特征之间灵活取舍。实证中分别将最优分类(FS-SDP-SVM1)和最少特征(FS-SDPSVM2)两类集成化特征选择算法与Relief-F、SFS、SBS算法在UCI机器学习数据和人造数据中进行对比实验。结果表明,提出的FS-SDP-SVM算法在保持较好泛化能力的基础上,在多数实验数据集中实现了最大分类准确率或最少特征数量;在人工数据中,该方法可以准确地选出真正的特征,去除噪声特征。