期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
一种异构直推式迁移学习算法 被引量:14
1
作者 杨柳 景丽萍 于剑 《软件学报》 EI CSCD 北大核心 2015年第11期2762-2780,共19页
目标领域已有类别标注的数据较少时会影响学习性能,而与之相关的其他源领域中存在一些已标注数据.迁移学习针对这一情况,提出将与目标领域不同但相关的源领域上学习到的知识应用到目标领域.在实际应用中,例如文本-图像、跨语言迁移学习... 目标领域已有类别标注的数据较少时会影响学习性能,而与之相关的其他源领域中存在一些已标注数据.迁移学习针对这一情况,提出将与目标领域不同但相关的源领域上学习到的知识应用到目标领域.在实际应用中,例如文本-图像、跨语言迁移学习等,源领域和目标领域的特征空间是不相同的,这就是异构迁移学习.关注的重点是利用源领域中已标注的数据来提高目标领域中未标注数据的学习性能,这种情况是异构直推式迁移学习.因为源领域和目标领域的特征空间不同,异构迁移学习的一个关键问题是学习从源领域到目标领域的映射函数.提出采用无监督匹配源领域和目标领域的特征空间的方法来学习映射函数.学到的映射函数可以把源领域中的数据在目标领域中重新表示.这样,重表示之后的已标注源领域数据可以被迁移到目标领域中.因此,可以采用标准的机器学习方法(例如支持向量机方法)来训练分类器,以对目标领域中未标注的数据进行类别预测.给出一个概率解释以说明其对数据中的一些噪声是具有鲁棒性的.同时还推导了一个样本复杂度的边界,也就是寻找映射函数时需要的样本数.在4个实际的数据库上的实验结果,展示了该方法的有效性. 展开更多
关键词 异构迁移学习 直推式迁移学习 异构特征空间 映射函数
在线阅读 下载PDF
基于MapReduce的大数据主动学习 被引量:5
2
作者 翟俊海 张素芳 +2 位作者 王聪 沈矗 刘晓萌 《计算机应用》 CSCD 北大核心 2018年第10期2759-2763,共5页
针对传统的主动学习算法只能处理中小型数据集的问题,提出一种基于MapReduce的大数据主动学习算法。首先,在有类别标签的初始训练集上,用极限学习机(ELM)算法训练一个分类器,并将其输出用软最大化函数变换为一个后验概率分布。然后,将... 针对传统的主动学习算法只能处理中小型数据集的问题,提出一种基于MapReduce的大数据主动学习算法。首先,在有类别标签的初始训练集上,用极限学习机(ELM)算法训练一个分类器,并将其输出用软最大化函数变换为一个后验概率分布。然后,将无类别标签的大数据集划分为l个子集,并部署到l个云计算节点上。在每一个节点,用训练出的分类器并行地计算各个子集中样例的信息熵,并选择信息熵大的前q个样例进行类别标注,将标注类别的l×q个样例添加到有类别标签的训练集中。重复以上步骤直到满足预定义的停止条件。在Artificial、Skin、Statlog和Poker 4个数据集上与基于ELM的主动学习算法进行了比较,结果显示,所提算法在4个数据集上均能完成主动样例选择,而基于ELM的主动学习算法只在规模最小的数据集上能完成主动样例选择。实验结果表明,所提算法优于基于极限学习机的主动学习算法。 展开更多
关键词 大数据 主动学习 不确定性 极限学习机 样例选择
在线阅读 下载PDF
元学习的不确定性特征构建及初步分析 被引量:4
3
作者 李艳 郭劼 范斌 《计算机应用》 CSCD 北大核心 2022年第2期343-348,共6页
元学习即应用机器学习的方法(元算法)寻求问题的特征(元特征)与算法相对性能测度间的映射,从而形成元知识的学习过程,如何构建和提取元特征是其重要的研究内容。针对目前相关研究所用到的元特征大部分是数据的统计特征的问题,提出不确... 元学习即应用机器学习的方法(元算法)寻求问题的特征(元特征)与算法相对性能测度间的映射,从而形成元知识的学习过程,如何构建和提取元特征是其重要的研究内容。针对目前相关研究所用到的元特征大部分是数据的统计特征的问题,提出不确定性建模并研究不确定性对于学习系统的影响。根据样本的不一致性、边界的复杂性、模型输出的不确定性、线性可分度、属性的重叠度以及特征空间的不确定性,建立了六种数据或模型的不确定性元特征;同时,从不同角度衡量学习问题本身的不确定性大小,并给出了具体的定义。在大量分类问题的人工数据和真实数据集上实验分析了这些元特征之间的相关性,并使用K最近邻(KNN)等多个分类算法对元特征与测试精度之间的相关度进行初步分析。结果表明相关度平均在0.8左右,可见这些元特征对学习性能具有显著影响。 展开更多
关键词 元学习 元特征 不确定性度量 相关性分析 数据集特征
在线阅读 下载PDF
基于哈希学习的投票样例选择算法 被引量:1
4
作者 黄雅婕 翟俊海 +1 位作者 周翔 李艳 《计算机应用》 CSCD 北大核心 2022年第2期389-394,共6页
随着数据的海量型增长,如何存储并利用数据成为目前学术研究和工业应用等方面的热门问题。样例选择是解决此类问题的方法之一,它在原始数据中依据既定规则选出代表性的样例,从而有效地降低后续工作的难度。基于此,提出一种基于哈希学习... 随着数据的海量型增长,如何存储并利用数据成为目前学术研究和工业应用等方面的热门问题。样例选择是解决此类问题的方法之一,它在原始数据中依据既定规则选出代表性的样例,从而有效地降低后续工作的难度。基于此,提出一种基于哈希学习的投票样例选择算法。首先通过主成分分析(PCA)方法将高维数据映射到低维空间;然后利用k-means算法结合矢量量化方法进行迭代运算,并将数据用聚类中心的哈希码表示;接着将分类后的数据按比例进行随机选择,在多次独立运行算法后投票选择出最终的样例。与压缩近邻(CNN)算法和大数据线性复杂度样例选择算法LSH-IS-F相比,所提算法在压缩比方面平均提升了19%。所提算法思想简单容易实现,能够通过调节参数自主控制压缩比。在7个数据集上的实验结果显示所提算法在测试精度相似的情况下在压缩比和运行时间方面较随机哈希有较大优势。 展开更多
关键词 样例选择 哈希学习 海明距离 矢量量化 投票方法
在线阅读 下载PDF
迭代修正鲁棒极限学习机 被引量:1
5
作者 吕新伟 鲁淑霞 《计算机应用》 CSCD 北大核心 2023年第5期1342-1348,共7页
极限学习机(ELM)的许多变体都致力于提高ELM对异常点的鲁棒性,而传统的鲁棒极限学习机(RELM)对异常点非常敏感,如何处理数据中的过多极端异常点变成构建RELM模型的棘手问题。对于残差较大的异常点,采用有界损失函数消除异常点对模型的污... 极限学习机(ELM)的许多变体都致力于提高ELM对异常点的鲁棒性,而传统的鲁棒极限学习机(RELM)对异常点非常敏感,如何处理数据中的过多极端异常点变成构建RELM模型的棘手问题。对于残差较大的异常点,采用有界损失函数消除异常点对模型的污染;为了解决异常点过多的问题,采用迭代修正技术修改数据以降低由异常点过多带来的影响。结合这两种方法,提出迭代修正鲁棒极限学习机(IMRELM)。IMRELM通过迭代的方式求解,在每次的迭代中,通过对样本重加权减小异常点的影响,在不断修正的过程中避免算法出现欠拟合。在具有不同异常点水平的人工数据集和真实数据集上对比了IMRELM、ELM、加权极限学习机(WELM)、迭代重加权极限学习机(IRWELM)和迭代重加权正则化极限学习机(IRRELM)。在异常点占比为80%的人工数据集上,IRRELM的均方误差(MSE)为2.45044,而IMRELM的MSE为0.00079。实验结果表明,IMRELM在具有过多极端异常点的数据上具有良好的预测精度和鲁棒性。 展开更多
关键词 鲁棒极限学习机 重加权 迭代修正 异常点 回归
在线阅读 下载PDF
基于Pivots选择的有效图像块描述子 被引量:3
6
作者 谢博鋆 朱杰 于剑 《软件学报》 EI CSCD 北大核心 2015年第11期2930-2938,共9页
设计图像块特征表示是计算机视觉领域内的基本研究内容,优秀的图像块特征表示能够有效地提高图像分类、对象识别等相关算法的性能.SIFT(scale-invariant feature transform)和HOG(histogram of oriented gradient)是人为设计图像块特征... 设计图像块特征表示是计算机视觉领域内的基本研究内容,优秀的图像块特征表示能够有效地提高图像分类、对象识别等相关算法的性能.SIFT(scale-invariant feature transform)和HOG(histogram of oriented gradient)是人为设计图像块特征表示的优秀代表,然而,人为设计图像块特征间的差异往往不能足够理想地反映图像块间的相似性.核描述子(kernel descriptor,简称KD)方法提供了一种新的方式生成图像块特征,在图像块间匹配核函数基础上,应用核主成分分析(kernel principal component analysis,简称KPCA)方法进行特征表示,且在图像分类应用上获得不错的性能.但是,该方法需要利用所有联合基向量去生成核描述子特征,导致算法时间复杂度较高.为了解决这个问题,提出了一种算法生成图像块特征表示,称为有效图像块描述子(efficient patch-level descriptor,简称EPLd).算法建立在不完整Cholesky分解基础上,自动选择少量的标志性图像块以提高算法效率,且利用MMD(maximum mean discrepancy)距离计算图像间的相似性.实验结果表明,该算法在图像/场景分类应用中获得了优秀的性能. 展开更多
关键词 标志性图像块 不完整Cholesky分解 核描述子 有效图像块描述子 MMD距离
在线阅读 下载PDF
基于聚类粒化和簇间散度的属性约简算法 被引量:3
7
作者 李艳 范斌 郭劼 《计算机应用》 CSCD 北大核心 2022年第9期2701-2712,共12页
属性约简是粗糙集理论中的研究热点,对连续值数据进行属性约简的算法大多基于优势关系或邻域关系。然而连续值数据集的属性不一定具有优势关系;而基于邻域关系的属性约简算法虽然可以通过邻域半径调整粒化程度,不过由于各属性量纲不同... 属性约简是粗糙集理论中的研究热点,对连续值数据进行属性约简的算法大多基于优势关系或邻域关系。然而连续值数据集的属性不一定具有优势关系;而基于邻域关系的属性约简算法虽然可以通过邻域半径调整粒化程度,不过由于各属性量纲不同且半径参数为连续值使半径难以统一,导致整个参数粒化过程计算量较大。为解决此问题,提出一种基于聚类粒化的多粒度属性约简策略。首先,利用聚类方法将相似样本归类,并提出了基于聚类的近似集、相对正域及正域约简概念;其次,根据JS(Jensen-Shannon)散度理论对簇间各属性数据分布进行差异性度量,并选择出具有代表性的特征用以区分不同类簇;最后,利用可辨识矩阵设计了属性约简算法。所提算法不要求属性具有序关系,且不同于邻域半径,聚类参数为离散值,调节此参数就能够对数据集形成不同粒化程度的划分。在UCI与Kent Ridge数据集上进行的实验结果表明,该属性约简算法可以直接处理连续值数据,且该算法在较小范围内离散地调节聚类参数便能在保持甚至提高分类精度的前提下去除数据集中的冗余特征。 展开更多
关键词 连续值数据 粗糙集 属性约简 聚类粒化 Jensen-Shannon散度
在线阅读 下载PDF
基于双自编码器和Transformer网络的异常检测方法 被引量:9
8
作者 周佳航 邢红杰 《计算机应用》 CSCD 北大核心 2023年第1期22-29,共8页
基于自编码器(AE)的异常检测方法利用重构误差判断待测样本是正常数据还是异常数据。然而,上述方法在正常数据与异常数据上产生的重构误差非常接近,导致部分异常数据很容易被错分为正常数据。为解决上述问题,提出一种由两个并行的AE和一... 基于自编码器(AE)的异常检测方法利用重构误差判断待测样本是正常数据还是异常数据。然而,上述方法在正常数据与异常数据上产生的重构误差非常接近,导致部分异常数据很容易被错分为正常数据。为解决上述问题,提出一种由两个并行的AE和一个Transformer网络组成的异常检测方法——DATN-ND。首先,Transformer网络利用输入样本的瓶颈特征生成伪异常数据的瓶颈特征,从而在训练集中增加异常数据信息;其次,双AE将带有异常数据信息的瓶颈特征尽可能地重构为正常数据,增加异常数据与正常数据的重构误差差别。与记忆增强自编码器(MemAE)相比,DATN-ND在MNIST、Fashion-MNIST、CIFAR-10数据集上ROC曲线下面积(AUC)分别提升6.8、12.0和2.5个百分点。实验结果表明,DATN-ND能够有效扩大正常数据和异常数据在重构误差上的差别。 展开更多
关键词 异常检测 自编码器 重构误差 单类分类 Transformer网络
在线阅读 下载PDF
基于随机森林和投票机制的大数据样例选择算法 被引量:7
9
作者 周翔 翟俊海 +2 位作者 黄雅婕 申瑞彩 侯璎真 《计算机应用》 CSCD 北大核心 2021年第1期74-80,共7页
针对大数据样例选择问题,提出了一种基于随机森林(RF)和投票机制的大数据样例选择算法。首先,将大数据集划分成两个子集,要求第一个子集是大型的,第二个子集是中小型的。然后,将第一个大型子集划分成q个规模较小的子集,并将这些子集部署... 针对大数据样例选择问题,提出了一种基于随机森林(RF)和投票机制的大数据样例选择算法。首先,将大数据集划分成两个子集,要求第一个子集是大型的,第二个子集是中小型的。然后,将第一个大型子集划分成q个规模较小的子集,并将这些子集部署到q个云计算节点,并将第二个中小型子集广播到q个云计算节点。接下来,在各个节点用本地数据子集训练随机森林,并用随机森林从第二个中小型子集中选择样例,之后合并在各个节点选择的样例以得到这一次所选样例的子集。重复上述过程p次,得到p个样例子集。最后,用这p个子集进行投票,得到最终选择的样例子集。在Hadoop和Spark两种大数据平台上实现了提出的算法,比较了两种大数据平台的实现机制。此外,在6个大数据集上将所提算法与压缩最近邻(CNN)算法和约简最近邻(RNN)算法进行了比较,实验结果显示数据集的规模越大时,与这两个算法相比,提出的算法测试精度更高且时间消耗更短。证明了提出的算法在大数据处理上具有良好的泛化能力和较高的运行效率,可以有效地解决大数据的样例选择问题。 展开更多
关键词 大数据 样例选择 决策树 随机森林 投票机制
在线阅读 下载PDF
基于中心核对齐的多核单类支持向量机 被引量:4
10
作者 祁祥洲 邢红杰 《计算机应用》 CSCD 北大核心 2022年第2期349-356,共8页
多核学习(MKL)方法在分类及回归任务中均取得了优于单核学习方法的性能,但传统的MKL方法均用于处理两类或多类分类问题。为了使MKL方法适用于处理单类分类(OCC)问题,提出了基于中心核对齐(CKA)的单类支持向量机(OCSVM)。首先利用CKA计... 多核学习(MKL)方法在分类及回归任务中均取得了优于单核学习方法的性能,但传统的MKL方法均用于处理两类或多类分类问题。为了使MKL方法适用于处理单类分类(OCC)问题,提出了基于中心核对齐(CKA)的单类支持向量机(OCSVM)。首先利用CKA计算每个核矩阵的权重,然后将所得权重用作线性组合系数,进而将不同类型的核函数加以线性组合以构造组合核函数,最后将组合核函数引入到传统OCSVM中代替单个核函数。该方法既能避免核函数的选取问题,又能提高泛化性能和抗噪声能力。在20个UCI基准数据集上与其他五种相关方法进行了实验比较,结果表明该方法在13个数据集上的几何均值(g-mean)均高于其他对比方法,而传统的单核OCSVM仅在2个数据集上的效果较好,局部多核单类支持向量机(LMKOCSVM)和基于核目标对齐的多核单类支持向量机(KTAMKOCSVM)在5个数据集上的分类效果较好。因此,通过实验比较充分验证了所提方法的有效性。 展开更多
关键词 多核学习 中心核对齐 单类支持向量机 单类分类 核函数
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部