期刊文献+
共找到141篇文章
< 1 2 8 >
每页显示 20 50 100
大数据与大数据机器学习 被引量:23
1
作者 张素芳 翟俊海 +2 位作者 王聪 沈矗 赵春玲 《河北大学学报(自然科学版)》 CAS 北大核心 2018年第3期299-308,336,共11页
大数据时代已经到来,大数据是指具有海量(Volume)、多样(Variety)、时效(Velocity)、不精确(Veracity)和价值(Value)这5种特征的数据,大数据研究是近几年信息处理领域最热门的研究方向,已经引起了工业界、学术界乃至政府部门的高度关注... 大数据时代已经到来,大数据是指具有海量(Volume)、多样(Variety)、时效(Velocity)、不精确(Veracity)和价值(Value)这5种特征的数据,大数据研究是近几年信息处理领域最热门的研究方向,已经引起了工业界、学术界乃至政府部门的高度关注.大数据之所以备受关注,是因为大数据里面蕴藏着巨大的价值.如何把蕴藏在大数据中的价值挖掘出来,为企业或政府部门提供决策支持具有重要的意义.大数据给传统的机器学习带来了许多挑战,这些挑战可以从大数据的5个特征或从5个不同的角度进行分析.本文首先介绍大数据的概念,并详细剖析大数据5种特征的内涵;然后在此基础上,重点分析大数据给机器学习带来的挑战及可能的解决方法.本文对从事大数据研究的人员,特别是从事大数据机器学习研究的人员具有较高的参考价值. 展开更多
关键词 大数据 机器学习 云计算 决策支持
在线阅读 下载PDF
随机权分布对极限学习机性能影响的实验研究 被引量:6
2
作者 翟俊海 臧立光 张素芳 《计算机科学》 CSCD 北大核心 2016年第12期125-129,145,共6页
极限学习机是一种训练单隐含层前馈神经网络的算法,它随机初始化输入层的权值和隐含层结点的偏置,用分析的方法确定输出层的权值。极限学习机具有学习速度快、泛化能力强的特点。很多研究都用服从[-1,1]区间均匀分布的随机数初始化输入... 极限学习机是一种训练单隐含层前馈神经网络的算法,它随机初始化输入层的权值和隐含层结点的偏置,用分析的方法确定输出层的权值。极限学习机具有学习速度快、泛化能力强的特点。很多研究都用服从[-1,1]区间均匀分布的随机数初始化输入层权值和隐含层结点的偏置,但没有对这种随机初始化合理性的研究。用实验的方法对这一问题进行了研究,分别研究了随机权服从均匀分布、高斯分布和指数分布对极限学习机性能的影响。研究发现随机权的分布对极限学习机的性能的确有影响,对于不同的问题或不同的数据集,服从[-1,1]区间均匀分布的随机权不一定是最优的选择。研究结论对从事极限学习机研究的人员具有一定的借鉴作用。 展开更多
关键词 随机权分布 极限学习机 均匀分布 高斯分布 指数发布
在线阅读 下载PDF
智能参数学习的模糊决策树算法 被引量:1
3
作者 孙娟 《计算机工程与应用》 CSCD 2012年第23期148-154,共7页
模糊决策树算法在处理数量型属性的数据时,需要进行数据模糊化预处理。但是,每个数量型属性应该模糊化为几个语言项通常要凭经验设定的,目前还没有使用标准粒子群优化算法(PSO)自动设定语言项个数的研究。提出使用PSO确定语言项个数的... 模糊决策树算法在处理数量型属性的数据时,需要进行数据模糊化预处理。但是,每个数量型属性应该模糊化为几个语言项通常要凭经验设定的,目前还没有使用标准粒子群优化算法(PSO)自动设定语言项个数的研究。提出使用PSO确定语言项个数的模糊决策树算法(FDT-K算法),通过实验证明FDT-K算法产生的模糊决策树性能明显优于凭经验设定语言项个数所产生的模糊决策树。 展开更多
关键词 归纳学习 模糊决策树 数据预处理 模糊化 粒子群优化算法
在线阅读 下载PDF
基于平衡对比学习策略的长尾识别方法
4
作者 孔令权 翟俊海 《西北大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第4期677-688,共12页
长尾识别是计算机视觉领域最具挑战性的问题之一。在现实世界中长尾识别具有广泛的应用,研究长尾识别具有重要意义。对于长尾分布数据来说,由于类与类之间样本量不平衡,以及占比众多的尾部类缺少足够的训练样本,使其在训练过程中很难找... 长尾识别是计算机视觉领域最具挑战性的问题之一。在现实世界中长尾识别具有广泛的应用,研究长尾识别具有重要意义。对于长尾分布数据来说,由于类与类之间样本量不平衡,以及占比众多的尾部类缺少足够的训练样本,使其在训练过程中很难找到各类间的明确界限。为解决这一问题,将元预训练和监督对比学习结合起来,提出了基于平衡对比学习策略的长尾识别方法MBCP-BB(meta balanced contrastive pre-training and batch balance)。MBCP-BB采用解耦学习方式进行模型训练:通过预训练获得具有优异特征表示能力的特征提取器,在微调阶段,固定特征提取器,重新训练分类器。该方法突出特征学习的重要性,设计了平衡对比学习策略指导特征学习过程,从而使监督对比学习技术能有效应用于长尾识别场景。进行特征学习时,首先适当减少头部类样本,并利用少样本图像生成技术为尾部类生成新样本;之后以每类的类原型作为补充样本用于训练。解耦学习训练模式下,充分挖掘了特征提取器与分类器的潜力,在增强模型特征学习能力的同时,大大简化了分类器的训练过程。在几个长尾基准数据集上进行了大量实验,并与7个代表性的算法从多个角度进行了实验比较,实验结果表明该方法优于比较的算法。 展开更多
关键词 长尾识别 元学习 预训练 监督对比学习 批次平衡训练
在线阅读 下载PDF
一种异构直推式迁移学习算法 被引量:14
5
作者 杨柳 景丽萍 于剑 《软件学报》 EI CSCD 北大核心 2015年第11期2762-2780,共19页
目标领域已有类别标注的数据较少时会影响学习性能,而与之相关的其他源领域中存在一些已标注数据.迁移学习针对这一情况,提出将与目标领域不同但相关的源领域上学习到的知识应用到目标领域.在实际应用中,例如文本-图像、跨语言迁移学习... 目标领域已有类别标注的数据较少时会影响学习性能,而与之相关的其他源领域中存在一些已标注数据.迁移学习针对这一情况,提出将与目标领域不同但相关的源领域上学习到的知识应用到目标领域.在实际应用中,例如文本-图像、跨语言迁移学习等,源领域和目标领域的特征空间是不相同的,这就是异构迁移学习.关注的重点是利用源领域中已标注的数据来提高目标领域中未标注数据的学习性能,这种情况是异构直推式迁移学习.因为源领域和目标领域的特征空间不同,异构迁移学习的一个关键问题是学习从源领域到目标领域的映射函数.提出采用无监督匹配源领域和目标领域的特征空间的方法来学习映射函数.学到的映射函数可以把源领域中的数据在目标领域中重新表示.这样,重表示之后的已标注源领域数据可以被迁移到目标领域中.因此,可以采用标准的机器学习方法(例如支持向量机方法)来训练分类器,以对目标领域中未标注的数据进行类别预测.给出一个概率解释以说明其对数据中的一些噪声是具有鲁棒性的.同时还推导了一个样本复杂度的边界,也就是寻找映射函数时需要的样本数.在4个实际的数据库上的实验结果,展示了该方法的有效性. 展开更多
关键词 异构迁移学习 直推式迁移学习 异构特征空间 映射函数
在线阅读 下载PDF
ELM算法中随机映射作用的实验研究 被引量:6
6
作者 翟俊海 李塔 +1 位作者 翟梦尧 王熙照 《计算机工程》 CAS CSCD 2012年第20期164-168,共5页
通过实验研究ELM算法中随机映射的作用及神经网络中隐含层结点个数对网络泛化能力的影响。在35个数据集上进行实验,针对不同的数据集,找到网络的最优精度所对应的隐含层结点个数。实验结果表明,当随机映射使数据升维到一定维数时,网络... 通过实验研究ELM算法中随机映射的作用及神经网络中隐含层结点个数对网络泛化能力的影响。在35个数据集上进行实验,针对不同的数据集,找到网络的最优精度所对应的隐含层结点个数。实验结果表明,当随机映射使数据升维到一定维数时,网络性能得到提高。 展开更多
关键词 ELM算法 随机映射 神经网络 隐含层偏置 隐含层结点
在线阅读 下载PDF
基于MapReduce的大数据主动学习 被引量:5
7
作者 翟俊海 张素芳 +2 位作者 王聪 沈矗 刘晓萌 《计算机应用》 CSCD 北大核心 2018年第10期2759-2763,共5页
针对传统的主动学习算法只能处理中小型数据集的问题,提出一种基于MapReduce的大数据主动学习算法。首先,在有类别标签的初始训练集上,用极限学习机(ELM)算法训练一个分类器,并将其输出用软最大化函数变换为一个后验概率分布。然后,将... 针对传统的主动学习算法只能处理中小型数据集的问题,提出一种基于MapReduce的大数据主动学习算法。首先,在有类别标签的初始训练集上,用极限学习机(ELM)算法训练一个分类器,并将其输出用软最大化函数变换为一个后验概率分布。然后,将无类别标签的大数据集划分为l个子集,并部署到l个云计算节点上。在每一个节点,用训练出的分类器并行地计算各个子集中样例的信息熵,并选择信息熵大的前q个样例进行类别标注,将标注类别的l×q个样例添加到有类别标签的训练集中。重复以上步骤直到满足预定义的停止条件。在Artificial、Skin、Statlog和Poker 4个数据集上与基于ELM的主动学习算法进行了比较,结果显示,所提算法在4个数据集上均能完成主动样例选择,而基于ELM的主动学习算法只在规模最小的数据集上能完成主动样例选择。实验结果表明,所提算法优于基于极限学习机的主动学习算法。 展开更多
关键词 大数据 主动学习 不确定性 极限学习机 样例选择
在线阅读 下载PDF
MapReduce和Spark两种框架下的大数据极限学习机比较研究 被引量:10
8
作者 宋丹丹 翟俊海 +1 位作者 李艳 齐家兴 《小型微型计算机系统》 CSCD 北大核心 2020年第7期1381-1388,共8页
对MapReduce和Spark两种框架下的大数据极限学习机进行了比较研究.具体地,从程序运行时间、任务的同步次数、分类器的泛化性能和需要读写的文件数目4个方面进行了比较.得出了如下结论:1)在程序运行时间上,基于Spark的大数据极限学习机... 对MapReduce和Spark两种框架下的大数据极限学习机进行了比较研究.具体地,从程序运行时间、任务的同步次数、分类器的泛化性能和需要读写的文件数目4个方面进行了比较.得出了如下结论:1)在程序运行时间上,基于Spark的大数据极限学习机明显优于MapReduce的大数据极限学习机,通过理论分析以及对比不同平台的并行指标speed Up和sizeUp证明了这一结论,而且随着隐含层节点个数的增多,这一优势越发明显;2)在任务的同步次数上,基于MapReduce大数据极限学习机的性能优于基于Spark大数据极限学习机;3)在分类器的泛化性能上,基于MapReduce的大数据极限学习机与基于Spark大数据极限学习机并无本质的差别;4)在需要读写的文件数目上,基于MapReduce的大数据极限学习机需要读写的文件数目与M ap任务个数有关,而基于Spark的大数据极限学习机需要读写的文件数目与分区数有关.这些结论对从事相关研究的人员,特别是从事大数据机器学习研究的人员具有较高的参考价值. 展开更多
关键词 大数据 机器学习 极限学习机 并行计算 任务同步
在线阅读 下载PDF
基于网络结构轻量化的道路监控检测模型
9
作者 来超凡 花强 +1 位作者 母静越 张博 《电子测量技术》 北大核心 2025年第13期148-156,共9页
针对现有交通监控检测模型参数量大,计算复杂度高,在一些边缘设备上部署会受到硬件资源限制的问题,对YOLOv8模型的网络结构进行了针对性改进,提出一种基于网络结构轻量化的道路监控检测模型。首先在骨干网络部分:采用极简网络架构Vanill... 针对现有交通监控检测模型参数量大,计算复杂度高,在一些边缘设备上部署会受到硬件资源限制的问题,对YOLOv8模型的网络结构进行了针对性改进,提出一种基于网络结构轻量化的道路监控检测模型。首先在骨干网络部分:采用极简网络架构VanillaNET替代原本的主干网络的中间部分进行特征提取,以减少模型的参数量和整体的计算复杂度。接着将FasterNet的优势与EMA注意力机制相结合,应用到骨干网络的C2f模块,有效降低了内存访问量,并一定程度上提升了模型的检测能力。然后将SPPCSPC结合分组卷积,提出G-SPPCSPC模块,提升了模型对监控视角下不同大小尺度信息的提取能力。最后,在颈部网络:将轻量级注意力机制MLCA结合到C2f模块,目的是减少无关背景信息对于道路监控检测的干扰。实验结果表明,改进后的模型参数量降低了53.3%,模型尺寸减小了51.3%,计算复杂度下降了48.1%,mAP/50%达到了93.7%,FPS达到了280.5。模型在显著降低模型参数量和计算复杂度的同时,保持了较高的检测精度和速度,适用于边缘设备的部署,具有较高的实用价值。 展开更多
关键词 道路监控检测 YOLOv8n 轻量化 注意力机制
在线阅读 下载PDF
基于层次模型的非平衡风速预报订正
10
作者 曹阳 翟俊海 韩玲 《河北大学学报(自然科学版)》 北大核心 2025年第3期317-326,共10页
针对风速预报订正中的数据非平衡问题,提出了一种基于分类/回归层次结构的订正模型.该模型的核心思想是采用分治策略,逐步解决风速数据中的非平衡问题.在分类层中,使用了重加权策略来初步解决数据中的非平衡问题.在回归层中,提出了一种... 针对风速预报订正中的数据非平衡问题,提出了一种基于分类/回归层次结构的订正模型.该模型的核心思想是采用分治策略,逐步解决风速数据中的非平衡问题.在分类层中,使用了重加权策略来初步解决数据中的非平衡问题.在回归层中,提出了一种分组扩展的训练策略,有效纠正了受非平衡影响而被错误分类的样本,从而进一步解决数据非平衡问题.此外,还基于贪心策略设计了一种概率加权方法,目的是对有把握的样本输出更加准确的预测.该模型在山东沿海14个地区的风速数据集上进行了验证,并与相关方法进行了比较.订正后的风速预报整体和极端风速事件的平均绝对误差分别降低了34.4%和69.0%,表明该模型在提高极端风速事件预测能力的同时,也保持了对稳定事件的预测性能. 展开更多
关键词 风速预报订正 层次模型 数据非平衡 极端风速预测
在线阅读 下载PDF
基于无监督学习视觉特征的深度聚类方法 被引量:7
11
作者 陈俊芬 赵佳成 +1 位作者 翟俊海 李艳 《南京航空航天大学学报》 CAS CSCD 北大核心 2021年第5期718-725,共8页
基于自编码器的特征提取技术广泛应用于图像聚类分析,在较简单的图像集上取得了令人满意的聚类结果,但自编码器的特征表示能力有限,很难捕捉到复杂低质图像的局部特征。本文提出一种基于非对称结构卷积自编码器(Convolutional auto-enco... 基于自编码器的特征提取技术广泛应用于图像聚类分析,在较简单的图像集上取得了令人满意的聚类结果,但自编码器的特征表示能力有限,很难捕捉到复杂低质图像的局部特征。本文提出一种基于非对称结构卷积自编码器(Convolutional auto-encoder with an asymmetric structure,ASCAE)的学习视觉特征的深度聚类方法,其中非对称结构的卷积自编码器用于学习特征表示,然后使用K-means算法对特征数据进行聚类分析。为进一步提高特征表示能力,ASCAE方法的网络采用变步长的卷积层和全连接的重构误差正则约束网络的重构误差。在7个公开图像集上的实验结果表明该网络有很好的特征表示能力,并且使得K-means算法能提供很好的聚类结果。在COIL-20和MNIST图像集上,聚类方法ASCAE的聚类精度分别为0.754和0.918,优于同类型的4种深度聚类方法(AEC、IEC、DEC和DEN)。 展开更多
关键词 图像聚类 卷积自编码器 特征表示 K-MEANS算法 聚类精度
在线阅读 下载PDF
基于MapReduce和Spark的大数据主动学习比较研究 被引量:6
12
作者 翟俊海 齐家兴 +3 位作者 沈矗 宋丹丹 王谟瀚 田石 《计算机工程与科学》 CSCD 北大核心 2019年第10期1715-1722,共8页
在我们以前的工作中,提出了基于MapReduce的大数据主动学习算法。在本文中,将这一算法移植到Spark环境,提出了基于Spark的大数据主动学习算法,并对基于MapReduce和Spark的2种大数据主动学习算法从运行时间、文件数目、同步数目和内存耗... 在我们以前的工作中,提出了基于MapReduce的大数据主动学习算法。在本文中,将这一算法移植到Spark环境,提出了基于Spark的大数据主动学习算法,并对基于MapReduce和Spark的2种大数据主动学习算法从运行时间、文件数目、同步数目和内存耗费4个方面进行了比较研究,得出了一些有价值的结论,这些结论将为相关研究人员提供很好的帮助。 展开更多
关键词 大数据 机器学习 主动学习 样例选择 开源框架
在线阅读 下载PDF
元学习的不确定性特征构建及初步分析 被引量:4
13
作者 李艳 郭劼 范斌 《计算机应用》 CSCD 北大核心 2022年第2期343-348,共6页
元学习即应用机器学习的方法(元算法)寻求问题的特征(元特征)与算法相对性能测度间的映射,从而形成元知识的学习过程,如何构建和提取元特征是其重要的研究内容。针对目前相关研究所用到的元特征大部分是数据的统计特征的问题,提出不确... 元学习即应用机器学习的方法(元算法)寻求问题的特征(元特征)与算法相对性能测度间的映射,从而形成元知识的学习过程,如何构建和提取元特征是其重要的研究内容。针对目前相关研究所用到的元特征大部分是数据的统计特征的问题,提出不确定性建模并研究不确定性对于学习系统的影响。根据样本的不一致性、边界的复杂性、模型输出的不确定性、线性可分度、属性的重叠度以及特征空间的不确定性,建立了六种数据或模型的不确定性元特征;同时,从不同角度衡量学习问题本身的不确定性大小,并给出了具体的定义。在大量分类问题的人工数据和真实数据集上实验分析了这些元特征之间的相关性,并使用K最近邻(KNN)等多个分类算法对元特征与测试精度之间的相关度进行初步分析。结果表明相关度平均在0.8左右,可见这些元特征对学习性能具有显著影响。 展开更多
关键词 元学习 元特征 不确定性度量 相关性分析 数据集特征
在线阅读 下载PDF
用模糊积分集成重复训练极限学习机的数据分类方法 被引量:4
14
作者 翟俊海 张素芳 周昭一 《小型微型计算机系统》 CSCD 北大核心 2018年第6期1223-1227,共5页
用极限学习机重复训练单隐含层前馈神经网络可得到不同的网络模型.受极限学习机这一特点的启发,提出了一种用模糊积分集成重复训练极限学习机的数据分类方法.该方法分为3步:第1步,用极限学习机重复训练单隐含层前馈神经网络.在训练时,... 用极限学习机重复训练单隐含层前馈神经网络可得到不同的网络模型.受极限学习机这一特点的启发,提出了一种用模糊积分集成重复训练极限学习机的数据分类方法.该方法分为3步:第1步,用极限学习机重复训练单隐含层前馈神经网络.在训练时,不仅输入层权值和隐含层结点的偏置随机生成,隐含层结点的个数也随机生成.第2步,用软最大化函数将训练的单隐含层前馈神经网络的输出变换为后验概率分布.第3步,用模糊积分集成重复训练的单隐含层前馈神经网络,并用于数据分类.提出的方法具有2个优点:1)网络模型具有良好的多样性,理由是重复训练得到的单隐含层前馈神经网络具有不同的结构和不同的参数.2)具有良好的泛化能力,理由是模糊积分能很好地刻画基本分类器之间的交互作用.此外,提出的方法提供了一种网络结构选择的替代方案,利用提出的方法解决实际问题时,可以不用考虑网络结构选择问题.与其他2个算法在10个数据集上进行了实验比较,实验结果及对实验结果的统计分析显示提出的算法在分类精度上优于这2种算法. 展开更多
关键词 数据分类 极限学习机 重复训练 模糊积分 集成
在线阅读 下载PDF
基于聚类技术的集成学习方法研究 被引量:2
15
作者 李凯 常圣领 高悦 《河北大学学报(自然科学版)》 CAS 北大核心 2009年第2期209-213,共5页
研究了基于聚类技术提高分类器差异性的方法.通过Bootstrap技术与分类器学习算法训练分类器模型,利用分类器在验证集上的分类结果作为聚类的数据对象;然后应用聚类算法对这些数据聚类,并在每个簇中选择分类器代表模型,以此构成集成学习... 研究了基于聚类技术提高分类器差异性的方法.通过Bootstrap技术与分类器学习算法训练分类器模型,利用分类器在验证集上的分类结果作为聚类的数据对象;然后应用聚类算法对这些数据聚类,并在每个簇中选择分类器代表模型,以此构成集成学习的成员;最后应用融合方法实验研究了基于聚类技术提高差异性的集成学习性能,并与集成学习方法bagging,adaboost进行了实验比较. 展开更多
关键词 集成学习 差异性 聚类 分类器
在线阅读 下载PDF
基于Wasserstein距离的双向学习推理 被引量:2
16
作者 花强 刘轶功 +1 位作者 张峰 董春茹 《河北大学学报(自然科学版)》 CAS 北大核心 2020年第3期328-336,共9页
基于Wasserstein距离的生成对抗网络(WGAN)将编码器和生成器双向集成于其模型中,从而增强了生成模型的学习能力,但其在优化目标中使用KL散度度量分布间的差异,会导致学习训练过程中出现梯度消失或梯度爆炸问题,降低模型鲁棒性.为克服这... 基于Wasserstein距离的生成对抗网络(WGAN)将编码器和生成器双向集成于其模型中,从而增强了生成模型的学习能力,但其在优化目标中使用KL散度度量分布间的差异,会导致学习训练过程中出现梯度消失或梯度爆炸问题,降低模型鲁棒性.为克服这一问题,提出了一种基于Wasserstein距离的双向学习推理(WBLI)模型.文章首先建立了真实数据分布与隐数据分布双向学习网络,然后引入Wasserstein距离度量联合概率分布的差异性,并据此推导了可解的损失代价函数,给出了完整的网络学习模型和迭代算法.实验结果表明,WBLI模型有效缓解了传统GAN及其变种的模式坍塌问题,增强了训练学习的鲁棒性,可生产辨识度更高的样本. 展开更多
关键词 生成对抗网络 KL散度 Wasserstein距离 变分自编码器
在线阅读 下载PDF
基于凸化集的具有均衡约束的非光滑半无限规划对偶理论研究
17
作者 范红莲 苏珂 《应用数学》 北大核心 2025年第2期565-573,共9页
本文研究具有均衡约束的非光滑半无限规划问题的对偶性质,利用凸化集,对具有均衡约束的非光滑半无限规划问题提出其混合对偶模型.与传统对偶理论中的凸性不同,本文考虑了在凸算子下的∂*-凸和∂*-不变凸假设,并分别建立了具有均衡约束的... 本文研究具有均衡约束的非光滑半无限规划问题的对偶性质,利用凸化集,对具有均衡约束的非光滑半无限规划问题提出其混合对偶模型.与传统对偶理论中的凸性不同,本文考虑了在凸算子下的∂*-凸和∂*-不变凸假设,并分别建立了具有均衡约束的非光滑半无限规划问题与其混合对偶问题之间的强弱对偶定理. 展开更多
关键词 半无限规划 均衡约束 凸化集 对偶
在线阅读 下载PDF
基于核策略的半监督学习方法 被引量:1
18
作者 李凯 陈新勇 《计算机工程》 CAS CSCD 北大核心 2009年第15期170-172,共3页
通过扩展核一致性方法,提出基于核策略的半监督学习算法GCM,研究5种不同度量方法中参数与算法性能的关系,对使用不同度量的GCM算法的性能进行比较。实验结果表明,使用指数度量的GCM算法的性能最优,而使用欧几里得度量的GCM算法的性能最... 通过扩展核一致性方法,提出基于核策略的半监督学习算法GCM,研究5种不同度量方法中参数与算法性能的关系,对使用不同度量的GCM算法的性能进行比较。实验结果表明,使用指数度量的GCM算法的性能最优,而使用欧几里得度量的GCM算法的性能最差。不同度量中的参数取值对算法的性能具有一定的影响。 展开更多
关键词 半监督学习 度量 分类
在线阅读 下载PDF
在线序列主动学习方法 被引量:1
19
作者 翟俊海 臧立光 张素芳 《计算机科学》 CSCD 北大核心 2017年第1期37-41,70,共6页
现实世界中存在着大量无类标的数据,如各种医疗图像数据、网页数据等。在大数据时代,这种情况更加突出。标注这些无类标的数据需要付出巨大的代价。主动学习是解决这一问题的有效手段,也是近几年机器学习和数据挖掘领域中的一个研究热... 现实世界中存在着大量无类标的数据,如各种医疗图像数据、网页数据等。在大数据时代,这种情况更加突出。标注这些无类标的数据需要付出巨大的代价。主动学习是解决这一问题的有效手段,也是近几年机器学习和数据挖掘领域中的一个研究热点。提出了一种基于在线序列极限学习机的主动学习算法,该算法利用在线序列极限学习机增量学习的特点,可显著提高学习系统的效率。另外,该算法用样例熵作为启发式度量无类标样例的重要性,用K-近邻分类器作为Oracle标注选出的无类标样例的类别。实验结果显示,提出的算法具有学习速度快、标注准确的特点。 展开更多
关键词 主动学习 极限学习机 在线序列学习 样例熵 K-近邻
在线阅读 下载PDF
集成重复训练极限学习机的数据分类 被引量:2
20
作者 翟俊海 周昭一 臧立光 《数据采集与处理》 CSCD 北大核心 2018年第6期962-970,共9页
极限学习机是一种随机化算法,它随机生成单隐含层神经网络输入层连接权和隐含层偏置,用分析的方法确定输出层连接权。给定网络结构,用极限学习机重复训练网络,会得到不同的学习模型。本文提出了一种集成模型对数据进行分类的方法。首先... 极限学习机是一种随机化算法,它随机生成单隐含层神经网络输入层连接权和隐含层偏置,用分析的方法确定输出层连接权。给定网络结构,用极限学习机重复训练网络,会得到不同的学习模型。本文提出了一种集成模型对数据进行分类的方法。首先用极限学习机算法重复训练若干个单隐含层前馈神经网络,然后用多数投票法集成训练好的神经网络,最后用集成模型对数据进行分类,并在10个数据集上和极限学习机及集成极限学习机进行了实验比较。实验结果表明,本文提出的方法优于极限学习机和集成极限学习机。 展开更多
关键词 极限学习机 随机化方法 重复训练 泛化能力
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部