期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
MapReduce和Spark两种框架下的大数据极限学习机比较研究 被引量:10
1
作者 宋丹丹 翟俊海 +1 位作者 李艳 齐家兴 《小型微型计算机系统》 CSCD 北大核心 2020年第7期1381-1388,共8页
对MapReduce和Spark两种框架下的大数据极限学习机进行了比较研究.具体地,从程序运行时间、任务的同步次数、分类器的泛化性能和需要读写的文件数目4个方面进行了比较.得出了如下结论:1)在程序运行时间上,基于Spark的大数据极限学习机... 对MapReduce和Spark两种框架下的大数据极限学习机进行了比较研究.具体地,从程序运行时间、任务的同步次数、分类器的泛化性能和需要读写的文件数目4个方面进行了比较.得出了如下结论:1)在程序运行时间上,基于Spark的大数据极限学习机明显优于MapReduce的大数据极限学习机,通过理论分析以及对比不同平台的并行指标speed Up和sizeUp证明了这一结论,而且随着隐含层节点个数的增多,这一优势越发明显;2)在任务的同步次数上,基于MapReduce大数据极限学习机的性能优于基于Spark大数据极限学习机;3)在分类器的泛化性能上,基于MapReduce的大数据极限学习机与基于Spark大数据极限学习机并无本质的差别;4)在需要读写的文件数目上,基于MapReduce的大数据极限学习机需要读写的文件数目与M ap任务个数有关,而基于Spark的大数据极限学习机需要读写的文件数目与分区数有关.这些结论对从事相关研究的人员,特别是从事大数据机器学习研究的人员具有较高的参考价值. 展开更多
关键词 大数据 机器学习 极限学习机 并行计算 任务同步
在线阅读 下载PDF
基于Wasserstein距离的双向学习推理 被引量:2
2
作者 花强 刘轶功 +1 位作者 张峰 董春茹 《河北大学学报(自然科学版)》 CAS 北大核心 2020年第3期328-336,共9页
基于Wasserstein距离的生成对抗网络(WGAN)将编码器和生成器双向集成于其模型中,从而增强了生成模型的学习能力,但其在优化目标中使用KL散度度量分布间的差异,会导致学习训练过程中出现梯度消失或梯度爆炸问题,降低模型鲁棒性.为克服这... 基于Wasserstein距离的生成对抗网络(WGAN)将编码器和生成器双向集成于其模型中,从而增强了生成模型的学习能力,但其在优化目标中使用KL散度度量分布间的差异,会导致学习训练过程中出现梯度消失或梯度爆炸问题,降低模型鲁棒性.为克服这一问题,提出了一种基于Wasserstein距离的双向学习推理(WBLI)模型.文章首先建立了真实数据分布与隐数据分布双向学习网络,然后引入Wasserstein距离度量联合概率分布的差异性,并据此推导了可解的损失代价函数,给出了完整的网络学习模型和迭代算法.实验结果表明,WBLI模型有效缓解了传统GAN及其变种的模式坍塌问题,增强了训练学习的鲁棒性,可生产辨识度更高的样本. 展开更多
关键词 生成对抗网络 KL散度 Wasserstein距离 变分自编码器
在线阅读 下载PDF
选择性集成学习多判别器生成对抗网络 被引量:3
3
作者 申瑞彩 翟俊海 侯璎真 《计算机科学与探索》 CSCD 北大核心 2022年第6期1429-1438,共10页
生成对抗网络(GAN)在图像生成方面具有广泛应用,但基于无监督方式与有监督方式的网络生成样本仍有较大差距。为解决生成对抗网络在无监督环境中生成样本多样性差、质量较低以及模型训练时间过长等问题,提出了具有选择性集成学习思想的... 生成对抗网络(GAN)在图像生成方面具有广泛应用,但基于无监督方式与有监督方式的网络生成样本仍有较大差距。为解决生成对抗网络在无监督环境中生成样本多样性差、质量较低以及模型训练时间过长等问题,提出了具有选择性集成学习思想的生成对抗网络模型。将生成对抗网络中的判别网络采用集成判别系统的形式,有效减少了由单判别器判别性能不佳导致判别误差的情况;同时考虑到若集成判别网络均采用统一网络设置,则在模型训练中基判别网络将趋近于一种表现形式,为鼓励判别网络判别结果多样且避免网络陷入雷同,设置拥有不同网络结构的判别网络,并在集成判别网络中引入具有动态调整基判别网络投票权重的多数投票策略,对集成判别网络的判别结果进行投票,有效地促进了模型的收敛且较大减少了实验误差。最后将提出的模型与同方向的模型在不同数据集上使用不同评价指标进行评价,实验结果表明提出的模型无论在生成样本多样性、生成样本质量还是在模型收敛速度上均明显优于几种竞争模型。 展开更多
关键词 生成对抗网络(GAN) 集成判别系统 选择性集成学习 多数投票策略
在线阅读 下载PDF
基于粗糙集相对分类信息熵和粒子群优化的特征选择方法 被引量:9
4
作者 翟俊海 刘博 张素芳 《智能系统学报》 CSCD 北大核心 2017年第3期397-404,共8页
特征选择是指从初始特征全集中,依据既定规则筛选出特征子集的过程,是数据挖掘的重要预处理步骤。通过剔除冗余属性,以达到降低算法复杂度和提高算法性能的目的。针对离散值特征选择问题,提出了一种将粗糙集相对分类信息熵和粒子群算法... 特征选择是指从初始特征全集中,依据既定规则筛选出特征子集的过程,是数据挖掘的重要预处理步骤。通过剔除冗余属性,以达到降低算法复杂度和提高算法性能的目的。针对离散值特征选择问题,提出了一种将粗糙集相对分类信息熵和粒子群算法相结合的特征选择方法,依托粒子群算法,以相对分类信息熵作为适应度函数,并与其他基于进化算法的特征选择方法进行了实验比较,实验结果表明本文提出的方法具有一定的优势。 展开更多
关键词 数据挖掘 特征选择 数据预处理 粗糙集 决策表 粒子群算法 信息熵 适应度函数
在线阅读 下载PDF
基于随机森林的哈希检索算法 被引量:6
5
作者 花强 郭欣欣 +1 位作者 张峰 董春茹 《计算机科学与探索》 CSCD 北大核心 2019年第7期1174-1183,共10页
从海量数据中进行近似数据的检索是数据挖掘领域许多应用的关键。尤其近年来,数据的规模出现爆炸式增长,数据检索需面对海量数据和“维度灾难”的叠加考验,这使得传统最近邻算法效率降低,而近似最近邻算法发挥了越来越重要的作用。其中... 从海量数据中进行近似数据的检索是数据挖掘领域许多应用的关键。尤其近年来,数据的规模出现爆炸式增长,数据检索需面对海量数据和“维度灾难”的叠加考验,这使得传统最近邻算法效率降低,而近似最近邻算法发挥了越来越重要的作用。其中哈希算法以其在存储空间和计算时间上的优势受到了广泛关注。提出了一种基于随机森林的哈希算法。该算法通过构建随机森林,将原始空间的样本映射为海明空间的二进制哈希码,并在哈希空间上定义了顺序敏感的海明距离,以最大程度保持数据在原空间的近邻关系不变。由于随机森林中不同决策树所使用的特征空间和学习过程是独立的,可以以增量的方式灵活地确定哈希码的长度。此外基于随机森林的哈希编码算法天然适合并行部署,从而可以大大提高算法速度。最后,在MNIST和CIFAR-10数据集对所提算法进行了实验验证,结果表明了算法的有效性和出色性能。 展开更多
关键词 近似近邻检索(ANNS) 哈希编码 随机森林 顺序敏感的海明距离
在线阅读 下载PDF
邻域欠采样的AdaBoostv算法 被引量:3
6
作者 张振莲 鲁淑霞 翟俊海 《小型微型计算机系统》 CSCD 北大核心 2023年第1期97-102,共6页
针对类别非平衡情况下的类重叠问题,引入了两种基于邻域的欠采样方法:共同近邻搜索欠采样和递归搜索欠采样,其主要思想是通过消除重叠区域中的负类样本来缓解类别非平衡问题,学习算法采用AdaBoost v算法,通过最大化样本的最小间隔(最优... 针对类别非平衡情况下的类重叠问题,引入了两种基于邻域的欠采样方法:共同近邻搜索欠采样和递归搜索欠采样,其主要思想是通过消除重叠区域中的负类样本来缓解类别非平衡问题,学习算法采用AdaBoost v算法,通过最大化样本的最小间隔(最优间隔)来提高分类器的分类能力.为了进一步解决非平衡数据分类问题,AdaBoost v算法的基分类器采用加权最优间隔分布机模型,对模型中的间隔均值项和铰链损失项加权,权值是依据数据的非平衡比给出的,并利用带有方差减小的随机梯度下降方法对优化模型进行求解,以提高算法的收敛速度.对比实验表明,提出的算法在非平衡数据分类问题上具有明显的优势. 展开更多
关键词 欠采样 AdaBoost v 最优间隔分布机 类重叠问题 权值
在线阅读 下载PDF
基于MapReduce和Spark的大规模压缩模糊K-近邻算法 被引量:4
7
作者 王谟瀚 翟俊海 齐家兴 《计算机工程》 CAS CSCD 北大核心 2020年第11期139-147,共9页
压缩模糊K-近邻(CFKNN)算法仅适用于中小数据环境,且其样例选择采用静态机制,导致算法不能对阈值进行动态调整从而选出最优样例。为此,对CFKNN算法进行改进,将其扩展到大规模数据环境,提出分别基于MapReduce和Spark的2种大规模压缩模糊K... 压缩模糊K-近邻(CFKNN)算法仅适用于中小数据环境,且其样例选择采用静态机制,导致算法不能对阈值进行动态调整从而选出最优样例。为此,对CFKNN算法进行改进,将其扩展到大规模数据环境,提出分别基于MapReduce和Spark的2种大规模压缩模糊K-近邻算法。在样例选择阈值设置方面,引入动态机制,使得所选样例更具代表性。在具有7个数据节点的大数据平台上进行实验,结果表明,与CFKNN算法相比,所提2种算法具有更高的分类精度和加速比。2个平台相比,MapReduce产生的中间文件数目多于Spark,而Spark在运行时间和同步次数上优于MapReduce。 展开更多
关键词 MapReduce平台 Spark平台 模糊K-近邻 样例选择 动态机制
在线阅读 下载PDF
耦合变分自编码器及其在图像对生成中的应用 被引量:2
8
作者 侯璎真 翟俊海 申瑞彩 《小型微型计算机系统》 CSCD 北大核心 2021年第12期2626-2631,共6页
随着深度学习的发展,图像生成技术有了长足的进展,但大多数图像生成模型只能生成单一图像.针对这一问题,本文提出了一种耦合变分自编码器,它可以生成具有不同属性的人脸元组.现有的方法需要训练集的不同域中存在对应图像的元组,但是本... 随着深度学习的发展,图像生成技术有了长足的进展,但大多数图像生成模型只能生成单一图像.针对这一问题,本文提出了一种耦合变分自编码器,它可以生成具有不同属性的人脸元组.现有的方法需要训练集的不同域中存在对应图像的元组,但是本文提出的方法不需要任何对应图像的元组,就可以生成具有不同属性的图像元组.本文的方法是在耦合生成对抗网络的灵感下提出的,与原有方法不同,它通过训练耦合变分自编码器模型来学习不同属性的特征表示,以生成对应图像元组.相比较原方法,它可以通过学习高级特征表示更精确的生成图像元组.此外,本文还用耦合变分自编码器实现了无监督人脸属性转换以及人脸的相互转换.将提出的方法应用于多个学习任务,包括生成不同属性的人脸元组、无监督的人脸属性转换以及图像相互转换. 展开更多
关键词 深度学习 变分自编码器 元组 高级特征 属性转换
在线阅读 下载PDF
大数据环境下的投票特征选择算法 被引量:1
9
作者 周翔 翟俊海 +2 位作者 黄雅婕 申瑞彩 侯璎真 《小型微型计算机系统》 CSCD 北大核心 2022年第5期936-942,共7页
随着数据的爆炸式增长,大数据问题越来越受到关注,然而由于大数据具有维度较高、数据复杂且变化迅速的特性,导致传统的机器学习算法不再适用,故解决大数据特征选择问题迫在眉睫.本文基于投票机制和决策树算法提出了大数据环境下的投票... 随着数据的爆炸式增长,大数据问题越来越受到关注,然而由于大数据具有维度较高、数据复杂且变化迅速的特性,导致传统的机器学习算法不再适用,故解决大数据特征选择问题迫在眉睫.本文基于投票机制和决策树算法提出了大数据环境下的投票特征选择算法.具体步骤为,随机划分大数据集U为L个子集,将划分后的L个子集发送到L个map节点,在每个map节点上使用决策树算法进行特征选择.在reduce节点,用每个map节点选择出来的特征进行投票,将得票数大于阙值的特征选择出来.将提出的算法在Hadoop和Spark两个开源大数据平台进行了实验,发现两个大数据平台的运行机制有诸多异同.此外,将提出的大数据投票特征选择算法和单变量特征选择算法与基于遗传算法的特征选择算法在5个高维数据集上进行了实验比对.经过对实验结果的分析,发现提出的算法相较于两个相关算法分类精度和执行效率都有更优的表现.证明了提出的算法优于这两个算法,可以有效地解决高维数据的特征选择问题. 展开更多
关键词 大数据 特征选择 决策树 机器学习 投票机制
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部