期刊文献+
共找到706篇文章
< 1 2 36 >
每页显示 20 50 100
基于多重信息融合分析的图书动态自组织分类算法
1
作者 窦淑庆 刘思豆 《现代电子技术》 北大核心 2025年第11期169-173,共5页
为提高图书资源管理的智能化水平以及个性化服务的精准度,文中提出一种基于深度学习和多重信息融合分析的图书馆动态自组织分类算法。在构建数据感知与处理基本架构的基础上,引入深度学习算法对各类数据中的海量信息进行快速分析与感知... 为提高图书资源管理的智能化水平以及个性化服务的精准度,文中提出一种基于深度学习和多重信息融合分析的图书馆动态自组织分类算法。在构建数据感知与处理基本架构的基础上,引入深度学习算法对各类数据中的海量信息进行快速分析与感知,同时对感知后的数据进行动态分类,从而实现大规模数据的智能化处理。基于深度学习算法,引入多重信息融合技术,对各类数据的多种信息进行有效识别与融合,实现对读者行为和偏好的精准捕捉,为图书资源的优化管理提供了技术解决方案。为了验证所提方法的正确性和有效性,设计了数值实验进行测试。实验结果表明,所提方法的数据分类准确率可达99.10%,能够满足大型图书馆的智能化数据管理与分类需求。 展开更多
关键词 图书资源管理 智能化水平 个性化服务 深度学习 多重信息融合分析 动态自组织分类算法 数据分类准确率
在线阅读 下载PDF
基于分类算法的定制家具客户需求信息处理 被引量:1
2
作者 彭淑勤 熊先青 《林业工程学报》 北大核心 2025年第1期168-176,共9页
为实现定制家具企业客户需求快速响应,利用机器学习算法(贝叶斯分类、随机森林分类及决策树算法)对定制家具客户订单进行分类实验。选取M企业4852个客户订单,通过客户订单信息划分属性变量及标签变量对客户信息进行编码;并通过准确率、... 为实现定制家具企业客户需求快速响应,利用机器学习算法(贝叶斯分类、随机森林分类及决策树算法)对定制家具客户订单进行分类实验。选取M企业4852个客户订单,通过客户订单信息划分属性变量及标签变量对客户信息进行编码;并通过准确率、精确率、召回率及F1分数值对客户需求数据进行评价,实验结果:在客户需求信息分类二分类数据集中,贝叶斯分类准确率、精准率及召回率3个性能指标分别比随机森林分类高17.54,34.60和35.45个百分点,比决策树算法高4.67,9.02和15.67个百分点;在客户需求信息分类多分类数据集中,贝叶斯分类的准确率、精准率、召回率及F1分数分别为89.4%,82.2%,93.1%和86.4%,综合4项评价指标比其他两种分类法更优;在二分类及多分类中贝叶斯分类的综合性能更优。据此,本研究提出一种基于贝叶斯分类算法的定制家具客户需求信息分类方法,为定制家具客户需求响应平台设计提供理论支持。 展开更多
关键词 定制家具 客户需求信息处理 分类算法 数据挖掘 评价指标
在线阅读 下载PDF
基于因素空间理论的扫类连环多分类算法
3
作者 曾繁慧 王莹 +1 位作者 汪培庄 孙慧 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2024年第1期111-118,共8页
为解决多分类问题,基于因素空间理论中因素显隐的思想,在扫类连环分类算法基础上,定义类别的合并,提出因素显隐的合并扫类连环分类方法,给出算法步骤,并用数值算例进行分析;定义类别的两两组合,提出因素显隐的两两扫类连环分类方法,给... 为解决多分类问题,基于因素空间理论中因素显隐的思想,在扫类连环分类算法基础上,定义类别的合并,提出因素显隐的合并扫类连环分类方法,给出算法步骤,并用数值算例进行分析;定义类别的两两组合,提出因素显隐的两两扫类连环分类方法,给出算法步骤,并用数值算例进行分析。提出采用因素显隐的差额绝对值方法解决两个算法执行过程中出现的决策类别分不开的问题;对UCI数据集中3个实例与支持向量机作了算法对比分析,研究结果表明:提出的合并扫类连环分类方法、两两扫类连环分类方法实现了因素显隐,分类算法的精确度优于支持向量机。多分类学习的因素显隐研究结论拓展了因素空间的理论及应用研究。 展开更多
关键词 因素空间 因素显隐 扫类连环分类算法 合并扫类连环分类算法 两两扫类连环分类算法 差额绝对值法
在线阅读 下载PDF
基于分类算法的生长育肥猪营养需要量预测模型研究
4
作者 李滢滢 张姝雅 +2 位作者 曹红蕊 周宇君 张帅 《动物营养学报》 北大核心 2025年第9期6302-6316,共15页
准确评估猪的营养需要量并实现精准营养配方,对于提高饲料资源利用效率及推动我国生猪养殖产业发展具有重要意义。本研究通过挖掘和分析已有文献数据,旨在构建基于分类算法的生长育肥猪营养需要量预测模型,并筛选出最佳模型,以探究分类... 准确评估猪的营养需要量并实现精准营养配方,对于提高饲料资源利用效率及推动我国生猪养殖产业发展具有重要意义。本研究通过挖掘和分析已有文献数据,旨在构建基于分类算法的生长育肥猪营养需要量预测模型,并筛选出最佳模型,以探究分类算法在构建更科学合理的猪饲养标准中的可行性。从Web of Science数据库中检索近十年内有关“杜×长×大”猪能量和氨基酸需要量的文献,筛选出包含完整饲粮营养水平与生长性能数据的文献,整理形成初始数据集。将初始数据集中75%的数据划分为训练集,25%的数据划分为验证集,分别使用决策树(DT)、人工神经网络(ANN)和k-最近邻(KNN)3种机器学习算法构建分类模型。结果表明,基于KNN算法构建的分类模型在生长育肥猪营养需要量的预测上表现最佳[k=4,验证集上误分类率(MCR)=0.374]。利用KNN算法可成功构建适用于“杜×长×大”生长育肥猪营养需要量预测的分类模型,为建立更科学的猪饲养标准及精准饲喂技术提供了基础支撑。 展开更多
关键词 分类算法 生长育肥猪 营养需要量 预测模型
在线阅读 下载PDF
基于连续变化检测和分类算法的动态遥感生态指数构建 被引量:5
5
作者 张书 孙超 +2 位作者 胡茗 郑嘉豪 刘永超 《生态学报》 CAS CSCD 北大核心 2024年第2期497-510,共14页
沿海地区经济社会高速发展,是生态环境变化的焦点区域。然而,沿海地区云雨天气频发,遥感信息获取能力受限,导致遥感生态质量指数(RSEI)评价结果受成像日期变化而波动,可比性较差。针对以上问题,研究利用连续变化检测和分类(CCDC)算法构... 沿海地区经济社会高速发展,是生态环境变化的焦点区域。然而,沿海地区云雨天气频发,遥感信息获取能力受限,导致遥感生态质量指数(RSEI)评价结果受成像日期变化而波动,可比性较差。针对以上问题,研究利用连续变化检测和分类(CCDC)算法构建时间序列模型,通过合成任意时刻影像、重构遥感生态指数以及改进指数归一化方式,研发了一种动态遥感生态指数(DRSEI),细化了RSEI在区域生态质量监测的时间尺度,并应用于沿海城市宁波生态质量时空变化监测。结果表明:(1)RSEI对时间差异较为敏感,当影像年内成像时间相差逾1个月,RSEI差异可达0.147,这种差异会对长期生态质量动态监测的稳定性和准确性造成影响。(2)基于合成影像的DRSEI平均绝对偏差为0.097,接近成像时间相差半个月的RSEI差异(0.072),误差相对较小,一定程度上减小了真实影像时相差异引起的误差。(3)DRSEI能够表征任意时刻生态质量,通过年际(1986—2019年)和半月际(2019年)DRSEI分析揭示了宁波市生态质量总体下降趋势和时空异质性加剧过程。具体地,1986—2019年宁波市南部和西部森林区域的DRSEI持续上升,而近郊农田快速转化为建成区导致DRSEI不断下降。研究提出的DRSEI能够精确描述区域生态质量变化趋势,准确定位生态质量变化转折点,有望服务海岸带地区的生态质量定期监测与评估工作,支持沿海城市高质量发展与生态环境保护。 展开更多
关键词 生态质量 连续变化检测和分类算法 遥感生态指数 宁波市 动态监测 影像合成
在线阅读 下载PDF
改进遗传算法嵌入经典分类算法实现润滑油添加剂微小量多种类同步识别 被引量:2
6
作者 夏延秋 谢培元 +2 位作者 NAY MIN AUNG 张涛 冯欣 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2024年第3期744-750,共7页
在润滑油中加入微少量添加剂就能使润滑油获得某种新的特性或改善润滑油中已有的某些特性的性质。针对机械设备润滑油中微小量添加剂多种类识别问题,基于python语言进行模型建立,采用基础油PAO-10和三种商用润滑油添加剂T321、 T534、 T... 在润滑油中加入微少量添加剂就能使润滑油获得某种新的特性或改善润滑油中已有的某些特性的性质。针对机械设备润滑油中微小量添加剂多种类识别问题,基于python语言进行模型建立,采用基础油PAO-10和三种商用润滑油添加剂T321、 T534、 T307按照不同比例配制了8种不同样本。采用Thermo Scientific Nicolet iS5型傅里叶变换红外光谱仪采集了样本4 000~400 cm^(-1)范围附近的中红外光谱信息,并对样本中红外光谱数据采用Min-Max归一化进行预处理。使用两种经典分类算法,包括一对多支持向量机(OVR SVMs)、随机森林(RF),嵌入遗传算法(GA)实现中红外光谱特征波段筛选。为避免GA收敛过快和易陷入局部最优解,对GA的选择算子进行了改进,形成基于局部搜索算子的遗传算法(LGA),从而建立多类别分类模型的构建方法。结果显示:嵌入GA筛选波段后的新模型的种类识别准确率从利用经典分类算法对原始波长数据的OVR SVMs(83.33%)、 RF(87.50%)提升至OVR SVMs+GA(100%)、 RF+GA(100%);而嵌入LGA的新模型在保持原模型高准确率的情况下,RF+LGA筛选得到的特征区间长度为原光谱数据长度的36.7%,并且与添加剂物质的红外吸收峰有很好的对应情况。新模型不仅适用于只含单一添加剂的情况,对含有两种及两种以上添加剂的同步识别仍然具有近100%的较高识别率。表明所构建模型可以有效实现微小量润滑油添加剂的快速、准确、多种类同步识别。 展开更多
关键词 润滑油添加剂 中红外光谱 经典分类算法 改进遗传算法 特征波段筛选
在线阅读 下载PDF
基于GEE的洱海流域土地利用/覆被分类算法对比研究 被引量:4
7
作者 董亚坤 王钰 +3 位作者 何紫玲 王鹏 赵昊 曾维军 《西北林学院学报》 CSCD 北大核心 2024年第1期28-35,共8页
快速准确地进行复杂高原山区的土地覆被长时序自动分类,可为国土规划、资源利用提供依据。利用GEE云平台,选取Landsat影像地表反射率、植被指数、水体指数、DEM 4种空间数据集作为土地覆被分类的基础和辅助数据,分别运用CART、RF和SVM ... 快速准确地进行复杂高原山区的土地覆被长时序自动分类,可为国土规划、资源利用提供依据。利用GEE云平台,选取Landsat影像地表反射率、植被指数、水体指数、DEM 4种空间数据集作为土地覆被分类的基础和辅助数据,分别运用CART、RF和SVM 3种分类算法,实现洱海流域土地覆被信息的自动提取和精度对比。结果表明:(1)3种分类算法中,RF的总体分类精度最高,SVM的总体精度最低;RF是洱海流域LULC的最适宜分类算法。(2)采用光谱指数、地形特征等辅助数据集会进一步提高解译精度,而样本点的选取是最主要的影响因素。(3)Erhai_RF能够达到较高的精度,同时更加突出细节特征,在局部实际分类精度上会更高。研究结果可为洱海流域长时序土地覆被数据产品智能快速提取以及最优分类算法筛选提供方法和技术支撑。 展开更多
关键词 GEE 洱海流域 土地利用/覆被变化 分类算法 RF
在线阅读 下载PDF
GK模糊分类算法在GIS局部放电模式识别中的应用 被引量:14
8
作者 王辉 郑文栋 +3 位作者 黄成军 李胜国 钱勇 江秀臣 《电力系统保护与控制》 EI CSCD 北大核心 2011年第17期50-54,共5页
为了分析不同绝缘缺陷所激发的局部放电类型,在GIS内模拟了四种典型缺陷模型,根据局放信号与相位之间的关系,提取脉冲序列、幅值和相位信息,得到Hqmax~Phi、Hqmean~Phi及Hn~Phi等二维相位分布,然后利用统计参数偏斜度Sk、陡峭度Ku、... 为了分析不同绝缘缺陷所激发的局部放电类型,在GIS内模拟了四种典型缺陷模型,根据局放信号与相位之间的关系,提取脉冲序列、幅值和相位信息,得到Hqmax~Phi、Hqmean~Phi及Hn~Phi等二维相位分布,然后利用统计参数偏斜度Sk、陡峭度Ku、峰值数量Pe及互相关因数CC等获取二维分布正负半周期的特征指纹。介绍一种新型Gustafson-Kessel(GK)模糊分类方法,根据特征指纹对四种缺陷进行分类,最后根据聚类有效性分析,验证了GK分类算法与模糊C-均值(FCM)分类方法都可达到较好的分类效果。 展开更多
关键词 局部放电 GIS 模糊分类 GK分类算法 FCM分类算法
在线阅读 下载PDF
基于SVM一对一多分类算法的二次细分法研究 被引量:19
9
作者 陈中杰 蒋刚 蔡勇 《传感器与微系统》 CSCD 北大核心 2013年第4期44-47,共4页
在研究了支持向量机(SVM)多分类算法的基础之上,针对一对一多分类算法出现不可分区域问题,提出了基于SVM一对一多分类算法的二次细分方法,并将该方法应用于弹簧应力小样本数据的多分类仿真实验。通过与原始方法的仿真结果进行对比,改进... 在研究了支持向量机(SVM)多分类算法的基础之上,针对一对一多分类算法出现不可分区域问题,提出了基于SVM一对一多分类算法的二次细分方法,并将该方法应用于弹簧应力小样本数据的多分类仿真实验。通过与原始方法的仿真结果进行对比,改进方法在多花费了极短时间的前提下,显著提高了分类正确率。针对改进方法可能存在的问题,又通过10次仿真实验验证了该方法的可行性,同时也为SVM在小样本分类领域提供了新的思路。 展开更多
关键词 SVM多分类算法 一对一多分类算法 不可分区域 二次细分法 小样本分类领域
在线阅读 下载PDF
一种基于随机游走模型的多标签分类算法 被引量:59
10
作者 郑伟 王朝坤 +1 位作者 刘璋 王建民 《计算机学报》 EI CSCD 北大核心 2010年第8期1418-1426,共9页
在数据挖掘领域,传统的单分类和多分类问题已经得到了广泛的研究.但是多标签数据的普遍存在性和重要性直到近些年来才逐渐得到人们的关注.在多标签分类问题中,由于标签相关性的存在,传统的单分类和多分类问题的解决方法,无法简单地应用... 在数据挖掘领域,传统的单分类和多分类问题已经得到了广泛的研究.但是多标签数据的普遍存在性和重要性直到近些年来才逐渐得到人们的关注.在多标签分类问题中,由于标签相关性的存在,传统的单分类和多分类问题的解决方法,无法简单地应用于多标签分类问题.文中提出了一种基于随机游走模型的多标签分类算法,称为多标签随机游走算法.首先,将多标签数据映射成为多标签随机游走图.当输入一个未分类数据时,建立一个多标签随机游走图系列.而后,对图系列中的每个图应用随机游走模型,得到遍历每个顶点的概率分布,并将这个点概率分布转化成每个标签的概率分布.最后,基于多标签随机游走算法,文中给出了一种新的阈值学习算法.真实数据集上的实验表明,多标签随机游走算法可以有效地解决多标签分类问题. 展开更多
关键词 多标签 分类算法 随机游走 阈值学习
在线阅读 下载PDF
基于相关系数的加权朴素贝叶斯分类算法 被引量:32
11
作者 张明卫 王波 +1 位作者 张斌 朱志良 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第7期952-955,共4页
朴素贝叶斯分类算法的条件独立性假设在很少情况下能够满足,为了克服该问题,提出了一种基于相关系数的加权朴素贝叶斯分类模型.通过计算条件属性和决策属性之间的相关系数,对不同的条件属性赋予不同的权重,从而在保持简单性的基础上有... 朴素贝叶斯分类算法的条件独立性假设在很少情况下能够满足,为了克服该问题,提出了一种基于相关系数的加权朴素贝叶斯分类模型.通过计算条件属性和决策属性之间的相关系数,对不同的条件属性赋予不同的权重,从而在保持简单性的基础上有效地提高了朴素贝叶斯算法的分类性能.首先给出了基于相关系数的属性权值求解方法,然后描述了相应的算法,并对算法原理进行了分析与证明.通过在中医小儿肺炎病例数据集和UCI数据集上的仿真实验,验证了该方法的有效性. 展开更多
关键词 数据挖掘 分类算法 朴素贝叶斯 加权朴素贝叶斯 相关系数
在线阅读 下载PDF
一种基于欠采样的不平衡数据分类算法 被引量:21
12
作者 程险峰 李军 李雄飞 《计算机工程》 CAS CSCD 北大核心 2011年第13期147-149,共3页
针对不平衡数据学习问题,提出一种基于欠采样的分类算法。对多数类样例进行欠采样,保留位于分类边界附近的多数类样例。以AUC为优化目标,选择最恰当的邻域半径使数据达到平衡,利用欠采样后的样例训练贝叶斯分类器,并采用AUC评价分类器... 针对不平衡数据学习问题,提出一种基于欠采样的分类算法。对多数类样例进行欠采样,保留位于分类边界附近的多数类样例。以AUC为优化目标,选择最恰当的邻域半径使数据达到平衡,利用欠采样后的样例训练贝叶斯分类器,并采用AUC评价分类器性能。仿真数据及UCI数据集上的实验结果表明,该算法有效。 展开更多
关键词 机器学习 分类算法 不平衡数据 欠采样 邻域
在线阅读 下载PDF
基于极限学习机的分类算法及在故障识别中的应用 被引量:23
13
作者 裘日辉 刘康玲 +1 位作者 谭海龙 梁军 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2016年第10期1965-1972,共8页
利用极限学习机(ELM)分类器的结构特点重新设计面向多分类任务的ELM分类器,提出基于ELM的优化分类算法One-Class-PCA-ELM.该算法的实现过程如下:对故障数据进行主元分析(PCA)处理,降低数据维数,去除噪声与冗余信息;将训练数据集按类分割... 利用极限学习机(ELM)分类器的结构特点重新设计面向多分类任务的ELM分类器,提出基于ELM的优化分类算法One-Class-PCA-ELM.该算法的实现过程如下:对故障数据进行主元分析(PCA)处理,降低数据维数,去除噪声与冗余信息;将训练数据集按类分割,建立各类对应的单分类模型,整合得到One-Class-PCA-ELM分类模型;将待分类数据输入One-Class-PCA-ELM分类模型,得到待分类数据的类标号,完成分类.仿真实验结果表明,该算法保持了极限学习机极快的训练速度,具有较高的分类准确率及较理想的分类稳定性. 展开更多
关键词 极限学习机(ELM) 分类 分类算法 故障识别
在线阅读 下载PDF
文本自动分类中的词权重与分类算法 被引量:27
14
作者 刁倩 王永成 +1 位作者 张惠惠 何骥 《中文信息学报》 CSCD 北大核心 2000年第3期25-29,共5页
本文详细阐述了自动分类中的词与文献的相关权重的经典计算方法IDF(InverseDocumentFrequency) ,进一步总结了两种典型的分类算法———Bayes判别准则与向量空间模型 (VSM) ,并提出结合词权重和分类算法进行分类的具体公式以及相关实验... 本文详细阐述了自动分类中的词与文献的相关权重的经典计算方法IDF(InverseDocumentFrequency) ,进一步总结了两种典型的分类算法———Bayes判别准则与向量空间模型 (VSM) ,并提出结合词权重和分类算法进行分类的具体公式以及相关实验结果。 展开更多
关键词 自动分类 IDF 文本 词权重 分类算法 信息检索
在线阅读 下载PDF
面向流数据的决策树分类算法并行化 被引量:16
15
作者 季一木 张永潘 +2 位作者 郎贤波 张殿超 王汝传 《计算机研究与发展》 EI CSCD 北大核心 2017年第9期1945-1957,共13页
随着云计算、物联网等技术的兴起,流数据作为一种新型的大数据形态广泛存在于电信、互联网、金融等领域.与传统静态数据相比,大数据环境下的流数据具有快速、连续和随时间变化等特点.同时数据流的隐含分布变化会带来概念漂移问题.为了... 随着云计算、物联网等技术的兴起,流数据作为一种新型的大数据形态广泛存在于电信、互联网、金融等领域.与传统静态数据相比,大数据环境下的流数据具有快速、连续和随时间变化等特点.同时数据流的隐含分布变化会带来概念漂移问题.为了适应大数据环境下流数据分类算法的要求,必须对传统的静态离线数据分类算法进行改进,提出基于分布式计算平台Storm的P-HT并行化算法.算法在满足Storm流处理平台要求基础上,通过滑动窗口机制、替代子树机制和并行化处理,提高了算法的灵活性和通用性,并且能良好地适应数据流的概念漂移.最后通过实验验证该算法的有效性和高效性,结果表明在与传统C4.5算法相比精度没有降低的情况下,改进的P-HT算法具有更大的吞吐量和更快的处理速度. 展开更多
关键词 流数据 分类算法 Storm平台 滑动窗口 C4.5算法 并行化算法
在线阅读 下载PDF
支持向量机的多分类算法 被引量:33
16
作者 胡国胜 钱玲 张国红 《系统工程与电子技术》 EI CSCD 北大核心 2006年第1期127-132,共6页
系统介绍了统计学习理论(statistical learning theory,SLT)与支持向量机(support vector machine,SVM)的基本思想和算法,总结和比较了二分类和多分类两种情况下支持向量机的主要训练算法。与人工神经网络相比,分析了支持向量机算法的... 系统介绍了统计学习理论(statistical learning theory,SLT)与支持向量机(support vector machine,SVM)的基本思想和算法,总结和比较了二分类和多分类两种情况下支持向量机的主要训练算法。与人工神经网络相比,分析了支持向量机算法的优点。归纳了支持向量机在诸如模式识别、函数逼近、时间序列预测、故障预测和识别、信息安全、电力系统以及电力电子领域中的应用。最后对SVM前景作了展望。 展开更多
关键词 模式识别 电力系统 电力电子 支持向量机 分类算法
在线阅读 下载PDF
脑-机接口研究中想象动作电位的特征提取与分类算法 被引量:13
17
作者 程龙龙 明东 +3 位作者 刘双迟 朱誉环 周仲兴 万柏坤 《仪器仪表学报》 EI CAS CSCD 北大核心 2008年第8期1772-1778,共7页
人在想象但未实施肢体或其他身体部位动作时,与该动作相关的大脑运动皮层区域会发生与该动作实施时相似的电生理响应,称为想象动作电位。想象动作电位的提取与分类是脑-机接口(BCI)技术的关键和难点。本文分别介绍了想象动作电位的时频... 人在想象但未实施肢体或其他身体部位动作时,与该动作相关的大脑运动皮层区域会发生与该动作实施时相似的电生理响应,称为想象动作电位。想象动作电位的提取与分类是脑-机接口(BCI)技术的关键和难点。本文分别介绍了想象动作电位的时频分析、复杂度分析、相位耦合测量、多通道线性描述符、多维统计分析等特征提取方法和线性判别分析、人工神经网络、支持向量机等分类算法,以供BCI系统设计与研究时参考。 展开更多
关键词 脑-机接VI 想象动作电位 特征提取 分类算法
在线阅读 下载PDF
基于SparkR的分类算法并行化研究 被引量:14
18
作者 刘志强 顾荣 +1 位作者 袁春风 黄宜华 《计算机科学与探索》 CSCD 北大核心 2015年第11期1281-1294,共14页
近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为Spark R的编程接口,方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析和计算。基于Spark R设... 近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为Spark R的编程接口,方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析和计算。基于Spark R设计并实现了多种常用的并行化的机器学习分类算法,包括多项式贝叶斯分类算法、支持向量机(support vector machine,SVM)算法和Logistic Regression算法。对于SVM和Logistic Regression算法,在常规的并行化策略的基础上为了进一步提升训练速度,设计采用了并行化局部优化的迭代计算模式。实验结果表明,所设计实现的基于Spark R的并行化分类算法与Hadoop Map Reduce的方案相比,速度上提升了8倍左右。 展开更多
关键词 SparkR 分类算法 并行化 局部迭代 内存计算
在线阅读 下载PDF
大数据环境下的不确定数据流在线分类算法 被引量:9
19
作者 吕艳霞 王翠荣 +1 位作者 王聪 于长永 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第9期1245-1249,共5页
在大数据环境下,由于隐私保护、数据丢失等原因,数据普遍存在不确定性;数据流系统中数据不断地到达系统,只扫描一遍且不能一次性全部获得;所以要构建一个增量分类模型来处理不确定数据流分类.本文基于VFDT算法提出了WBVFDTu算法,该算法... 在大数据环境下,由于隐私保护、数据丢失等原因,数据普遍存在不确定性;数据流系统中数据不断地到达系统,只扫描一遍且不能一次性全部获得;所以要构建一个增量分类模型来处理不确定数据流分类.本文基于VFDT算法提出了WBVFDTu算法,该算法在学习和分类阶段都可快速而有效地分析不确定信息.在学习期间,采用Hoeffding分解定理构造决策树模型;在分类期间,在决策树的叶子节点利用加权贝叶斯分类算法提高模型的分类准确率和算法的执行效率.最终证明该算法能够非常快速地学习不确定数据流,提高分类的准确率. 展开更多
关键词 不确定数据流 加权贝叶斯 VFDT 分类算法 大数据
在线阅读 下载PDF
网络包分类算法仿真测试与比较研究 被引量:10
20
作者 王永纲 石江涛 +1 位作者 戴雪龙 颜天信 《中国科学技术大学学报》 CAS CSCD 北大核心 2004年第4期400-409,共10页
在深入分析基于树结构和计算几何学点定位算法而衍生的主要分类算法原理的基础上 ,建立了算法性能评估仿真测试平台 .平台包括网络流的软件仿真、算法的软件实现和算法性能参数测试统计三个主要部分 .通过对各算法的时间性能和空间性能... 在深入分析基于树结构和计算几何学点定位算法而衍生的主要分类算法原理的基础上 ,建立了算法性能评估仿真测试平台 .平台包括网络流的软件仿真、算法的软件实现和算法性能参数测试统计三个主要部分 .通过对各算法的时间性能和空间性能及其随分类规则数和分类域数的变化趋势的测量 ,从数量上把握各算法的主要特点及其适用性 ,从而可以将各种算法有机地结合在一起胜任速度越来越高的网络应用需求 ,同时也是进一步研究其它算法的基础 . 展开更多
关键词 分类算法 仿真测试 时间性能曲线 空间性能曲线
在线阅读 下载PDF
上一页 1 2 36 下一页 到第
使用帮助 返回顶部