期刊文献+
共找到563篇文章
< 1 2 29 >
每页显示 20 50 100
机载激光雷达数据与机器学习算法的森林蓄积量估测模型构建精度评价——基于KNN、XGBoost与RF模型反演算法
1
作者 潘自辉 肖正利 +5 位作者 黄光体 赵文纯 张流洋 刘晓阳 肖箫 林浩然 《湖北林业科技》 2025年第2期34-44,50,共12页
基于激光雷达系统获取数据,旨在探索建立一个适用于湖北省的混合树种蓄积量估测模型。研究区涵盖9个市州及15个县市区386个样地(小班),涉及3种森林类型(阔叶林、针叶林和针阔混交林),划分为5个植被区,分别为大别山桐柏山丘陵低山、鄂西... 基于激光雷达系统获取数据,旨在探索建立一个适用于湖北省的混合树种蓄积量估测模型。研究区涵盖9个市州及15个县市区386个样地(小班),涉及3种森林类型(阔叶林、针叶林和针阔混交林),划分为5个植被区,分别为大别山桐柏山丘陵低山、鄂西北山地丘陵、鄂东南低山丘陵、江汉平原湖泊和鄂西南山地;从点云数据中提取森林参数特征变量,结合实地调查数据,分别采用机器算法KNN、XGBoost和RF模型对森林蓄积量进行估测,采用决定系数评价模型估测精度,对估测结果进行比较分析。结果表明:(1)RF模型的估测值与实际值较为接近,精度高于KNN和XGBoost模型;(2)不同地貌区域的森林类型估测精度存在差异,表现为针叶林估测精度高于阔叶林;估测精度与林分郁闭度、林龄、起源等因子存在相关性,林分郁闭度较高时,估测精度较高;中龄、近熟林及过熟林估测精度较高,人工林的精度高于天然林;(3)蓄积量估测值精度与实测值的区间相关,实测值趋于一定低值与高值区间时,估测精度降低。通过激光雷达数据的反演结果与地面调查数据验证,反映了模型的准确度,促进林业调查与激光雷达融合运用,需进一步比较多种模型,并探索森林分布、林木结构特征、林分因子等之间影响估测精度的相关因素。 展开更多
关键词 激光雷达 森林蓄积量 模型反演 k-近邻算法 极端梯度提升 随机森林
在线阅读 下载PDF
基于K互近邻与核密度估计的DPC算法 被引量:1
2
作者 周玉 夏浩 +1 位作者 刘虹瑜 白磊 《北京航空航天大学学报》 北大核心 2025年第6期1978-1990,共13页
快速搜索和发现密度峰值聚类(DPC)算法是一种基于密度的聚类算法。该算法不需要迭代和过多的设定参数,但由于计算局部密度时没有考虑数据的局部结构,导致无法识别簇密度小的聚类中心。针对此问题,提出基于K互近邻(KN)和核密度估计(KDE)... 快速搜索和发现密度峰值聚类(DPC)算法是一种基于密度的聚类算法。该算法不需要迭代和过多的设定参数,但由于计算局部密度时没有考虑数据的局部结构,导致无法识别簇密度小的聚类中心。针对此问题,提出基于K互近邻(KN)和核密度估计(KDE)的DPC(KKDPC)算法。通过K近邻和核密度估计方法得到数据点的K互近邻数量和局部核密度;将K互近邻数量与局部核密度进行加和获得新的局部密度;根据数据点的局部密度得到相对距离,并通过构建决策图选取聚类中心及分配非中心点。利用人工数据集和真实数据集进行实验,并与DPC、基于密度的噪声空间聚类应用(DBSCAN)、K-means、模糊C均值聚类算法(FCM)、基于K近邻的DPC(DPCKNN)、近邻优化DPC(DPC-NNO)、基于模糊加权共享邻居的DPC(DPC-FWSN)算法进行对比。通过计算调整互信息(AMI)、调整兰德指数(ARI)、归一化互信息(NMI)来验证KKDPC算法的性能。实验结果表明:KKDPC算法能更加准确地识别聚类中心,有效地提高聚类精度。 展开更多
关键词 聚类算法 密度峰值 k近邻 k互近邻 核密度估计
在线阅读 下载PDF
基于密文KNN检索的室内定位隐私保护算法 被引量:3
3
作者 欧锦添 乐燕芬 施伟斌 《数据采集与处理》 CSCD 北大核心 2024年第2期456-470,共15页
在定位请求服务中,如何保护用户的位置隐私和位置服务提供商(Localization service provider,LSP)的数据隐私是关系到WiFi指纹定位应用的一个具有挑战性的问题。基于密文域的K-近邻(K-nearest neighbors,KNN)检索,本文提出了一种适用于... 在定位请求服务中,如何保护用户的位置隐私和位置服务提供商(Localization service provider,LSP)的数据隐私是关系到WiFi指纹定位应用的一个具有挑战性的问题。基于密文域的K-近邻(K-nearest neighbors,KNN)检索,本文提出了一种适用于三方的定位隐私保护算法,能有效提升对LSP指纹信息隐私的保护强度并降低计算开销。服务器和用户分别完成对指纹信息和定位请求的加密,而第三方则基于加密指纹库和加密定位请求,在隐私状态下完成对用户的位置估计。所提算法把各参考点的位置信息随机嵌入指纹,可避免恶意用户获取各参考点的具体位置;进一步利用布隆滤波器在隐藏接入点信息的情况下,第三方可完成参考点的在线匹配,实现对用户隐私状态下的粗定位,可与定位算法结合降低计算开销。在公共数据集和实验室数据集中,对两种算法的安全、开销和定位性能进行了全面的评估。与同类加密算法比较,在不降低定位精度的情况下,进一步增强了对数据隐私的保护。 展开更多
关键词 隐私保护 指纹定位 密文k-近邻检索 布隆滤波器 WIFI
在线阅读 下载PDF
KMDW和ISVDD方法在钻头磨损状态识别中的应用
4
作者 郝旺身 娄本池 +4 位作者 董辛旻 王林恒 朱春辉 陈世金 王亚坤 《重庆理工大学学报(自然科学)》 北大核心 2025年第7期179-186,共8页
为识别钻头的磨损状态,解决多分类过程中支持向量数据描述(SVDD)对混叠样本识别精度差的问题,提出一种基于结合K均值密度权重(KMDW)聚类和改进SVDD(ISVDD)的方法。采用小波包分解多尺度排列熵值(WPD-MPE)方法提取特征向量;结合KMDW和SVD... 为识别钻头的磨损状态,解决多分类过程中支持向量数据描述(SVDD)对混叠样本识别精度差的问题,提出一种基于结合K均值密度权重(KMDW)聚类和改进SVDD(ISVDD)的方法。采用小波包分解多尺度排列熵值(WPD-MPE)方法提取特征向量;结合KMDW和SVDD模型进行故障分类,对混叠样本采用K近邻隶属度值进行识别,并采用改进的蝴蝶优化算法(IBOA)优化SVDD模型参数。在标准数据集上验证所提方法的优越性,结果表明:加入K近邻隶属度值可使F值和准确率分别提升6.36%和6.59%;KMDW相比K均值聚类方法的ARI值和NMI值分别提升10.01%和10.75%,能够达到更好的聚类效果;经蝴蝶优化算法改进后模型识别精度进一步提高。将所提方法应用于钻头磨损状态的识别,识别准确率达到92.83%,证明其具有较好的识别精度和通用性。 展开更多
关键词 SVDD k均值密度权重聚类 蝴蝶优化算法 k近邻算法 钻头磨损状态识别
在线阅读 下载PDF
基于RSA模型和改进K-means算法的电商行业客户细分
5
作者 杨静 《计算机应用与软件》 北大核心 2025年第8期125-131,172,共8页
针对新兴的网络购物客户数量大、客户流动性强和消费数据多的特点,提出RSA模型结合改进的K-means聚类算法实现客户细分。采用熵值法计算RSA模型各指标的权重,综合各个属性计算客户价值。结合K近邻算法和密度峰值算法,提出一种基于K近邻... 针对新兴的网络购物客户数量大、客户流动性强和消费数据多的特点,提出RSA模型结合改进的K-means聚类算法实现客户细分。采用熵值法计算RSA模型各指标的权重,综合各个属性计算客户价值。结合K近邻算法和密度峰值算法,提出一种基于K近邻和密度峰值聚类的K-means初始聚类中心选取方法,优化传统K-means算法实现客户细分。通过选取的标准数据集和某零售公司在线交易的真实数据进行实验验证,证明了RSA模型和改进K-means算法具有更加优异的性能。 展开更多
关键词 RSA模型 客户细分 k-MEANS算法 密度峰值聚类 k近邻
在线阅读 下载PDF
基于IKNN和LOF的变压器回复电压数据清洗方法研究 被引量:3
6
作者 陈啸轩 邹阳 +3 位作者 翁祖辰 林锦茄 林昕亮 张云霄 《电子测量与仪器学报》 CSCD 北大核心 2024年第2期92-100,共9页
基于回复电压极化谱提取特征参量是目前广泛应用的变压器油纸绝缘状态评估方法,但极化谱易受工况干扰、人工失误等因素影响而出现特征数据异常的情况,严重降低评估准确性。针对上述问题,该文提出了一种基于局部离群因子(LOF)和改进K最近... 基于回复电压极化谱提取特征参量是目前广泛应用的变压器油纸绝缘状态评估方法,但极化谱易受工况干扰、人工失误等因素影响而出现特征数据异常的情况,严重降低评估准确性。针对上述问题,该文提出了一种基于局部离群因子(LOF)和改进K最近邻(IKNN)的回复电压数据清洗方法。首先,选取回复电压极化谱的回复电压极大值Urmax、初始斜率Sr与主时间常数tcdom作为老化特征参量,并基于LOF算法对非标准极化谱中的异常特征量数据进行识别与筛除。其次,利用模糊C均值(FCM)聚类算法减小噪声点对KNN算法的干扰,并通过加权欧氏距离标度突出各特征量间的关联性,进而构建出基于IKNN的数据填补模型架构以实现特征缺失数据的填补。最后,代入多组实测数据验证所提数据清洗方法的实效性。结果表明,数据清洗后的状态评估准确率相较于原有数据上升了50%左右,有效提高了变压器回复电压数据质量,为准确感知变压器运行状况奠定坚实的基础。 展开更多
关键词 油纸绝缘 特征数据清洗 局部离群因子算法 回复电压极化谱 改进k最近邻算法
在线阅读 下载PDF
基于PCA+KNN和kernal-PCA+KNN算法的废旧纺织物鉴别 被引量:2
7
作者 李宁宁 刘正东 +2 位作者 王海滨 韩熹 李文霞 《分析测试学报》 CAS CSCD 北大核心 2024年第7期1039-1045,共7页
该研究采集了15类废旧纺织物的4 998张近红外谱图,以7∶3的比例分为训练集和验证集,并分别采用主成分分析(PCA)与核主成分分析(kernal-PCA)两种不同降维方法对数据进行降维,并选用余弦相似度(cosine)核作为kernal-PCA的最佳核函数,最后... 该研究采集了15类废旧纺织物的4 998张近红外谱图,以7∶3的比例分为训练集和验证集,并分别采用主成分分析(PCA)与核主成分分析(kernal-PCA)两种不同降维方法对数据进行降维,并选用余弦相似度(cosine)核作为kernal-PCA的最佳核函数,最后分别将PCA和kernal-PCA降维处理后的数据进行k-近邻算法(KNN)训练。结果表明,kernal-PCA+KNN的模型准确率(95.17%)优于PCA+KNN模型的准确率(92.34%)。研究表明,kernal-PCA+KNN算法可以实现15类废旧纺织物识别准确率的提升,为废旧纺织物在线近红外自动分拣提供有力的技术支撑。 展开更多
关键词 废旧纺织物 主成分分析(PCA) 核主成分分析(kernel-PCA) k-近邻算法(knn) 分类识别
在线阅读 下载PDF
基于KNN-TCN模型的蒸发皿蒸发量预测研究 被引量:3
8
作者 谢育珽 郑翔天 +6 位作者 史俊才 刘萍 申文明 程文飞 李新华 杨静 邢云飞 《人民黄河》 CAS 北大核心 2024年第6期113-118,125,共7页
蒸发量的精确预测对合理开发利用水资源、旱涝变化趋势研究和农作物灌溉用水量的估算具有十分重要的意义。选取我国北方地区14个地面国际交换站观测的7项气象数据,以时间卷积网络(TCN)模型为基础模型,运用K-近邻(KNN)算法对蒸发皿蒸发... 蒸发量的精确预测对合理开发利用水资源、旱涝变化趋势研究和农作物灌溉用水量的估算具有十分重要的意义。选取我国北方地区14个地面国际交换站观测的7项气象数据,以时间卷积网络(TCN)模型为基础模型,运用K-近邻(KNN)算法对蒸发皿蒸发量的空间因素进行筛选,构建KNN-TCN蒸发皿蒸发量预测模型,并利用平均绝对误差、均方根误差和判定系数3项指标对目标站点的蒸发量预测精度进行评价。结果表明:1)KNN-TCN模型预测结果明显优于LSTM模型;2)相比基础TCN模型,KNN-TCN模型预测结果的判定系数提升了2.52%,平均绝对误差、均方根误差分别降低了23.97%、13.06%。 展开更多
关键词 蒸发皿蒸发量 时间卷积网络 k-近邻算法 空间因素
在线阅读 下载PDF
基于PCA-BOA-KNN模型的水下爆炸舰船结构破损评估 被引量:1
9
作者 梁潇帝 刘寅东 《中国舰船研究》 CSCD 北大核心 2024年第3期150-157,共8页
[目的]为解决水下爆炸作用下舰船结构破口损伤评估问题,建立一种基于PCA-BOA-KNN模型的破口预报方法。[方法]首先,分别建立五舱段和七舱段有限元模型,对21组水下爆炸工况进行爆炸仿真分析;然后,基于主成分分析(PCA)法,对加速度峰值、速... [目的]为解决水下爆炸作用下舰船结构破口损伤评估问题,建立一种基于PCA-BOA-KNN模型的破口预报方法。[方法]首先,分别建立五舱段和七舱段有限元模型,对21组水下爆炸工况进行爆炸仿真分析;然后,基于主成分分析(PCA)法,对加速度峰值、速度峰值、位移峰值、应力峰值和超压峰值进行降维处理,得到2个本征特征量;最后,将由主成分分析法得到的结果代入贝叶斯网络优化(BOA)的KNN模型,通过建立的破口预报模型,预测一组工况下舰船不同剖面处的破口情况。[结果]结果显示,通过主成分分析法提取的前2个因子的累计贡献率为85.165%,这2个因子可代表5个特征量的主要信息;基于PCA-BOAKNN模型的破口预报结果与仿真结果基本一致。[结论]所提的预报模型方法对舰船结构破口预报有效,对于不同主尺度船体结构破口预报有一定的参考价值。 展开更多
关键词 结构分析 主成分分析 knn算法 水下爆炸
在线阅读 下载PDF
基于改进KNN近邻实体的知识图谱嵌入模型 被引量:1
10
作者 刘婕 孙更新 宾晟 《复杂系统与复杂性科学》 CAS CSCD 北大核心 2024年第2期30-37,共8页
为了更好地表示邻居节点数量较少的罕见实体,提出基于近邻实体的知识图谱嵌入模型NNKGE,使用K近邻算法获得目标实体的近邻实体作为扩展信息,并在此基础上提出RNNKGE模型,使用改进的K近邻算法获得目标实体在关系上的近邻实体,通过图记忆... 为了更好地表示邻居节点数量较少的罕见实体,提出基于近邻实体的知识图谱嵌入模型NNKGE,使用K近邻算法获得目标实体的近邻实体作为扩展信息,并在此基础上提出RNNKGE模型,使用改进的K近邻算法获得目标实体在关系上的近邻实体,通过图记忆网络对其编码生成增强的实体表示。通过对公共数据集上实验结果的分析,以上两个模型在仅使用近邻节点的情况下均实现了对基准模型(CoNE)的性能超越,缓解了数据稀疏问题并改善了知识表示性能。 展开更多
关键词 知识图谱 知识图谱嵌入 邻居节点 k近邻算法 图记忆网络
在线阅读 下载PDF
改进型加权KNN算法的不平衡数据集分类 被引量:26
11
作者 王超学 潘正茂 +2 位作者 马春森 董丽丽 张涛 《计算机工程》 CAS CSCD 2012年第20期160-163,168,共5页
K最邻近(KNN)算法对不平衡数据集进行分类时分类判决总会倾向于多数类。为此,提出一种加权KNN算法GAK-KNN。定义新的权重分配模型,综合考虑类间分布不平衡及类内分布不均匀的不良影响,采用基于遗传算法的K-means算法对训练样本集进行聚... K最邻近(KNN)算法对不平衡数据集进行分类时分类判决总会倾向于多数类。为此,提出一种加权KNN算法GAK-KNN。定义新的权重分配模型,综合考虑类间分布不平衡及类内分布不均匀的不良影响,采用基于遗传算法的K-means算法对训练样本集进行聚类,按照权重分配模型计算各训练样本的权重,通过改进的KNN算法对测试样本进行分类。基于UCI数据集的大量实验结果表明,GAK-KNN算法的识别率和整体性能都优于传统KNN算法及其他改进算法。 展开更多
关键词 不平衡数据集 分类 k最邻近算法 权重分配模型 遗传算法 k-MEANS算法
在线阅读 下载PDF
基于KNN的特征自适应加权自然图像分类研究 被引量:17
12
作者 侯玉婷 彭进业 +1 位作者 郝露微 王瑞 《计算机应用研究》 CSCD 北大核心 2014年第3期957-960,共4页
针对自然图像类型广泛、结构复杂、分类精度不高的实际问题,提出了一种为自然图像不同特征自动加权值的K-近邻(K-nearest neighbors,KNN)分类方法。通过分析自然图像的不同特征对于分类结果的影响,采用基因遗传算法求得一组最优分类权... 针对自然图像类型广泛、结构复杂、分类精度不高的实际问题,提出了一种为自然图像不同特征自动加权值的K-近邻(K-nearest neighbors,KNN)分类方法。通过分析自然图像的不同特征对于分类结果的影响,采用基因遗传算法求得一组最优分类权值向量解,利用该最优权值对自然图像纹理和颜色两个特征分别进行加权,最后用自适应加权K-近邻算法实现对自然图像的分类。实验结果表明,在用户给定分类精度需求和低时间复杂度的约束下,算法能快速、高精度地进行自然图像分类。提出的自适应加权K-近邻分类方法对于门类繁多的自然图像具有普遍适用性,可以有效地提高自然图像的分类性能。 展开更多
关键词 k-近邻算法 基因算法 自然图像分类 特征加权
在线阅读 下载PDF
基于CEEMD和优化KNN的离心泵故障诊断方法 被引量:17
13
作者 杨波 黄倩 +1 位作者 付强 朱荣生 《机电工程》 CAS 北大核心 2022年第11期1502-1509,共8页
卧式离心泵实际测量中背景噪声含量较大,故障特征常被淹没,导致机械故障诊断效果较差,为了实时、精准地获得其运行状态,或对其进行故障诊断,提出了一种基于互补集合经验模态分解(CEEMD)和优化最邻近(KNN)算法的卧式离心泵机械故障诊断... 卧式离心泵实际测量中背景噪声含量较大,故障特征常被淹没,导致机械故障诊断效果较差,为了实时、精准地获得其运行状态,或对其进行故障诊断,提出了一种基于互补集合经验模态分解(CEEMD)和优化最邻近(KNN)算法的卧式离心泵机械故障诊断方法。首先,采集了卧式离心泵机械故障加速度信号,使用CEEMD对信号进行了一次分解,得到了本征模函数(IMF),采用相关系数法得到了IMF相关系数,确定了相关分量与不相关分量;其次,通过改进小波阈值去噪方法对不相关分量进行处理,提取了重构信号可分析的时频故障特征;最后,搭建了离心泵实验台,采用上述故障诊断方法对离心泵机械故障进行了分类诊断。研究结果表明:经CEEMD降噪后,信号评价指标信噪比(SNR)为2.2571,比原来的去噪方法提升了0.4381;优化后KNN分类对于卧式离心泵的机械故障诊断准确率可达96.7%,能够有效识别离心泵故障,达到智能诊断的目的。 展开更多
关键词 叶片式泵 故障信号分解 互补集合经验模态分解 改进小波阈值降噪 优化最邻近算法分类 本征模函数 相关分量/不相关分量
在线阅读 下载PDF
KNN数据挖掘算法在北京地区霾等级预报中的应用 被引量:55
14
作者 熊亚军 廖晓农 +6 位作者 李梓铭 张小玲 孙兆彬 赵秀娟 赵普生 马小会 蒲维维 《气象》 CSCD 北大核心 2015年第1期98-104,共7页
利用北京地区2013年气象数据以及PM_(2.5)浓度数据与能见度数据进行对比分析,结果发现气温、气压、相对湿度、露点温度、地面U风、地面V风以及PM_(2.5)小时浓度这7个要素是影响北京地区霾等级的关键因素。利用气温、地面气压、相对湿度... 利用北京地区2013年气象数据以及PM_(2.5)浓度数据与能见度数据进行对比分析,结果发现气温、气压、相对湿度、露点温度、地面U风、地面V风以及PM_(2.5)小时浓度这7个要素是影响北京地区霾等级的关键因素。利用气温、地面气压、相对湿度、露点温度、U风、V风分量以及PM_(2.5)浓度作为7个属性特征,以霾等级做为标志量构建训练样本集,结合KNN(KNearest Neighbor)数据挖掘算法构建疆等级预报分类器,并开展霾等级客观识别实验。结果表明K=3时该分类器的分类预报效果最佳,其13个站点的分类准确率高达88.2%。基于该算法构建的KNN模型预报无霾时的漏报概率很小,准确率高达91.8%;预报有轻度霾、中度霾以及重度霾时,空报的概率仅分别为4.7%、1.4%和2.6%。2014年8月29日至9月2日北京地区一次霾天气过程的预报结果表明:南郊观象台、密云和延庆3站的预报准确率分别达到74%、64%和84%,但霾等级的精度方面还有待于进一步提高。 展开更多
关键词 数据挖掘 knn 预报
在线阅读 下载PDF
基于主动学习和TCM-KNN方法的有指导入侵检测技术 被引量:31
15
作者 李洋 方滨兴 +1 位作者 郭莉 田志宏 《计算机学报》 EI CSCD 北大核心 2007年第8期1464-1473,共10页
有指导网络入侵检测技术是网络安全领域研究的热点和难点内容,但目前仍然存在着对建立检测模型的数据要求过高、训练数据的标记需要依赖领域专家以及因此而导致的工作量及难度过大和实用性不强等问题,而当前的研究工作很少涉及到这些问... 有指导网络入侵检测技术是网络安全领域研究的热点和难点内容,但目前仍然存在着对建立检测模型的数据要求过高、训练数据的标记需要依赖领域专家以及因此而导致的工作量及难度过大和实用性不强等问题,而当前的研究工作很少涉及到这些问题的解决办法.基于TCM-KNN数据挖掘算法,提出了一种有指导入侵检测的新方法,并且采用主动学习的方法,选择使用少量高质量的训练样本进行建模从而高效地完成入侵检测任务.实验结果表明:其相对于传统的有指导入侵检测方法,在保证较高检测率的前提下,有效地降低了误报率;在采用选择后的训练集以及进行特征选择等优化处理后,其性能没有明显的削减,因而更适用于现实的网络应用环境. 展开更多
关键词 网络安全 入侵检测 TCM-knn算法 主动学习 数据挖掘
在线阅读 下载PDF
基于文本加权KNN算法的中文垃圾短信过滤 被引量:19
16
作者 黄文明 莫阳 《计算机工程》 CAS CSCD 北大核心 2017年第3期193-199,共7页
针对K最近邻(KNN)算法在文本分类决策规则上由于样本重要性相同而导致分类效果不佳的问题,提出一种基于文本加权的KNN文本分类算法,并将其应用于垃圾短信的分类问题。在提取出特征词之后,考虑到特征词在文本中出现的频率对文本重要性的... 针对K最近邻(KNN)算法在文本分类决策规则上由于样本重要性相同而导致分类效果不佳的问题,提出一种基于文本加权的KNN文本分类算法,并将其应用于垃圾短信的分类问题。在提取出特征词之后,考虑到特征词在文本中出现的频率对文本重要性的影响,引入第1个加权公式,同时针对垃圾短信数据集,采用关联规则算法挖掘出在垃圾短信中频繁出现的共现词组,并以此引入第2个加权公式,最后将引入的2种文本权重计算公式对每个短信文本进行复合加权处理,以区分各个训练样本对于判定隶属类别的影响程度,从而在分类决策规则上作出改进。实验结果表明,与未经过文本加权的KNN算法相比,该算法对垃圾短信和正常短信在分类准确率、召回率、F1值等指标上都有较大的提升。 展开更多
关键词 垃圾过滤 关联规则 特征选择 k最近邻算法 向量空间模型
在线阅读 下载PDF
用于不均衡数据集分类的KNN算法 被引量:9
17
作者 孙晓燕 张化祥 计华 《计算机工程与应用》 CSCD 北大核心 2011年第28期143-145,236,共4页
针对KNN在处理不均衡数据集时,少数类分类精度不高的问题,提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本,若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离,... 针对KNN在处理不均衡数据集时,少数类分类精度不高的问题,提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本,若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离,则认为是有效样本,并把这类样本加入到下轮产生少数类的过程中。在UCI数据集上进行测试,实验结果表明,该方法与KNN算法中应用随机抽样相比,在提高少数类的分类精度方面取得了较好的效果。 展开更多
关键词 不均衡数据集 k最近邻居(knn)算法 过抽样 交叉算子
在线阅读 下载PDF
基于Spark框架的高效KNN中文文本分类算法 被引量:19
18
作者 于苹苹 倪建成 +2 位作者 姚彬修 李淋淋 曹博 《计算机应用》 CSCD 北大核心 2016年第12期3292-3297,共6页
针对K-最近邻(KNN)分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题,提出了一种基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-... 针对K-最近邻(KNN)分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题,提出了一种基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-medoids聚类算法对训练集进行两次裁剪;然后在分类过程中迭代K值获得分类结果,并在计算过程中结合Spark计算框架对数据进行分区迭代实现并行化。实验结果表明,在不同数据集中传统尽最近邻算法、基于K-medoids的群最近邻算法所耗费时间是所提Spark框架下的B最近邻算法的3.92-31.90倍,所提算法具有较高的计算效率,相较于Hadoop平台有较好的加速比,可有效地对大数据进行分类处理。 展开更多
关键词 k-最近邻 聚类 收缩因子 k-medoids SPARk 并行化计算
在线阅读 下载PDF
基于k-最近邻图的小样本KNN分类算法 被引量:27
19
作者 刘应东 牛惠民 《计算机工程》 CAS CSCD 北大核心 2011年第9期198-200,共3页
提出一种基于k-最近邻图的小样本KNN分类算法。通过划分k-最近邻图,形成多个相似度较高的簇,根据簇内已有标记的数据对象来标识同簇中未标记的数据对象,同时剔除原样本集中的噪声数据,从而扩展样本集,利用该新样本集对类标号未知数据对... 提出一种基于k-最近邻图的小样本KNN分类算法。通过划分k-最近邻图,形成多个相似度较高的簇,根据簇内已有标记的数据对象来标识同簇中未标记的数据对象,同时剔除原样本集中的噪声数据,从而扩展样本集,利用该新样本集对类标号未知数据对象进行类别标识。采用标准数据集进行测试,结果表明该算法在小样本情况下能够提高KNN的分类精度,减小最近邻阈值k对分类效果的影响。 展开更多
关键词 knn算法 k-最近邻图 小样本 图划分 分类算法
在线阅读 下载PDF
基于K-Medoids聚类的改进KNN文本分类算法 被引量:25
20
作者 罗贤锋 祝胜林 +1 位作者 陈泽健 袁玉强 《计算机工程与设计》 CSCD 北大核心 2014年第11期3864-3867,3937,共5页
为有效提高传统KNN算法(K最近邻算法)在海量数据的分类效率,分析传统KNN算法的分类过程,提出基于K-Medoids聚类的改进KNN算法。利用K-Medoids算法对文本训练集进行聚类,把文本训练集分成相似度较高的簇;根据待分类文本与簇的相对位置,... 为有效提高传统KNN算法(K最近邻算法)在海量数据的分类效率,分析传统KNN算法的分类过程,提出基于K-Medoids聚类的改进KNN算法。利用K-Medoids算法对文本训练集进行聚类,把文本训练集分成相似度较高的簇;根据待分类文本与簇的相对位置,对文本训练集进行裁剪,解决传统KNN算法在文本训练集过大时速度慢的问题。分析与实验结果表明,该裁剪方法能够合理有效地裁剪文本训练集,提高了KNN算法的运行效率和分类能力。 展开更多
关键词 文本分类 隶属度 k最近邻 样本裁剪 k-Medoids聚类
在线阅读 下载PDF
上一页 1 2 29 下一页 到第
使用帮助 返回顶部