期刊文献+
共找到47,880篇文章
< 1 2 250 >
每页显示 20 50 100
改进K-SMOTE随机森林算法在地震信息发布安全风险评估中的应用研究 被引量:1
1
作者 李亚龙 何琳 +2 位作者 万杰 潘丹 孙静 《地震工程学报》 北大核心 2025年第1期168-177,共10页
为有效地提高地震监测、预警、灾情评估等信息发布的安全性提出一种改进型K-SMOTE随机森林(RF)方法构建地震信息安全风险评估模型。该模型通过改进K-SMOTE算法中运用混合采样获得均衡度高的样本集,然后使用随机K折交叉验证方法进行样本... 为有效地提高地震监测、预警、灾情评估等信息发布的安全性提出一种改进型K-SMOTE随机森林(RF)方法构建地震信息安全风险评估模型。该模型通过改进K-SMOTE算法中运用混合采样获得均衡度高的样本集,然后使用随机K折交叉验证方法进行样本划分与模型优化,最终实现目标安全风险等级评估。对实际地震信息发布案例进行评测,文章所提方法构建模型评估准确率为92%,模型精确率和查全率分别为0.81和0.92,模型泛化能力强,能有效用于地震信息发布安全风险评估。本研究为完善地震信息发布安全评估体系、改进地震信息发布环境、降低安全风险提供了参考。 展开更多
关键词 地震信息发布 风险等级评估 改进K-smote 随机森林 随机K折交叉验证
在线阅读 下载PDF
基于改进K-SMOTE随机森林算法的房屋建筑抗震能力判定 被引量:1
2
作者 李亚龙 张洁 檀斌 《工程抗震与加固改造》 北大核心 2025年第1期67-78,共12页
为完善房屋建筑抗震能力评价体系,改进房屋建筑抗震能力判定方法,本文分析了房屋建筑抗震设防能力影响因素,基于故障树分析法(FTA)确定评估目标的基本原因事件,并对FTA模型中的基本原因事件进行分类归纳,构建房屋建筑抗震设防能力判定体... 为完善房屋建筑抗震能力评价体系,改进房屋建筑抗震能力判定方法,本文分析了房屋建筑抗震设防能力影响因素,基于故障树分析法(FTA)确定评估目标的基本原因事件,并对FTA模型中的基本原因事件进行分类归纳,构建房屋建筑抗震设防能力判定体系;采用基尼指数计算体系中各指标因子的权重并对指标的重要性进行分析,在对指标进行斯皮尔曼相关系数计算的基础上,结合指标重要性基于随机森林(RF)方法构建了房屋建筑抗震设防能力判定模型,以霍山县部分房屋建筑基础数据构建样本集,为提升RF模型泛化能力,避免模型过度拟合,通过改进K-SMOTE算法混合采样提高样本均衡度,使用随机K折交叉验证方法进行样本划分与模型优化,实现房屋建筑抗震设防能力等级判定。研究结果表明:(1)模型评估准确率为93.81%,模型精确率和查全率分别为0.883和0.938,模型泛化能力强;(2)选择实际房屋建筑样例,模型判定结果与实际结果一致,验证了所提方法构建模型的正确性,能有效用于房屋建筑抗震能力判定;(3)将所提方法应用霍山县乡镇区域房屋建筑抗震设防能力判定,得出霍山县城区房屋建筑抗震能力一般,乡村房屋建筑抗震能力较差。本研究可有效用于房屋建筑抗震能力判定,为改进区域抗震设防措施、降低区域震害风险提供参考。 展开更多
关键词 抗震设防判定 FTA 改进K-smote 随机森林 随机K折交叉验证
在线阅读 下载PDF
基于SMOTE+ENN的煤矿安全隐患文本分类研究
3
作者 罗海平 曾向阳 陈勇 《中国矿业》 北大核心 2025年第1期116-125,共10页
在深度学习分类技术辅助煤矿安全隐患文本数据分析的研究中,行业真实数据的封闭性和风险类别分布不均衡性导致模型分类性能较差,影响企业对各类风险点进行有效的安全管理决策。为克服这类问题,本文提出将合成少数类过采样技术(Synthetic... 在深度学习分类技术辅助煤矿安全隐患文本数据分析的研究中,行业真实数据的封闭性和风险类别分布不均衡性导致模型分类性能较差,影响企业对各类风险点进行有效的安全管理决策。为克服这类问题,本文提出将合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)与编辑最近邻规则欠采样技术(Edited Nearest Neighbor,ENN)相结合的混合采样方法,并基于卷积神经网络(Convolutional Neural Network,CNN)对安全隐患文本输出类别预测结果。以安全文库网中某煤业安全风险清单共计4539条数据为例,首先,对安全隐患文本进行清洗、分词及向量化,采用SMOTE算法对小类别数据集进行插值样本生成,平衡各类样本之间数量分布差异;然后,利用ENN算法对生成的合成样本进行欠采样,剔除异常和噪声样本;最后,采用基于CNN的分类器对抽样后安全隐患文本进行建模和预测。实验结果表明,该方法相较于传统基准采样方法在准确率上提升了4%~8%,在F-Measure上提升了4%~7%,证明该方法在处理多类别不平衡煤矿安全隐患文本分类问题上的有效性和可行性,在煤矿安全管理和隐患预警等方面具有重要意义和实际应用价值。 展开更多
关键词 深度学习 smote ENN CNN 煤矿安全隐患 安全管理
在线阅读 下载PDF
基于SMOTE辅助分区误差控制的随机森林土壤重金属含量预测模型 被引量:1
4
作者 陈敏 董泽馨 +3 位作者 秦莉 张晨晨 张彦儒 孙思佳 《农业资源与环境学报》 北大核心 2025年第3期580-591,共12页
土壤中重金属空间分布的准确预测是制定科学合理的土地利用规划以及构建有效风险管理措施的关键环节。本研究旨在探索一种结合合成少数类过采样技术(SMOTE)和分区误差控制混合策略的随机森林(RF)模型,利用长株潭(长沙市、株洲市和湘潭市... 土壤中重金属空间分布的准确预测是制定科学合理的土地利用规划以及构建有效风险管理措施的关键环节。本研究旨在探索一种结合合成少数类过采样技术(SMOTE)和分区误差控制混合策略的随机森林(RF)模型,利用长株潭(长沙市、株洲市和湘潭市)区域8种重金属元素(As、Cd、Cr、Cu、Hg、Ni、Pb和Zn)及29项环境辅助变量数据,开展区域土壤重金属空间预测精度比较研究。将本研究构建的模型与全区及分区随机森林建模方法进行了比较分析,同时,也与三种经典地统计学方法——普通克里金(OK)、协同克里金(CK)和反距离加权法(IDW)进行了对比。结果表明:相较于全区建模方法,本研究构建的模型在预测Cd、Cr、Hg、Ni、Pb和Zn 6种重金属含量的R^(2)值提升了15.87%~35.39%;与分区建模方法相比,所有8种重金属的预测精度也有了显著提高,R^(2)值的增幅为3.03%~66.86%。与地统计学方法比较,本模型在Cd、Cr、Hg、Pb和Zn 5种重金属预测中表现出优越性,与OK、CK和IDW法相比,R^(2)值分别提升了2.45%~13.80%、15.09%~89.95%、1.57%~102.91%。本研究探索的混合策略模型显著提高了长株潭区域土壤中8种重金属元素的预测准确度,表明SMOTE技术和分区误差控制策略的结合应用在环境科学领域内有巨大潜力。该模型不仅在预测精度上超越了传统模型和方法,还为环境监测和管理提供了一种有效的新工具。 展开更多
关键词 土壤重金属预测 随机森林 smote过采样 普通克里金 协同克里金 反距离加权
在线阅读 下载PDF
基于局部合力改进的Borderline-SMOTE过采样方法
5
作者 吕峰 宋媚 +2 位作者 赵礼 祝义 李赫男 《南京师大学报(自然科学版)》 北大核心 2025年第5期93-103,共11页
数据分类是保障大数据分析有效进行的关键环节,解决数据分类中的类别不平衡成为当前研究的热点.过采样技术凭借其简洁性、有效性等特点,成为处理类不平衡问题的主要途径之一.现有的过采样技术在处理不平衡数据中类重叠时缺乏合理的采样... 数据分类是保障大数据分析有效进行的关键环节,解决数据分类中的类别不平衡成为当前研究的热点.过采样技术凭借其简洁性、有效性等特点,成为处理类不平衡问题的主要途径之一.现有的过采样技术在处理不平衡数据中类重叠时缺乏合理的采样策略,导致机器学习模型预测时出现过拟合.因此,本文提出一种基于局部合力改进的Borderline-SMOTE过采样方法(IBSLG).首先,根据少数类样本最近邻分布构建边界区域;其次,基于局部合力计算边界区域内样本的集中度,根据集中度将样本划分为低概率/高概率边界样本;然后,基于两类边界样本分布,计算缩放因子构建新边界区域;最后,基于类不平衡比,对新边界区域自适应生成新样本.通过IBSLG与6种采样方法在4种分类器、8个不平衡数据集上进行对比实验,结果表明,IBSLG在大部分数据集上取得了最优的F1、G-mean、AUC和Friedman排名,并在大部分分类器上取得了最高的平均次优率,说明所提方法的有效性. 展开更多
关键词 不平衡数据 过拟合 类重叠 过采样 Borderline-smote 局部合力
在线阅读 下载PDF
Enhanced Ion Sampling Techniques for In-situ Neutral Gas and Low-energy Ions Exploration of Main-belt Comet
6
作者 WANG Xinyue ZHANG Aibing +4 位作者 SU Bin DU Dan KONG Linggao TIAN Zheng ZHENG Xiangzhi 《空间科学学报》 北大核心 2025年第3期749-760,共12页
One of the detection objectives of the Chinese Asteroid Exploration mission is to investigate the space environment near the Main-belt Comet(MBC,Active Asteroid)311P/PANSTARRS.This paper outlines the scientific object... One of the detection objectives of the Chinese Asteroid Exploration mission is to investigate the space environment near the Main-belt Comet(MBC,Active Asteroid)311P/PANSTARRS.This paper outlines the scientific objectives,measurement targets,and measurement requirements for the proposed Gas and Ion Analyzer(GIA).The GIA is designed for in-situ mass spectrometry of neutral gases and low-energy ions,such as hydrogen,carbon,and oxygen,in the vicinity of 311P.Ion sampling techniques are essential for the GIA's Time-of-Flight(TOF)mass analysis capabilities.In this paper,we present an enhanced ion sampling technique through the development of an ion attraction model and an ion source model.The ion attraction model demonstrates that adjusting attraction grid voltage can enhance the detection efficiency of low-energy ions and mitigate the repulsive force of ions during sampling,which is influenced by the satellite's surface positive charging.The ion source model simulates the processes of gas ionization and ion multiplication.Simulation results indicate that the GIA can achieve a lower pressure limit below 10-13Pa and possess a dynamic range exceeding 10~9.These performances ensure the generation of ions with stable and consistent current,which is crucial for high-resolution and broad dynamic range mass spectrometer analysis.Preliminary testing experiments have verified GIA's capability to detect gas compositions such as H2O and N2.In-situ measurements near 311P using GIA are expected to significantly contribute to our understanding of asteroid activity mechanisms,the evolution of the atmospheric and ionized environments of main-belt comets,the interactions with solar wind,and the origin of Earth's water. 展开更多
关键词 neutral gas low energy ions sampling techniques ion sampling techniques investigate space environment main belt comet gas ion analyzer gia situ measurement
在线阅读 下载PDF
基于改进SMOTE的非平衡数据集分类研究 被引量:19
7
作者 王超学 潘正茂 +2 位作者 董丽丽 马春森 张星 《计算机工程与应用》 CSCD 2013年第2期184-187,245,共5页
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少... 针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。 展开更多
关键词 非平衡数据集 分类 支持度 轮盘赌选择 合成少数过采样技术(smote)
在线阅读 下载PDF
基于SVM SMOTE的电力变压器故障样本均衡化方法 被引量:62
8
作者 刘云鹏 和家慧 +3 位作者 许自强 王权 李哲 高树国 《高电压技术》 EI CAS CSCD 北大核心 2020年第7期2522-2529,共8页
在变压器故障诊断领域,数据集不平衡性带来的极端值、噪声等问题严重影响了分类算法的故障识别能力。为此,提出了一种基于支持向量机(supportvectormachine,SVM)合成少数类过采样(syntheticminority over-samplingtechnique,SMOTE)算法... 在变压器故障诊断领域,数据集不平衡性带来的极端值、噪声等问题严重影响了分类算法的故障识别能力。为此,提出了一种基于支持向量机(supportvectormachine,SVM)合成少数类过采样(syntheticminority over-samplingtechnique,SMOTE)算法的电力变压器故障样本均衡化方法,并结合机器学习进行故障诊断,以解决不平衡数据集下变压器故障诊断整体精度低的问题。首先,从原理、特点、应用等方面对传统SMOTE算法和SVM SMOTE算法进行了大量研究和分析;然后,以变压器油中溶解气体为样本集,构建了基于故障样本均衡化的变压器故障诊断模型;最后,对所提方法进行了算例仿真。结果显示:相较于传统变压器故障诊断算法,采用SVMSMOTE算法对故障样本进行均衡化后,各评价指标均有大幅提升,其中整体分类准确度αmacro-F1提升了18.9%。研究结果证明所提方法可以有效解决不平衡数据集下变压器故障样本漏判率高的问题,并在其分类上具有更高的精度。 展开更多
关键词 变压器 SVM smote 样本均衡化 油中气体分析 评价指标 故障诊断
在线阅读 下载PDF
基于改进SMOTE的不平衡数据挖掘方法研究 被引量:31
9
作者 杨智明 乔立岩 彭喜元 《电子学报》 EI CAS CSCD 北大核心 2007年第B12期22-26,共5页
少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题,但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调... 少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题,但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调整SMOTE方法中近邻选择策略,控制合成样本的质量.算法分析和仿真结果表明,文中提出的方法在不影响计算复杂度的前提下,有效地提高了分类算法的整体分类准确率。 展开更多
关键词 不平衡数据集 少类样本合成过采样技术 自适应smote 合成样本 近邻选择策略
在线阅读 下载PDF
改进SMOTE的非平衡数据集分类算法研究 被引量:28
10
作者 赵清华 张艺豪 +1 位作者 马建芬 段倩倩 《计算机工程与应用》 CSCD 北大核心 2018年第18期168-173,共6页
针对随机森林和SMOTE组合算法在处理不平衡数据集上存在数据集边缘化分布以及计算复杂度大等问题,提出了基于SMOTE的改进算法TSMOTE(triangle SMOTE)和MDSMOTE(Max Distance SMOTE),其核心思想是将新样本的产生限制在一定区域,使得样本... 针对随机森林和SMOTE组合算法在处理不平衡数据集上存在数据集边缘化分布以及计算复杂度大等问题,提出了基于SMOTE的改进算法TSMOTE(triangle SMOTE)和MDSMOTE(Max Distance SMOTE),其核心思想是将新样本的产生限制在一定区域,使得样本集分布趋于中心化,用更少的正类样本点人为构造样本,从而达到限制样本区域、降低算法复杂度的目的。在6种不平衡数据集上的大量实验表明,改进算法与传统算法相比,算法消耗时间大幅减少,取得更高的G-mean值、F-value值和AUC值。 展开更多
关键词 随机森林 smote算法 不平衡数据集
在线阅读 下载PDF
面向不平衡数据集的改进型SMOTE算法 被引量:26
11
作者 王超学 张涛 马春森 《计算机科学与探索》 CSCD 2014年第6期727-734,共8页
针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使... 针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使用交叉、变异算子实现对合成样本质量的控制。结合GA-SMOTE与SVM(support vector machine)算法来处理不平衡数据的分类问题。UCI数据集上的大量实验表明,GA-SMOTE在新样本的整体合成效果上表现出色,有效提高了SVM在不平衡数据集上的分类性能。 展开更多
关键词 不平衡数据集 分类 遗传算子 少数类样本合成过采样技术(smote) SYNTHETIC MINORITY OVER-SAMPLING technique (smote)
在线阅读 下载PDF
基于SMOTE算法和决策树的绝经后骨质疏松性骨折分类模型建构 被引量:14
12
作者 章轶立 魏戌 +4 位作者 聂佩芸 申浩 虞鲲 康树 谢雁鸣 《中国骨质疏松杂志》 CAS CSCD 北大核心 2019年第1期1-5,共5页
目的构建符合北京、上海两地40~65岁女性人口学特征的危险因素和中医症状相结合的骨质疏松性骨折早期风险预测工具。方法本研究采用注册登记式研究的方法 ,于2009年3-8月在北京市东城区及上海市徐汇区收集的1 823例40~65岁女性骨质疏... 目的构建符合北京、上海两地40~65岁女性人口学特征的危险因素和中医症状相结合的骨质疏松性骨折早期风险预测工具。方法本研究采用注册登记式研究的方法 ,于2009年3-8月在北京市东城区及上海市徐汇区收集的1 823例40~65岁女性骨质疏松症高危人群的危险因素及中医症状信息,进行连续3年的登记观察。采用SMOTE过抽样算法平衡数据,基于决策树模型筛选与骨质疏松症骨折有关的危险因素及中医症状,并建立骨质疏松性骨折风险评估工具。结果本研究选择C4.5算法作为预测模型建立工具。首先筛选出对绝经后骨质疏松性骨折高危患者发生脆性骨折的危险因素,然后建立预测模型。由于样本量较小,在节点的设置中采用交叉验证,Mode选用Expert,修剪纯度设为75,采用全局修剪。根据此生长和修剪规则,所建立分类树模型共包括5层,共19个结点,共筛选出6个解释变量。各指标按重要程度从大到小依次为骨密度、目眩、肉类、生产次数、视物模糊和乏力。经过逐层各影响因素的分类,最终骨折人群比例占13%。对该预测模型预测概率绘制受试者工作特征曲线,结果显示曲线下面积为0.871(95%CI=0.8226-0.9211)。结论初步建立了基于北京、上海人口学特征40~65岁女性骨质疏松性骨折分类模型。 展开更多
关键词 骨质疏松性骨折 风险评估 smote过抽样 决策树模型
在线阅读 下载PDF
SMOTE和Biased-SVM相结合的不平衡数据分类方法 被引量:16
13
作者 王和勇 樊泓坤 姚正安 《计算机科学》 CSCD 北大核心 2008年第5期174-176,共3页
针对不平衡数据集的分类问题,本文利用支持向量机推广能力强的优良特性,提出了SMOTE(Synthetic Minority Over-sampling Technique,SMOTE)和Biased-SVM(Biased Support Vector Machine,Biased-SVM)相结合的方法。该方法首先对原始数据使... 针对不平衡数据集的分类问题,本文利用支持向量机推广能力强的优良特性,提出了SMOTE(Synthetic Minority Over-sampling Technique,SMOTE)和Biased-SVM(Biased Support Vector Machine,Biased-SVM)相结合的方法。该方法首先对原始数据使用Biased-SVM方法,然后对求出的支持向量使用SMOTE向上采样方法进行采样,最后再使用Biased-SVM方法进行分类。实验结果表明,本文采用的SMOTE和Biased-SVM相结合的方法可提高不平衡数据集分类精度。 展开更多
关键词 机器学习 不平衡数据 数据分类 smote Biased-SVM
在线阅读 下载PDF
基于SMOTE和决策树算法的电力变压器状态评估知识获取方法 被引量:46
14
作者 谢桦 陈俊星 +2 位作者 赵宇明 丁庆 张沛 《电力自动化设备》 EI CSCD 北大核心 2020年第2期137-142,共6页
提出基于合成少数过采样技术(SMOTE)算法和决策树算法的电力变压器状态评估知识获取方法,首先针对变压器非正常状态样本数量较少的情况,采用SMOTE算法补充非正常状态样本数量,解决了变压器样本集类别不平衡问题。然后将变压器状态评估... 提出基于合成少数过采样技术(SMOTE)算法和决策树算法的电力变压器状态评估知识获取方法,首先针对变压器非正常状态样本数量较少的情况,采用SMOTE算法补充非正常状态样本数量,解决了变压器样本集类别不平衡问题。然后将变压器状态评估过程视为分类过程,利用决策树模型为白箱模型的特点,将变压器状态评估知识获取问题转化为构建决策树的问题。最后采用C4.5决策树算法构建决策树,从中提取变压器状态评估知识,得到关键变压器状态量和评估规则。以某地市级供电公司110 kV电压等级油浸式变压器实际数据开展实例分析,结果表明所提出的方法能实现状态评估知识的自动化获取,可以为该地区110 kV油浸式变压器的状态评估工作提供决策支持。 展开更多
关键词 电力变压器 知识获取 决策树算法 smote 数据挖掘
在线阅读 下载PDF
基于CPD-SMOTE的类不平衡数据分类算法研究 被引量:7
15
作者 彭如香 杨涛 +2 位作者 孔华锋 姜国庆 凡友荣 《计算机应用与软件》 北大核心 2018年第12期259-262,268,共5页
类不平衡现象普遍存在于不同应用领域中,如金融欺诈、网络入侵、垃圾邮件过滤、医学检测,直接采用传统的学习分类算法,分类准确率较低。针对类不平衡情况对分类器的影响,基于传统过采样算法SMOTE(Synthetic Minority Oversampling Techn... 类不平衡现象普遍存在于不同应用领域中,如金融欺诈、网络入侵、垃圾邮件过滤、医学检测,直接采用传统的学习分类算法,分类准确率较低。针对类不平衡情况对分类器的影响,基于传统过采样算法SMOTE(Synthetic Minority Oversampling Technique)算法处理类不平衡的有效性,致力进一步提升SMOTE算法性能,提出一种面向类不平衡数据集分类的改进型SMOTE算法——CPD-SMOTE算法。通过考虑训练集小样本的特征、位置及其周围样本分布,来确定小样本的强相关邻居集,以此作为SMOTE最近邻居集,产生新的小样本。实验结果表明,CPD-SMOTE算法在处理不平衡数据集上相比SMOTE、Borderline-SMOTE、ADASYN、LN-SMOTE等算法有所提高。 展开更多
关键词 smote 类不平衡 分类算法
在线阅读 下载PDF
构造性覆盖算法的SMOTE过采样方法 被引量:11
16
作者 严远亭 朱原玮 +2 位作者 吴增宝 张以文 张燕平 《计算机科学与探索》 CSCD 北大核心 2020年第6期975-984,共10页
如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数... 如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数类样本进行过采样仍然是一个值得研究的问题。此外,被孤立的少数样本在提高模型性能方面的潜在能力也没有得到足够的重视。针对上述问题,提出了基于构造性覆盖算法(CCA)的过采样技术CMOTE。CMOTE提供了两种不同策略下选择关键样本的方法:基于覆盖内样本个数的方法与基于覆盖密度的方法。在12个典型的不平衡数据集上验证CMOTE算法的性能。实验结果表明,CMOTE算法在总体上优于对比方法,并且通过强化关键样本对模型性能的影响增强了模型的泛化能力。 展开更多
关键词 不平衡数据 过采样技术 合成少数类过采样技术(smote) 构造性覆盖算法(CCA)
在线阅读 下载PDF
基于SMOTE算法的颅脑损伤患者继发精神障碍预警模型 被引量:8
17
作者 孙秀彬 辛涛 +1 位作者 薛付忠 庞琦 《中国卫生统计》 CSCD 北大核心 2013年第6期790-793,共4页
目的分析颅脑损伤患者继发精神障碍的影响因素,同时考虑病例和非病例间数量不平衡的特点,构建基于SMOTE算法的logistic预警模型。方法根据2008年山东省18家医院的颅脑损伤患者继发精神障碍的数据,利用logistic回归分析筛选影响因素并建... 目的分析颅脑损伤患者继发精神障碍的影响因素,同时考虑病例和非病例间数量不平衡的特点,构建基于SMOTE算法的logistic预警模型。方法根据2008年山东省18家医院的颅脑损伤患者继发精神障碍的数据,利用logistic回归分析筛选影响因素并建立基于原始数据的预警模型;在此基础上,采用SMOTE过抽样算法改进数据集,并构建基于改进数据集的精神障碍预警模型。结果额叶脑挫伤、弥漫性轴索损伤、并发颅内感染、颞叶硬膜下血肿、颅盖骨线性骨折、颅内积气、患者性别和颅脑损伤严重程度(GCS评分)均为颅脑损伤患者发生精神障碍的危险因素;而基于SMOTE过抽样算法所构建预警模型的预测效果明显优于利用原始数据所建模型的效果。结论基于SMOTE过抽样算法所构建的预警模型能更准确预测颅脑损伤患者继发的精神障碍。 展开更多
关键词 smote算法 过抽样 颅脑损伤精神障碍
在线阅读 下载PDF
基于改进Smote-GBDT算法的岩爆预测模型 被引量:9
18
作者 宋英华 江晨 +1 位作者 李墨潇 齐石 《中国安全科学学报》 CAS CSCD 北大核心 2023年第9期25-32,共8页
为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))... 为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))8个指标,建立岩爆预测指标体系;其次,针对岩爆样本存在的数据不均衡问题,引进托梅克联系(Tomek Link)对欠采样方法,改进合成少数类过采样(Smote)算法,对岩爆训练样本进行混合过采样;最后,构建SmoteTomek-梯度提升树(GBDT)岩爆预测模型,以38组数据验证模型的有效性,并与其他模型进行对比。结果表明:SmoteTomek-GBDT的准确率为92.1%,较未采样提升5.3%,Smote采样提升10.5%,优于随机过采样模型,并且避免跨等级的岩爆误判。 展开更多
关键词 岩爆预测 梯度提升树(GBDT)算法 合成少数类过采样(smote)算法 岩爆指标 托梅克联系(Tomek Link)
在线阅读 下载PDF
基于分形SMOTE重采样集成算法圈定区域化探异常 被引量:4
19
作者 李江 金辉 刘伟 《计算机应用研究》 CSCD 北大核心 2012年第10期3744-3747,共4页
基于分形自相似性理论改进SMOTE算法,实现数据集的均衡化。结合集成学习Adaboost技术更新样本权值,改善非均衡数据的分类性能,并对云南个旧锡铜多金属矿床进行了仿真实验,结果表明新算法预测结果能较好地检测成矿异常,为成矿预测与评价... 基于分形自相似性理论改进SMOTE算法,实现数据集的均衡化。结合集成学习Adaboost技术更新样本权值,改善非均衡数据的分类性能,并对云南个旧锡铜多金属矿床进行了仿真实验,结果表明新算法预测结果能较好地检测成矿异常,为成矿预测与评价提供新的解决途径。 展开更多
关键词 化探异常 不均衡数据 smote 分形 集成学习 Adaboost
在线阅读 下载PDF
一种改进的基于欧氏距离的SDRSMOTE算法 被引量:14
20
作者 李克文 林亚林 杨耀忠 《计算机工程与科学》 CSCD 北大核心 2019年第11期2063-2070,共8页
SMOTE算法可以扩充少数类样本,提高不平衡数据集中少数类的分类能力,但是它在扩充少数类样本时对于边界样本的选择以及随机数的取值具有盲目性。针对此问题,将传统的SMOTE过采样算法进行改进,改进后的过采样算法定义为SDRSMOTE,该算法... SMOTE算法可以扩充少数类样本,提高不平衡数据集中少数类的分类能力,但是它在扩充少数类样本时对于边界样本的选择以及随机数的取值具有盲目性。针对此问题,将传统的SMOTE过采样算法进行改进,改进后的过采样算法定义为SDRSMOTE,该算法综合考虑不平衡数据集中全部样本的分布状况,通过融合支持度sd和影响因素posFac来指导少数类样本的合成。在WEKA平台上分别使用SMOTE、SDRSMOTE算法对所选用的6个不平衡数据集进行过采样数据预处理,然后使用决策树、AdaBoost、Bagging和朴素贝叶斯分类器对预处理后的数据集进行预测,选择F-value、G-mean和AUC作为分类性能的评价指标,实验表明SDRSMOTE算法预处理的不平衡数据集的分类效果更好,证明了该算法的有效性。 展开更多
关键词 不平衡数据集 分类 边界样本 支持度 影响因素 欧氏距离 smote
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部