期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于高斯混合模型双向聚类重采样和随机森林构建DLBCL早期复发预测模型
1
作者 王俊霞 张岩波 +9 位作者 余红梅 曹红艳 周洁 乔宇 张高源 于凯 王雪嫚 郭玉娇 赵志强 罗艳虹 《中国卫生统计》 北大核心 2025年第1期7-11,17,共6页
目的应用一种可以同时解决少数类和多数类类间和类内不平衡问题的类别不平衡处理方法,并将其与随机森林(random forest,RF)分类器结合实现对弥漫大B细胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)患者早期复发的预测,为DLBLC患者的... 目的应用一种可以同时解决少数类和多数类类间和类内不平衡问题的类别不平衡处理方法,并将其与随机森林(random forest,RF)分类器结合实现对弥漫大B细胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)患者早期复发的预测,为DLBLC患者的治疗提供参考。方法首先使用一种基于高斯混合模型双向聚类重采样的类别不平衡处理方法(Gaussian mixture model,GMM-GMM)处理数据,并与随机过采样(random over sampling,ROS)、合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)、Borderline-1 SMOTE、Borderline-2 SMOTE、GMM上采样、GMM下采样、SMOTE+RUS、SMOTE+GMM和GMM+RUS进行比较,然后以RF作为分类器验证10种类别不平衡方法的性能,之后为验证RF的性能,在处理后的数据集上使用logistic回归和决策树(decision tree,DT)作为对照,最后从区分度和校准度两方面对模型进行评价。结果在本文所有模型中,采用GMM-GMM的RF模型取得了相对最优的分类性能(accuracy=0.79,AUC=0.87,sensitivity=0.71,specificity=0.87,G-means=0.79,MSE=0.21)。结论GMM-GMM优于其他传统的重采样方法,结合RF用于DLBCL患者早期复发的预测取得了相对较好的分类结果,可以很好地实现对DLBCL患者早期复发的预测。 展开更多
关键词 别不平衡 高斯混合模型采样 随机森林 复发预测 弥漫大B细胞淋巴瘤
在线阅读 下载PDF
基于自组织映射优化k均值聚类合成少数类算法及应用
2
作者 罗博炜 谭家驹 冯纪强 《广西大学学报(自然科学版)》 北大核心 2025年第3期679-689,共11页
针对金融数据高度不平衡使信贷违约预警模型训练和评估的复杂度大大增加的特点,为了改进重采样方法,运用自组织映射(SOM)神经网络来优化k均值聚类合成少数类(k-Means-SMOTE)算法,通过自组织映射神经网络识别和分析不平衡数据集的结构特... 针对金融数据高度不平衡使信贷违约预警模型训练和评估的复杂度大大增加的特点,为了改进重采样方法,运用自组织映射(SOM)神经网络来优化k均值聚类合成少数类(k-Means-SMOTE)算法,通过自组织映射神经网络识别和分析不平衡数据集的结构特征,将高维数据有效地映射至低维空间。在此基础上,结合k-Means算法进行数据聚类,以识别少数类样本的潜在群集,从而更准确地确定过采样的焦点区域。最后运用SMOTE技术对这些焦点区域进行过采样,增加少数类样本数量的同时保持数据的原始特征分布,从而减少过拟合的风险。在Bank marketing、Credit_Fraud等多个经典的真实金融数据集上的实验证明,该方法能够通过增加聚类稳定性来提升传统过采样算法的质量,在提升模型性能的同时降低算法复杂度。 展开更多
关键词 自组织映射神经网络 算法 k均值合成少数采样方法 信贷违约预警
在线阅读 下载PDF
基于聚类混合采样与PSO-Stacking的车载CAN入侵检测方法 被引量:11
3
作者 孙扬威 戚湧 《计算机工程》 CAS CSCD 北大核心 2023年第1期138-145,共8页
随着信息技术的快速发展以及智能网联汽车的日渐普及,由网络入侵引起的车联网安全事件正在逐年增加。针对车联网中车载控制器局域网络(CAN)存在的网络攻击问题,提出一种改进的车载CAN入侵检测方法。考虑到车载CAN中数据流量较大且各类... 随着信息技术的快速发展以及智能网联汽车的日渐普及,由网络入侵引起的车联网安全事件正在逐年增加。针对车联网中车载控制器局域网络(CAN)存在的网络攻击问题,提出一种改进的车载CAN入侵检测方法。考虑到车载CAN中数据流量较大且各类别数据比例失衡,提出一种聚类混合采样方法来平衡数据,对于流量较大的数据,在聚类后进行欠采样以去除冗余,对于流量较小的数据,使用SMOTE方法合成数据。合并上述两部分数据并使用Tomek Links算法进行数据清洗。使用基于Gini系数的GBDT特征选择方法计算特征重要性,删除重要程度较低的特征以实现数据降维。在此基础上,使用粒子群优化算法对Stacking模型中的基学习器和元分类器进行调优,使用优化后的基学习器和元分类器构建Stacking模型并完成入侵检测。实验结果表明,该方法在主流车载CAN入侵数据集上的检测准确率为98.18%,优于常见的ANN、KNN、SVM、MTHIDS及MGA-DTC模型,且对DoS、Fuzzy等类别样本的检测精确度较高,漏报率较低,体现出较好的先进性和实用性。 展开更多
关键词 车联网安全 混合采样 粒子群优化算法 Stacking模型 车载CAN入侵检测 GINI系数
在线阅读 下载PDF
基于采样点聚类和切换象限划分核查小区方位角 被引量:3
4
作者 高峰 雷蕾 +4 位作者 杜日览 黎峰 徐钽 李银 左修玉 《电信科学》 北大核心 2017年第5期106-112,共7页
工参数据主要依赖于人工维护,其低准确性制约了网络规划优化工作的开展。针对工参数据中的小区方位角,通过采集网管系统的测量报告数据和切换统计数据,综合运用采样点聚类算法和切换象限划分算法,计算对应小区的模拟方位角。进一步对比... 工参数据主要依赖于人工维护,其低准确性制约了网络规划优化工作的开展。针对工参数据中的小区方位角,通过采集网管系统的测量报告数据和切换统计数据,综合运用采样点聚类算法和切换象限划分算法,计算对应小区的模拟方位角。进一步对比模拟方位角和实际方位角,发现存在的问题,从而指导工参数据更新以及工程整改。通过现网的实际验证,该研究方法取得了良好的应用效果。同样,该研究可以推广应用到工参数据的经纬度方面的核查工作中,具有较强的借鉴价值。 展开更多
关键词 工参数据整治 采样 切换象限划分 网络优化
在线阅读 下载PDF
基于分子晶体序参数与K-means聚类的TNT晶型转化有限温度弦研究 被引量:2
5
作者 常玲玲 任福德 +6 位作者 刘英哲 葛忠学 王晓磊 邱丽莉 孟子晖 王艳红 曹端林 《火炸药学报》 EI CAS CSCD 北大核心 2023年第6期545-552,I0004,共9页
为揭示炸药转晶稀有事件的分子机制,分别构建了基于键距离(即分子间距离)与键取向和分子取向的两类序参数,借助基于Euclidean距离和密度权重的K-means聚类算法进行了序参数的增强采样。结果表明,基于分子晶体序参数与K-means聚类的增强... 为揭示炸药转晶稀有事件的分子机制,分别构建了基于键距离(即分子间距离)与键取向和分子取向的两类序参数,借助基于Euclidean距离和密度权重的K-means聚类算法进行了序参数的增强采样。结果表明,基于分子晶体序参数与K-means聚类的增强采样改进了稀有事件常规有限温度弦方法,使自由能快速收敛。将该方法用于TNT晶型转化的研究,避免了分子晶体序参数“维数爆炸”,获得了平均力势面,验证了基于分子晶体序参数与K-means聚类有限温度弦方法在炸药晶型转化研究中的有效性,探明了TNT(O)与TNT(M)之间界面诱导、局部引发、多核非同步生长的晶型转变过程。 展开更多
关键词 物理化学 晶型转化 有限温度弦 K-means聚类采样 分子晶体序参数 TNT
在线阅读 下载PDF
基于失衡数据挖掘的乳腺癌早期辅助检测方法 被引量:5
6
作者 李鹏 毕婷婷 +1 位作者 于晓洋 黄久玲 《仪器仪表学报》 EI CAS CSCD 北大核心 2014年第9期2045-2052,共8页
针对乳腺癌早期X摄片人为难以甄别的问题,提出了一种新的基于失衡数据挖掘的检测方法,为计算机辅助乳腺癌早期诊断提供一套有效的解决方案。首先,提出了基于聚类簇边界采样(CBS)的方法对数据集进行重采样,通过聚类密度阈值和边界密度阈... 针对乳腺癌早期X摄片人为难以甄别的问题,提出了一种新的基于失衡数据挖掘的检测方法,为计算机辅助乳腺癌早期诊断提供一套有效的解决方案。首先,提出了基于聚类簇边界采样(CBS)的方法对数据集进行重采样,通过聚类密度阈值和边界密度阈值来更加科学、准确地确定聚类边界指导重采样。其次,引入集成学习思想有效调节数据失衡对SVM分类算法产生的影响。通过在佛罗里达大学的乳腺X摄片图像数据库中进行的对比实验表明该方法与传统方法比较,采用CBS前后的AUC值从0.577提升到0.717,再引入集成学习方法,AUC值提升到0.83。结果表明所提出的方法可以有效地检测出X摄片图像中异常的潜在钙化点,实现辅助医生提高乳腺癌早期诊断的成功率。 展开更多
关键词 计算机辅助诊断 图像数据挖掘 支持向量机 聚类采样
在线阅读 下载PDF
通信垃圾文本识别的半监督学习优化算法
7
作者 邱宁佳 沈卓睿 +1 位作者 王辉 王鹏 《计算机工程与应用》 CSCD 北大核心 2020年第17期121-128,共8页
在对非平衡通信文本使用随机下采样来提高分类器性能时,为了解决随机下采样样本发生有偏估计的问题,提出基于否定选择密度聚类的下采样算法(NSDC-DS)。利用否定选择算法的自体异常检测机制改善传统聚类,将样本中心点和待聚类样本分别作... 在对非平衡通信文本使用随机下采样来提高分类器性能时,为了解决随机下采样样本发生有偏估计的问题,提出基于否定选择密度聚类的下采样算法(NSDC-DS)。利用否定选择算法的自体异常检测机制改善传统聚类,将样本中心点和待聚类样本分别作为检测器和自体集,对两者进行异常匹配;使用否定选择密度聚类算法对样本相似性进行评估,改进传统的下采样方法,使用NBSVM分类器对采样后的通信样本进行垃圾识别;使用PCA对样本所具有的信息量进行评估,提出改进的PCA-SGD算法对模型参数进行调优,完成通信垃圾文本的半监督识别任务。为了验证改进算法的优越性,使用不平衡通信文本等多个数据集,在否定选择密度聚类、NSDC-DS算法、PCASGD与传统模型上进行对比分析。实验结果表明,改进的模型不仅具有较好的通信垃圾文本识别能力,而且具有较快和稳定的收敛速度。 展开更多
关键词 非平衡数据 垃圾文本识别 否定选择密度 基于否定选择密度的下采样算法(NSDC-DS) 基于主成分分析的随机梯度下降(PCA-SGD)算法
在线阅读 下载PDF
基于混合采样和随机森林的重过载配变识别
8
作者 李金富 姚雪梅 +2 位作者 李发春 吉云海 胡文俊 《农村电气化》 2025年第9期25-30,共6页
受节假日、人员返乡、季节等特殊时段和配网规划、运行因素的影响,配电变压器重过载较难准确预测。针对电网实际数据采集过程中正常运行和重过载配电变压器样本比例不平衡问题导致机器学习算法无法有效辨识重过载样本,提出一种基于混合... 受节假日、人员返乡、季节等特殊时段和配网规划、运行因素的影响,配电变压器重过载较难准确预测。针对电网实际数据采集过程中正常运行和重过载配电变压器样本比例不平衡问题导致机器学习算法无法有效辨识重过载样本,提出一种基于混合采样和随机森林的重过载配变辨识方法。首先,对正常运行样本进行聚类分层欠采样,对重过载配变样本进行SMOTETomek采样,缩小样本分布差距。其次,使用采样后的数据集训练随机森林模型。实验结果证明,混合采样能提高分类算法的性能。 展开更多
关键词 配电变压器 重过载 分层欠采样 SMOTETomek采样 随机森林
在线阅读 下载PDF
密集杂波环境下基于KD树优化的DBR-RANSAC目标跟踪算法 被引量:4
9
作者 孙藏安 连豪 +1 位作者 史小斌 同非 《现代雷达》 CSCD 北大核心 2021年第5期16-23,共8页
地面战场侦察雷达存在虚假目标多、真实目标难以区分等问题。为了降低复杂环境下密集杂波的影响,形成稳定航迹,并提高雷达数据处理的实时性,文中提出一种基于K维树优化的密度聚类随机采样一致性多目标跟踪算法,降低使用批处理进行航迹... 地面战场侦察雷达存在虚假目标多、真实目标难以区分等问题。为了降低复杂环境下密集杂波的影响,形成稳定航迹,并提高雷达数据处理的实时性,文中提出一种基于K维树优化的密度聚类随机采样一致性多目标跟踪算法,降低使用批处理进行航迹起始时对大量数据进行密度聚类带来的运算负担;同时,利用相控阵雷达的波位信息对数据关联过程进行优化。仿真和试验数据验证表明:文中提出的算法在密集杂波环境下可有效提高运算效率并保持较高的跟踪性能。 展开更多
关键词 密集杂波 K维树 密度随机采样一致性 航迹起始 数据关联
在线阅读 下载PDF
顾及长尾分布的机载LiDAR点云CNN语义分割 被引量:4
10
作者 陈睿星 吴军 +1 位作者 赵雪梅 徐刚 《仪器仪表学报》 EI CAS CSCD 北大核心 2023年第7期282-295,共14页
针对目前PointNet++系列网络模型倾向于牺牲尾类分割精度以保证全局分割精度这一现象,构建顾及数据长尾分布的机载LiDAR点云语义分割网络,主要涉及两方面内容,聚类最远点采样和空间自注意力机制下的局部特征学习。聚类最远点采样通过类... 针对目前PointNet++系列网络模型倾向于牺牲尾类分割精度以保证全局分割精度这一现象,构建顾及数据长尾分布的机载LiDAR点云语义分割网络,主要涉及两方面内容,聚类最远点采样和空间自注意力机制下的局部特征学习。聚类最远点采样通过类内点云最远点采样、划分区域最远点采样以及基于置信度的均值漂移(Meanshift)聚类组合策略,最大程度保留尾类样本并通过循环赋权方式使每类样本均能被网络充分学习;空间自注意力机制下的局部特征学习为结合不同空间编码方式增强采样点邻域拓扑结构的学习,以利于从稀疏样本数据中完整学习目标空间结构。公开数据集实验表明,本文网络模型整体分割精度和平均F_(1)较PointNet++分别提升6.3%和6.6%,并优于其它6种PointNet++系列网络模型及新公布的10种网络模型,具有良好的泛化性能与应用价值。 展开更多
关键词 点云语义分割 卷积神经网络 长尾分布 自注意力机制 最远点采样
在线阅读 下载PDF
DB-SMOTE及多层堆叠用于心律失常识别 被引量:2
11
作者 王波 邓科 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2021年第4期136-143,共8页
为提高心电图的识别效果,尤其是少数类疾病的识别准确率,设计了基于聚类插值过采样算法和多层堆叠模型的心律失常识别方法。由于合成少数类过采样算法忽略了少数类数据的类内不平衡性,提出了聚类插值过采样算法生成少数类边界样本。该... 为提高心电图的识别效果,尤其是少数类疾病的识别准确率,设计了基于聚类插值过采样算法和多层堆叠模型的心律失常识别方法。由于合成少数类过采样算法忽略了少数类数据的类内不平衡性,提出了聚类插值过采样算法生成少数类边界样本。该算法利用有噪空间密度聚类算法把少数类数据分为多个簇并滤去噪声样本,以各簇的边界数据为主体生成新样本,并利用t分布随机邻近嵌入算法可视化分析样本生成情况。因单一的分类器性能不能满足需求,故使用多层堆叠模型组合多个不同分类器来进行识别。多层堆叠模型分为两层:第一层基模型K近邻、极端梯度提升树和梯度提升树将特征F映射为F′,第二层逻辑回归模型识别特征F′。用MITBIH数据集进行检测,上述识别方法的分类准确率达99.66%,能较大地提升少数类样本的识别效果,因此该方法能够有效地用于心律失常识别。 展开更多
关键词 心电图 插值过采样算法 t分布随机近邻嵌入 堆叠模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部