期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于激光解析技术在蛋白质关联图预测问题数据集不均衡的研究
1
作者 刘君 宋志坚 《激光杂志》 北大核心 2015年第6期114-117,共4页
随着融合了激光解析等新技术的蛋白质自动测序技术发展,蛋白质序列越来越容易获得,如何通过蛋白质序列预测其结构成为重要研究问题。蛋白质关联图预测是蛋白质三级结构预测的中间步骤,是典型的数据集极度不均衡的分类问题,非关联类别数... 随着融合了激光解析等新技术的蛋白质自动测序技术发展,蛋白质序列越来越容易获得,如何通过蛋白质序列预测其结构成为重要研究问题。蛋白质关联图预测是蛋白质三级结构预测的中间步骤,是典型的数据集极度不均衡的分类问题,非关联类别数据远远多于关联类别数据。与文本分类等问题不同,蛋白质关联图预测问题的特征维数不高,因而不能从特征选择上进行数据集优化。为了有效减少多数类样本的规模,提出结合聚类的数据下采样预处理方法,使关联和非关联类别的分布趋于平衡。实验表明,支持向量机方法在优化后的蛋白质数据集可以有效实现数据分类。 展开更多
关键词 激光 蛋白质关联图预测 不均衡数据集 下采样 聚类
在线阅读 下载PDF
基于特征注意匹配CYCLEGAN的高速列车轮对轴承数据均衡化方法
2
作者 刘素艳 汪浩宁 +1 位作者 马增强 苑宗昊 《振动与冲击》 EI CSCD 北大核心 2024年第15期32-43,共12页
高速列车滚动轴承一旦发生故障就会停车检修,导致样本数据极度不平衡。数据集的不平衡性会对故障诊断结果的准确性和稳定性产生重要影响。针对该问题,提出一种基于特征注意匹配(feature attention matching, FAM)和循环生成对抗网络(cyc... 高速列车滚动轴承一旦发生故障就会停车检修,导致样本数据极度不平衡。数据集的不平衡性会对故障诊断结果的准确性和稳定性产生重要影响。针对该问题,提出一种基于特征注意匹配(feature attention matching, FAM)和循环生成对抗网络(cycle-consistent generative adversarial networks, CYCLEGAN)的轴承不平衡数据处理CYCLEGAN-FAM方法,该方法在CYCLEGAN的判别器中加入特征注意匹配模块,对从真实图像和生成图像中提取的特征进行对齐,从而提高生成样本的质量。试验表明,该方法能够生成与真实样本高度相似的生成样本,并随着不平衡数据集被逐渐平衡,故障诊断的准确率在凯斯西储大学4类和10类数据集上分别达到了99.8%和99.2%,在QPZZ-II四类和十类数据集上分别达到了99.4%和99.6%。 展开更多
关键词 生成对抗网络 特征注意力匹配(FAM) 不均衡数据集 故障诊断
在线阅读 下载PDF
密度不均衡数据分类算法 被引量:8
3
作者 杜红乐 张燕 《西华大学学报(自然科学版)》 CAS 2015年第5期16-23,74,共9页
针对不均衡数据下分类超平面偏移、少数类识别率较低的问题,提出一种基于样本密度的不均衡数据分类算法。该算法首先计算样本密度和类样本密度,依据类样本密度之间的关系确定聚类类数,然后利用K-means聚类算法对多数类样本进行聚类,用... 针对不均衡数据下分类超平面偏移、少数类识别率较低的问题,提出一种基于样本密度的不均衡数据分类算法。该算法首先计算样本密度和类样本密度,依据类样本密度之间的关系确定聚类类数,然后利用K-means聚类算法对多数类样本进行聚类,用聚类所得类中心作为样本集取代原多数类样本集,最后对新构造的训练集进行训练得到最终决策函数。其实验结果表明,该算法能够提高SVM在不均衡数据下的分类性能,尤其是少数类的分类性能。 展开更多
关键词 支持向量机 不均衡数据集 样本密度 欠取样 K-近邻
在线阅读 下载PDF
基于支持向量机的不均衡文本分类方法 被引量:8
4
作者 高超 许翰林 《现代电子技术》 北大核心 2018年第15期183-186,共4页
目前支持向量机(SVM)对均衡文本数据集进行文本分类时表现十分良好,但如果文本数据集是不均衡的,尤其是当不均衡率很大时,容易导致支持向量机分类失败。提出PSO-SMOTE混合算法,针对不均衡文本数据集问题,运用SMOTE算法生成插值样本均衡... 目前支持向量机(SVM)对均衡文本数据集进行文本分类时表现十分良好,但如果文本数据集是不均衡的,尤其是当不均衡率很大时,容易导致支持向量机分类失败。提出PSO-SMOTE混合算法,针对不均衡文本数据集问题,运用SMOTE算法生成插值样本均衡数据集,并通过PSO算法迭代进化得到最佳的插值样本,对支持向量机的文本分类能力进行优化。实验结果表明,新算法大幅优化了支持向量机分类不均衡文本数据集的能力。 展开更多
关键词 混合算法 支持向量机 不均衡数据集 插值样本 文本分类 迭代进化
在线阅读 下载PDF
基于改进的K近邻和支持向量机客户流失预测 被引量:7
5
作者 卢光跃 王航龙 +2 位作者 李创创 赵宇翔 李四维 《西安邮电大学学报》 2018年第2期1-6,共6页
将K近邻分类法和支持向量机分类法结合起来,给出一种电信客户流失预测方法,即对边界样本采用加权K近邻分类,而对非边界样本采用改进的支持向量机分类。在公开不平衡数据集和电信数据集上的实验可验证所给方法有效,且能提高少数类的检测... 将K近邻分类法和支持向量机分类法结合起来,给出一种电信客户流失预测方法,即对边界样本采用加权K近邻分类,而对非边界样本采用改进的支持向量机分类。在公开不平衡数据集和电信数据集上的实验可验证所给方法有效,且能提高少数类的检测精度和总体评价指标。 展开更多
关键词 客户流失 支持向量机 K近邻 不均衡数据集
在线阅读 下载PDF
文本分类中基于CHI改进的特征选择方法 被引量:5
6
作者 宋呈祥 陈秀宏 牛强 《微电子学与计算机》 CSCD 北大核心 2018年第9期74-78,共5页
针对传统卡方统计量(CHI)方法在全局范围内做特征选择时忽略词的频度、词的分布等问题,提出了一种改进的文本特征选择方法.该方法通过定义特征词频度分布相关性系数,选择局部出现的强相关性特征,同时考虑特征词类间分布差异性来提升不... 针对传统卡方统计量(CHI)方法在全局范围内做特征选择时忽略词的频度、词的分布等问题,提出了一种改进的文本特征选择方法.该方法通过定义特征词频度分布相关性系数,选择局部出现的强相关性特征,同时考虑特征词类间分布差异性来提升不均衡数据集的分类指标.结果表明,改进的方法不仅在分类效果上有明显的提高,而且性能更加稳定. 展开更多
关键词 文本分类 卡方统计量 特征选择 不均衡数据集
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部