-
题名基于TCGA数据库不平衡数据的改进分类方法
被引量:2
- 1
-
-
作者
侯维岩
刘超
宋杨
孙燚
-
机构
郑州大学信息工程学院
上海大学机械自动化学院
-
出处
《安徽大学学报(自然科学版)》
CAS
北大核心
2020年第1期37-43,共7页
-
基金
国家自然科学基金资助项目(61573237)。
-
文摘
为解决癌症基因组图谱中DNA甲基化数据不平衡导致假阴率上升的问题,提出一种基于TCGA数据库不平衡数据的改进分类方法.使用合成少数类过采样技术和Tomek Link算法进行混合采样,解决数据不平衡问题.在此基础上,将经特征选择后的训练集数据输入改进模型进行训练、学习及分类.基于TCGA数据库6种癌症DNA甲基化数据的实验结果表明:改进方法对少数类样本的分类性能有显著提高,对多数类样本的分类性能也有一定的提升.
-
关键词
DNA甲基化
数据不平衡
TCGA
tomek
link算法
-
Keywords
DNA methylation
data imbalance
TCGA
tomek link algorithm
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于深度森林和DNA甲基化的癌症分类研究
被引量:8
- 2
-
-
作者
刘超
吴申
郑一超
侯维岩
-
机构
郑州大学信息工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2020年第13期189-193,共5页
-
基金
国家自然科学基金(No.81602961)。
-
文摘
作为人类基因组重要的表观遗传现象,DNA甲基化对基因的表达发挥着重要的调控作用,与癌症的关系密切。针对癌症基因组图谱(TCGA)庞大数据的类不平衡和高维度,致使假阴率大幅增加的问题,提出了一种混合采样的不平衡数据集成分类算法,使用合成少数过采样(SMOTE)算法生成新的少数类样本,得到扩充后的数据集,通过Tomek Link算法剔除样本扩充过程中引入的噪声,得到相对平衡的数据集。在此基础上,利用深度森林(gcForest)算法的级联森林结构,每一层选取两种随机森林结构,以增强模型的泛化能力,得到最终的分类模型。对6种癌症的DNA甲基化数据实验表明混合采样的不平衡数据集成分类算法在保证多数类分类精度的前提下,有效地提高了对于少数类的灵敏度。
-
关键词
DNA甲基化
癌症基因组图谱(TCGA)
合成少数类采样技术(SMOTE)
tomek
link算法
gcForest算法
-
Keywords
DNA methylation
The Cancer Genome Atlas(TCGA)
Synthetic Minority Oversampling Technique(SMOTE)
tomek link algorithm
gcForest algorithm
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于CNN与BiGRU融合神经网络的入侵检测模型
被引量:31
- 3
-
-
作者
张安琳
张启坤
黄道颖
刘江豪
李建春
陈孝文
-
机构
郑州轻工业大学工程训练中心
郑州轻工业大学计算机与通信工程学院
-
出处
《郑州大学学报(工学版)》
CAS
北大核心
2022年第3期37-43,共7页
-
基金
国家自然科学基金资助项目(61772477)。
-
文摘
针对深度学习入侵检测中出现的数据类不平衡及特征学习不全面等问题,提出了一种基于卷积神经网络(CNN)与双向门控循环单元(BiGRU)融合的神经网络入侵检测模型。通过SMOTE-Tomek算法完成对数据集的平衡处理,使用基于平均不纯度减少的特征重要性算法实现特征选择,将CNN和BiGRU模型进行特征融合并引入注意力机制进行特征提取,从而提高模型的总体检测性能。使用入侵检测数据集CSE-CIC-IDS2018进行多分类实验,并与经典单一深度学习模型进行对比。实验结果表明:在数据集平衡方面,经SMOTE-Tomek算法处理,DoS attacks-Slow HTTP Test识别准确率从0提升至34.66%,SQL Injection识别准确率从0提升至100%,DDoS attack-LOIC-UDP、Brute Force-Web和Brute Force-XSS分别提升了5.22百分点、6.55百分点和35.71百分点,证明了平衡后的数据集较未经过处理的数据集在少数类的识别精度上提升明显。在模型的总体检测性能方面,在多分类实验对比中,所提模型总的分类精确率、召回率以及F1值均高于其他几种单一神经网络模型。其中各攻击流量类别的总评精确率比LSTM模型提升了2.10百分点;总评召回率比LSTM模型提升了1.50百分点;总评F1值比GRU模型提升了1.97百分点,从而证明了该模型具有更好的检测效果。
-
关键词
入侵检测
卷积神经网络
双向门控循环单元
SMOTE算法
tomek
links算法
-
Keywords
intrusion detection
convolutional neural networks
bidirectional gated recurrent unit
synthetic minority over-sampling technique algorithm
tomek links algorithm
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—控制理论与控制工程]
-