基于统计相关性与K-means的区分基因子集选择算法被引量：56

Statistical Correlation and K-Means Based Distinguishable Gene Subset Selection Algorithms

在线阅读下载PDF

导出

摘要针对高维小样本癌症基因数据集的有效区分基因子集选择难题,提出基于统计相关性和K-means的新颖混合基因选择算法实现有效区分基因子集选择.算法首先采用Pearson相关系数和Wilcoxon秩和检验计算各基因与类标的相关性,根据统计相关性原则选取与类标相关性较大的若干基因构成预选择基因子集;然后,采用K-means算法将预选择基因子集中高度相关的基因聚集到同一类簇,训练SVM分类模型,计算每一个基因的权重,从每一类簇选择一个权重最大或者采用轮盘赌思想从每一类簇选择一个得票数最多的基因作为本类簇的代表基因,各类簇的代表基因构成有效区分基因子集.将该算法与采用随机策略选择各类簇代表基因的随机基因选择算法Random,Guyon的经典基因选择算法SVM-RFE、采用顺序前向搜索策略的基因选择算法SVM-SFS进行实验比较,几个经典基因数据集上的200次重复实验的平均实验结果表明:所提出的混合基因选择算法能够选择到区分性能非常好的基因子集,建立在该区分基因子集上的分类器具有非常好的分类性能. To deal with the challenging problem of recognizing the small number of distinguishable genes which can tell the cancer patients from normal people in a dataset with a small number of samples and tens of thousands of genes, novel hybrid gene selection algorithms are proposed in this paper based on the statistical correlation and K-means algorithm. The Pearson correlation coefficient and Wilcoxon signed-rank test are respectively adopted to calculate the importance of each gene to the classification to filter the least important genes and preserve about 10 percent of the important genes as the pre-selected gene subset. Then the related genes in the pre-selected gene subset are clustered via K-means algorithm, and the weight of each gene is calculated from the related coefficient of the SVM classifier. The most important gene, with the biggest weight or with the highest votes when the roulette wheel strategy is used, is chosen as the representative gene of each cluster to construct the distinguishable gene subset. In order to verify the effectiveness of the proposed hybrid gene subset selection algorithms, the random selection strategy （named Random） is also adopted to select the representative genes from clusters. The proposed distinguishable gene subset selection algorithms are compared with Random and the very popular gene selection algorithm SVM-RFE by Guyon and the pre-studied gene selection algorithm SVM-SFS. The average experimental results of 200 runs of the aforementioned gene selection algorithms on some classic and very popular gene expression datasets with extensive experiments demonstrate that the proposed distinguishable gene subset selection algorithms can find the optimal gene subset, and the classifier based on the selected gene subset achieves very high classification accuracy.

作者谢娟英高红超

机构地区陕西师范大学计算机科学学院

出处《软件学报》 EI CSCD 北大核心 2014年第9期2050-2075,共26页 Journal of Software

基金国家自然科学基金(31372250) 中央高校基本科研业务费专项基金(GK201102007) 陕西省科技攻关项目(2013K12-03-24)

关键词区分基因子集选择 Pearson 相关系数 Wilcoxon 秩和检验 K-MEANS 聚类统计相关性 FILTER 算法 Wrapper算法 distinguishable gene subset selection Pearson correlation coefficient Wilcxon singed-rank test K-means clustering statistical correlation Filter algorithms Wrapper algorithms

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

作者简介通讯作者：谢娟英，E-mail：xiejuany@snnu．edu．cn，http：／／www．snnu．edu．cn谢娟英（1971-），女，陕西西安人，博士，副教授，CCF高级会员，主要研究领域为机器学习．数据挖掘．E—mail：xiejuany@snnu．edu．cn 高红超（1988-），男，硕士生，主要研究领域为智能信息处理．E-mail：852383636@qq．com

引文网络
相关文献

参考文献3

1谢娟英,谢维信.基于特征子集区分度与支持向量机的特征选择算法[J].计算机学报,2014,37(8):1704-1718. 被引量：65
2张军英,Y.J.Wang,J.Khan,R.Clarke.基于类别空间的基因选择[J].中国科学（E辑）,2003,33(12):1125-1137. 被引量：9
3李颖新,李建更,阮晓钢.肿瘤基因表达谱分类特征基因选取问题及分析方法研究[J].计算机学报,2006,29(2):324-330. 被引量：45

二级参考文献59

1毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：95
2[1]Khan J, Wei J S, Ringner M, et al. Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature Medicine, 2001, 7(6): 673～679
3[2]Anil K, Robert P R, Mar Jianchang. Statistical pattern recognition: A review. IEEE Trans Pattern Analysis and Machine Intelligence, 2000, 22(1): 4～37
4[3]Herrero J, Valencia A, Dopazo J. A hierarchical unsupervised growing neural network for clustering gene expression patterns. bioinformatics, 2001, 17(2): 126～136
5[4]Loog M, duin R P W. Multiclass linear dimension reduction by weighted pairwise Fisher criteria. IEEE Trans Pattern Analysis and Machine Intelligence, 2001, 23(7): 762～766
6[5]Mjolsness E, DeCoste D. Machine learning for science: State of the art and future prospects. Science, 2001, 293(14): 2051～2055
7[6]Ramaswarmy S, Tamayo P, Rifkin R, et al. Multiclass cancer diagnosis using tumor gene expression signatures. PNAS, 2001, 26: 15149～15154
8[7]Xiong Momiao, Fang Xiangzhong, Zhao Jinying. Biomarker identification by feature wrappers. Genome Research (see www.genome.org), 2001, 11: 178～188
9[8]Dudoit S, Fridlyand J, Speed T P. Comparison of discrimination methods for the classification of tumors using gene expression data, Technical report #576, University of California, Berkeley, June 2000
10[9]Guyon I, Weston J, Barnhill S, et al. Gene selection for cancer classification using support vector machines. Machine Learning, 2002, 46(3): 389～422

共引文献113

1李欣,俞卫琴.基于改进GS-XGBoost的个人信用评估[J].计算机系统应用,2020,29(11):145-150. 被引量：8
2周文佳,吕金超,高翔.基于统计检验的基因表达数据特征选取与分类模型[J].数学建模及其应用,2019,8(4):48-53. 被引量：1
3盖超会,王成刚.基于改进布谷鸟算法与SVM的矿用变压器故障诊断[J].煤炭工程,2019,51(11):134-137. 被引量：6
4李敏,章国豪,陈梓樑,郭志勇,胡晓敏.基于差分进化的多目标粒子群特征选择算法[J].计算机应用研究,2020,37(1):76-79. 被引量：8
5张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2020,37(1):50-52. 被引量：24
6姬翔,王安文.一种基于SVM和相关性的基因选择方法[J].计算机应用与软件,2007,24(6):116-118. 被引量：1
7王树林,王戟,陈火旺,张波云.基于主成份分析的肿瘤分类检测算法研究[J].计算机工程与科学,2007,29(9):84-90. 被引量：9
8周昉,何洁月.生物信息学中基因芯片的特征选择技术综述[J].计算机科学,2007,34(12):143-150. 被引量：20
9高山,张红,尹京苑.基因芯片显著性分析方法在伯基特淋巴瘤分期特征分析中的应用[J].上海大学学报（自然科学版）,2008,14(1):106-110.
10王树林,王戟,陈火旺,李树涛,张波云.肿瘤信息基因启发式宽度优先搜索算法研究[J].计算机学报,2008,31(4):636-649. 被引量：17

同被引文献420

1徐雄,林海军,刘悠勇,胡边.融合PCA与自适应K-Means聚类的水电机组故障检测在线方法[J].电子测量与仪器学报,2022,36(3):260-267. 被引量：17
2赵迪,赵望达,刘静.基于B／S架构的安全生产监督管理信息系统[J].安全,2007,28(1):12-14. 被引量：7
3业宁,丁建文,王迪,王厚立,徐兆军.基于LBP特征提取的木材纹理缺陷检测[J].计算机研究与发展,2007,44(z2):383-387. 被引量：7
4薛锦春,李夕兵,董陇军.边坡稳定性的聚类未确知综合识别方法及应用[J].岩土力学,2010,31(S1):293-297. 被引量：11
5江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
6刘杰,李建林,王乐华,骆世威,朱敏,周济芳,赵宗勇.三种边坡安全系数计算方法对比研究[J].岩石力学与工程学报,2011,30(S1):2896-2903. 被引量：31
7程俊霞,李芝棠,邹明光,肖津.基于SVM过滤的微博新闻话题检测方法[J].通信学报,2013,34(S2):74-78. 被引量：3
8崔文岩,孟相如,李纪真,王明鸣,陈天平,王坤.基于粗糙集粒子群支持向量机的特征选择方法[J].微电子学与计算机,2015,32(1):120-123. 被引量：9
9邓林,马尽文,裴健.秩和基因选取方法及其在肿瘤诊断中的应用[J].科学通报,2004,49(13):1311-1316. 被引量：18
10李霞,张田文,郭政.一种基于递归分类树的集成特征基因选择方法[J].计算机学报,2004,27(5):675-682. 被引量：26

引证文献56

1王俊雅,刘峰,宋效东,李德成,杨金玲,张甘霖.基于地表温度的干旱平缓区土壤属性制图[J].土壤通报,2018,49(6):1270-1278. 被引量：4
2马国富,马胜利,王子贤,李双印,程雨丝.数据恢复在电子数据取证与司法鉴定中的应用[J].河北大学学报（自然科学版）,2015,35(5):538-545. 被引量：9
3蒋凌志.SURF特征及预处理RANSAC算法在人脸识别中的应用[J].计算机科学,2015,42(B11):209-212. 被引量：5
4袁定莲,冯径,沈晔,张涛.基于自相似的气象数据分类识别方法[J].计算机应用,2015,35(A02):93-97. 被引量：3
5张阳,何丽,朱颢东.一种改进的K-means动态聚类算法[J].重庆师范大学学报（自然科学版）,2016,33(1):97-101. 被引量：14
6哈立原,张岩,白凤伟.利用相关系数矩阵M构建SCT算法研究[J].内蒙古师范大学学报（自然科学汉文版）,2015,44(6):757-760.
7ZHAO Guosheng,WANG Jian.Security Analysis and Enhanced Design of a Dynamic Block Cipher[J].China Communications,2016,13(1):150-160. 被引量：3
8罗频捷,温荷.基于改进BP神经网络的个性化推荐算法研究[J].四川理工学院学报（自然科学版）,2016,29(1):39-43. 被引量：3
9谢娟英,胡秋锋,董亚非.K-S检验与mRMR相结合的基因选择算法[J].计算机应用研究,2016,33(4):1013-1018. 被引量：5
10吴冠朋,王帅,黄伟,刘同海,尹勇,刘毅慧.基于BP神经网络的肝癌放疗致乙型肝炎病毒再激活分类预测模型[J].智能计算机与应用,2016,6(2):43-47. 被引量：8

二级引证文献356

1杨惠烽,张琦,徐莉.改进的K-Means和Grabcut相结合的壁画分割方法[J].忻州师范学院学报,2023,39(5):26-33.
2喻炜,周海燕,刘英,杨雨图,习爽,谢超,沈胤熙.人造板无损检测技术研究进展[J].世界林业研究,2023,36(3):58-62.
3周文佳,吕金超,高翔.基于统计检验的基因表达数据特征选取与分类模型[J].数学建模及其应用,2019,8(4):48-53. 被引量：1
4周珮,周志平,王利,赵卫东.基于AutoEncoder和ResNet的网络入侵检测方法[J].计算机应用研究,2020,37(S02):224-226. 被引量：20
5李兴,侯振杰,梁久祯,常兴治.基于线性加速度的多节点人体行为识别[J].山东大学学报（工学版）,2018,48(6):56-66.
6张生月,肖珺,肖静,达虎,李葆光.浅析基于文件定位的数据恢复[J].甘肃科技,2016,32(23):18-19.
7徐久成,冯森,穆辉宇.基于信噪比与随机森林的肿瘤特征基因选择[J].河南师范大学学报（自然科学版）,2017,45(2):87-92. 被引量：11
8唐爱国,胡春华.模糊理论在软件项目风险评估中的应用[J].中南大学学报（自然科学版）,2017,48(2):411-417. 被引量：7
9袁也,耿志杰.数据恢复后数字档案真实性认证探析[J].档案学研究,2017(2):102-105. 被引量：4
10王会娜,黄伟,刘毅慧.基于连续小波和随机森林的原发性肝癌放疗后乙肝病毒再激活的分类预测[J].智能计算机与应用,2017,7(3):30-33. 被引量：2

1孙正顺,刘广臣.判别分析及BP神经网络在医学信息处理中的应用[J].科技创新导报,2008,5(18):27-27. 被引量：1
2张丽新,王家廞,赵雁南,杨泽红.基于Relief的组合式特征选择[J].复旦学报（自然科学版）,2004,43(5):893-898. 被引量：44
3何涛,胡洁,夏鹏,谷朝臣.基于ReliefF算法与遗传算法的肌电信号特征选择[J].上海交通大学学报,2016,50(2):204-208. 被引量：18
4基因指纹识别(1984年)[J].科学大众（中学生）,2009(12):12-12.
5邓可,贺向前.基于遗传算法的自适应控制系统[J].实验室研究与探索,2007,26(10):41-43. 被引量：6
6刘振华,傅山.基于视觉监控的操作手势轨迹分布模式研究[J].计算机工程,2012,38(15):142-144. 被引量：3
7柴欣,孙劲耀,郭磊,武优西.改进的BPSO的特征基因选择方法及其在结肠癌检测中的应用研究[J].计算机科学,2013,40(7):239-243. 被引量：4
8宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6
9张伟,毛剑琴.基于最小Wilcoxon学习方法的模糊树模型[J].北京航空航天大学学报,2013,39(7):973-977. 被引量：2
10谢娟英,胡秋锋,董亚非.K-S检验与mRMR相结合的基因选择算法[J].计算机应用研究,2016,33(4):1013-1018. 被引量：5

软件学报

2014年第9期

浏览历史

内容加载中请稍等...

基于统计相关性与K-means的区分基因子集选择算法被引量：56

参考文献3

二级参考文献59

共引文献113

同被引文献420

引证文献56

二级引证文献356

相关作者

相关机构

相关主题

浏览历史

基于统计相关性与K-means的区分基因子集选择算法 被引量：56

参考文献3

二级参考文献59

共引文献113

同被引文献420

引证文献56

二级引证文献356

相关作者

相关机构

相关主题

浏览历史

基于统计相关性与K-means的区分基因子集选择算法被引量：56