期刊文献+
共找到63篇文章
< 1 2 4 >
每页显示 20 50 100
基于熵的微阵列数据特征选择
1
作者 邓蕊欣 李达 金德泉 《广西大学学报(自然科学版)》 CAS 北大核心 2024年第3期637-643,共7页
针对基于熵的特征加权算法忽略了数据集内在特性对特征重要性的影响,导致特征选择效果不佳的问题,提出一种改进的基于熵的特征加权算法,根据信息熵计算特征维度的重要性权重,通过引入交叉验证实现不同数据集的阈值学习,确定用于度量特... 针对基于熵的特征加权算法忽略了数据集内在特性对特征重要性的影响,导致特征选择效果不佳的问题,提出一种改进的基于熵的特征加权算法,根据信息熵计算特征维度的重要性权重,通过引入交叉验证实现不同数据集的阈值学习,确定用于度量特征重要性的最佳阈值参数,并基于该阈值对数据集进行特征选择。在微阵列数据集上的数值实验结果表明:相比于原算法,所提算法能够减少更多的维度,且特征子集用于分类得到的准确率与原算法基本持平甚至有所提高,说明改进的算法是可行和有效的。 展开更多
关键词 特征选择 微阵列数据 分类 信息熵 交叉验证
在线阅读 下载PDF
微阵列数据的多重比较 被引量:12
2
作者 荀鹏程 赵杨 +3 位作者 柏建岭 易洪刚 于浩 陈峰 《中国卫生统计》 CSCD 北大核心 2006年第1期5-8,共4页
目的介绍阳性结果错误率(FDR)及相关控制方法在微阵列数据多重比较中的应用。方法用BH、BL、BY和ALSU四种FDR控制程序比较了3226个基因在两组乳腺癌患者中的表达差异。结果四个程序在各自实用的范围内均将FDR控制在0·05以下,检验... 目的介绍阳性结果错误率(FDR)及相关控制方法在微阵列数据多重比较中的应用。方法用BH、BL、BY和ALSU四种FDR控制程序比较了3226个基因在两组乳腺癌患者中的表达差异。结果四个程序在各自实用的范围内均将FDR控制在0·05以下,检验效能由大到小的顺序为:ALSU>BH>BY>BL。ALSU程序因引入m0的估计,更为合理,不仅提高了检验效能,同时又较好地控制了假阳性错误。结论在微阵列数据的比较中必须考虑FDR的控制,同时又要考虑提高检验效能。多重比较中,控制FDR比控制总I型错误率(FWER)检验效能高,且更为实用。 展开更多
关键词 多重比较 阳性结果错误率 总Ⅰ型错误率 微阵列数据
在线阅读 下载PDF
偏最小二乘法降维在微阵列数据判别分析中的应用 被引量:15
3
作者 钱国华 荀鹏程 +1 位作者 陈峰 于浩 《中国卫生统计》 CSCD 北大核心 2007年第2期120-123,共4页
目的探讨微阵列数据的判别分析方法。方法首先采用偏最小二乘法对高维数据降维,然后再用Fisher’s线性判别。文中同时介绍了偏最小二乘法的基本原理、基本算法,讨论了成分数选择等问题,并以实际微阵列数据展示了其效果。结果偏最小二乘... 目的探讨微阵列数据的判别分析方法。方法首先采用偏最小二乘法对高维数据降维,然后再用Fisher’s线性判别。文中同时介绍了偏最小二乘法的基本原理、基本算法,讨论了成分数选择等问题,并以实际微阵列数据展示了其效果。结果偏最小二乘法降维不但实现了数据的可视化,而且取得了较好的后期判别效果。结论偏最小二乘法是一种新的实用的降维方法,可用于微阵列数据判别分析的前期降维。 展开更多
关键词 偏最小二乘法 微阵列数据 降维 判别分析
在线阅读 下载PDF
基于过采样技术和随机森林的不平衡微阵列数据分类方法研究 被引量:9
4
作者 于化龙 高尚 +1 位作者 赵靖 秦斌 《计算机科学》 CSCD 北大核心 2012年第5期190-194,共5页
近年来,应用DNA微阵列技术对疾病,尤其是癌症进行诊断,已逐渐成为生物信息学领域的研究热点之一。对比其它的数据载体,微阵列数据通常具有一些独有的特点。针对微阵列数据样本分布不平衡这一特点,提出了一种基于概率分布的过采样技术,... 近年来,应用DNA微阵列技术对疾病,尤其是癌症进行诊断,已逐渐成为生物信息学领域的研究热点之一。对比其它的数据载体,微阵列数据通常具有一些独有的特点。针对微阵列数据样本分布不平衡这一特点,提出了一种基于概率分布的过采样技术,通过该技术可以为少数类建立一些合理的伪样本,从而使各类的样本数达到均衡,然后使用随机森林分类器对其进行分类。该方法的有效性和可行性已经在两个标准的微阵列数据集上得到了验证。实验结果显示,与传统的方法相比,该方法可以获得更好的分类性能。 展开更多
关键词 微阵列数据 样本分布不平衡 过采样技术 概率分布 随机森林
在线阅读 下载PDF
基于演化学习超网络的微阵列数据分类 被引量:5
5
作者 王进 黄萍丽 +1 位作者 孙开伟 蔡通 《江苏大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第1期56-62,共7页
为解决传统模式识别方法学习结果过于复杂且难以解读的问题,提出了一种基于遗传算法的演化学习超网络模型.与传统的基于梯度下降和超边替代的超网络学习算法不同,演化学习超网络模型在其学习过程中引入了遗传算法.将超网络的超边集合划... 为解决传统模式识别方法学习结果过于复杂且难以解读的问题,提出了一种基于遗传算法的演化学习超网络模型.与传统的基于梯度下降和超边替代的超网络学习算法不同,演化学习超网络模型在其学习过程中引入了遗传算法.将超网络的超边集合划分成多个子种群;对子种群中的个体进行选择、交叉和变异等遗传操作,并对每一代种群进行子种群间优秀个体的迁移.每个子种群并行执行演化操作,完成演化后得到一个具有决策能力的超网络分类器.利用演化超网络对急性白血病、肺癌和前列腺数据集进行分类试验.结果表明,演化学习超网络对3个数据集的分类准确率分别为96.21%,99.26%,96.09%.所提出的方法与其他传统的模式识别方法相比,具有更高的分类准确率,而且其学习结果具有很好的可读性,有利于挖掘与癌症诊断密切相关的基因对高阶关联关系. 展开更多
关键词 微阵列数据分类 模式识别 机器学习 超网络 遗传算法
在线阅读 下载PDF
微阵列数据癌症分类问题中的基因选择 被引量:20
6
作者 张丽娟 李舟军 《计算机研究与发展》 EI CSCD 北大核心 2009年第5期794-802,共9页
微阵列数据广泛而成功地应用于生物医学的癌症分类研究.一个典型的微阵列数据集包含大量(通常成千上万,甚至数十万)的基因、相对少量(往往不足一百)的样本.在这成千上万的基因中,仅仅一少部分基因对癌症分类有贡献.因而,对于癌症分类来... 微阵列数据广泛而成功地应用于生物医学的癌症分类研究.一个典型的微阵列数据集包含大量(通常成千上万,甚至数十万)的基因、相对少量(往往不足一百)的样本.在这成千上万的基因中,仅仅一少部分基因对癌症分类有贡献.因而,对于癌症分类来说,最重要的一个问题就是识别出对癌症分类最有贡献的基因.这一识别过程称为基因选择.基因选择在统计模式识别、机器学习和数据挖掘领域已得到广泛研究.介绍基因选择问题所涉及到的相关背景知识和基本概念;全面地回顾统计学、机器学习和数据挖掘领域对基因选择问题的解决方法;通过实验展示了几种典型算法在微阵列数据上的性能;指出当前存在的问题和未来的研究方向. 展开更多
关键词 基因选择 微阵列数据 癌症分类 属性相关性 相关性度量
在线阅读 下载PDF
用于微阵列数据分类的子空间融合演化超网络 被引量:2
7
作者 王进 刘彬 +2 位作者 张军 陈乔松 邓欣 《电子学报》 EI CAS CSCD 北大核心 2016年第10期2308-2313,共6页
针对传统模式识别方法在学习具有小样本特性的DNA微阵列数据时存在的过拟合问题,本文提出了一种子空间融合演化超网络模型.该模型通过子空间划分、超边全覆盖和子空间融合三种方法降低模型对初始化的依赖,减少了对数据空间的拟合误差,... 针对传统模式识别方法在学习具有小样本特性的DNA微阵列数据时存在的过拟合问题,本文提出了一种子空间融合演化超网络模型.该模型通过子空间划分、超边全覆盖和子空间融合三种方法降低模型对初始化的依赖,减少了对数据空间的拟合误差,提高了演化超网络的泛化能力.对四个DNA微阵列数据集的实验结果表明,子空间融合演化超网络的识别率和在小样本训练集下的泛化能力均优于参与对比的其他传统模式识别方法. 展开更多
关键词 模式识别 微阵列数据分类 演化超网络 子空间 过拟合
在线阅读 下载PDF
判别分析驱动的微阵列数据的降维策略 被引量:3
8
作者 荀鹏程 钱国华 +2 位作者 富春枫 于浩 陈峰 《中国卫生统计》 CSCD 北大核心 2009年第2期147-149,153,共4页
目的探究判别分析驱动的微阵列数据之降维策略。方法3步降维策略。即首先采用"单变量检验FDR控制"结合"相关矩阵差值综合评分法"的预选维;其次采用PCA、PLS等方法作进一步降维;最后用逐步判别的思想筛选。结果以Alo... 目的探究判别分析驱动的微阵列数据之降维策略。方法3步降维策略。即首先采用"单变量检验FDR控制"结合"相关矩阵差值综合评分法"的预选维;其次采用PCA、PLS等方法作进一步降维;最后用逐步判别的思想筛选。结果以Alon等的结肠癌数据为例展示了该3步降维策略在判别分析过程中的应用,组内回代错误率为9.68%,弃一法交叉验证的错误率为11.29%。结论本文提出的"初步选维→进一步降维→逐步判别筛选"的3步降维策略对于后续的微阵列数据判别分析是实用、可行的。 展开更多
关键词 降维策略 判别分析 微阵列数据 FDR基因得分
在线阅读 下载PDF
基于相交邻域粗糙集的基因微阵列数据分类 被引量:4
9
作者 孟军 李锐 郝涵 《计算机科学》 CSCD 北大核心 2015年第6期37-40,66,共5页
在对基因微阵列数据的特征选择和分类的研究中,粗糙集理论是一个可以消除冗余基因的有效工具。但是传统的粗糙集模型不能很好地处理连续型数值数据,而离散化方法可能会导致信息的丢失。为此,提出了一种基于相交邻域粗糙集模型的属性约... 在对基因微阵列数据的特征选择和分类的研究中,粗糙集理论是一个可以消除冗余基因的有效工具。但是传统的粗糙集模型不能很好地处理连续型数值数据,而离散化方法可能会导致信息的丢失。为此,提出了一种基于相交邻域粗糙集模型的属性约简算法,即将传统粗糙集中的距离邻域扩展为相交邻域,采用基于集合的方式来定义近似,以此构建粗糙集模型。在癌症数据集上进行实验,结果表明基于集合近似和相交邻域的粗糙集模型可以取得较好的分类效果,并且通过对选择出的基因进行GO术语分析,进一步证明了该模型的有效性。 展开更多
关键词 粗糙集 相交邻域 基因微阵列数据
在线阅读 下载PDF
面向高维微阵列数据的混合特征选择算法 被引量:6
10
作者 孙刚 张靖 《小型微型计算机系统》 CSCD 北大核心 2015年第6期1209-1213,共5页
随着基因芯片技术的发展,基因表达实验获得了大量的微阵列相关数据,为人类疾病研究提供了一种全新的手段.然而,由于微阵列数据存在维数高、噪声大及冗余度高等特点,给深入准确地挖掘微阵列数据中所蕴含的知识和信息基因选择带来了极大困... 随着基因芯片技术的发展,基因表达实验获得了大量的微阵列相关数据,为人类疾病研究提供了一种全新的手段.然而,由于微阵列数据存在维数高、噪声大及冗余度高等特点,给深入准确地挖掘微阵列数据中所蕴含的知识和信息基因选择带来了极大困难.本文提出一种面向高维微阵列数据的混合特征选择算法,该算法分为两层:第一层使用信噪比方法计算全部基因的信噪比值,根据信噪比值选择指定数目的信息基因,过滤无关基因;第二层使用改进的Lasso方法对第一层得到的信息基因候选子集进行特征选择,剔除冗余基因.实验结果表明本文提出的算法能够选择出数量较少且分类能力较强的信息基因,并且性能稳定、泛化能力强,是一种有效的基因特征选择算法. 展开更多
关键词 微阵列数据 信噪比 Lasso 特征选择
在线阅读 下载PDF
差异表达驱动的微阵列数据降维策略 被引量:2
11
作者 王璐 荀鹏程 +2 位作者 赵纯 沙家豪 陈峰 《中国卫生统计》 CSCD 北大核心 2007年第4期375-377,共3页
目的探究差异表达驱动的微阵列数据之降维策略。方法本文提出permutation检验和99.99%的下单侧可信区间相结合的策略用于"维度粗筛",HotellingT2检验结合逐步筛选的策略用于寻求组间差异表达的"局部变量组合"。结果... 目的探究差异表达驱动的微阵列数据之降维策略。方法本文提出permutation检验和99.99%的下单侧可信区间相结合的策略用于"维度粗筛",HotellingT2检验结合逐步筛选的策略用于寻求组间差异表达的"局部变量组合"。结果以"正常成年男子和精子运动能力低下者精子蛋白表达差异研究"之实例展示了该降维策略的实际应用效果,结果发现了"十个蛋白组合"在组间差异表达。结论本文提出差异表达驱动的微阵列数据降维策略是实用可行的。 展开更多
关键词 降维策略 差异表达 微阵列数据 假发现率
在线阅读 下载PDF
微阵列数据分析和错误发现率 被引量:2
12
作者 王婷 曾平 +1 位作者 黄水平 赵华硕 《郑州大学学报(医学版)》 CAS 北大核心 2013年第1期59-62,共4页
目的:介绍微阵列数据的差异表达分析和基于错误发现率的多重假设检验。方法:通过t检验对一个关于前列腺癌的微阵列数据进行基因差异表达分析,采用BH程序进行错误发现率的控制和经验估计。结果:当错误发现率为0.05时通过BH程序得到21个... 目的:介绍微阵列数据的差异表达分析和基于错误发现率的多重假设检验。方法:通过t检验对一个关于前列腺癌的微阵列数据进行基因差异表达分析,采用BH程序进行错误发现率的控制和经验估计。结果:当错误发现率为0.05时通过BH程序得到21个差异表达基因;当以|t|≥3作为拒绝域时,得到105个基因,对应的错误发现率估计值为0.20。结论:相对传统的总体错误率,错误发现率更加适合于微阵列这种高维数据多重比较的错误控制;而且能同时控制或估计错误发现率。 展开更多
关键词 微阵列数据 多重假设检验 错误发现率 控制和估计 前列腺癌
在线阅读 下载PDF
一种基于微阵列数据的集成分类方法 被引量:2
13
作者 罗美淑 刘世勇 +1 位作者 石磊 于化龙 《计算机应用研究》 CSCD 北大核心 2010年第1期104-106,共3页
针对现有的微阵列数据集成分类方法分类精度不高这一问题,提出了一种Bagging-PCA-SVM方法。该方法首先采用Bootstrap技术对训练样本集重复取样,构成大量训练样本子集,然后在每个子集上进行特征选择和主成分分析以消除噪声基因与冗余基因... 针对现有的微阵列数据集成分类方法分类精度不高这一问题,提出了一种Bagging-PCA-SVM方法。该方法首先采用Bootstrap技术对训练样本集重复取样,构成大量训练样本子集,然后在每个子集上进行特征选择和主成分分析以消除噪声基因与冗余基因;最后利用支持向量机作为分类器,采用多数投票的方法预测样本的类属。通过三个数据集进行了测试,测试结果表明了该方法的有效性和可行性。 展开更多
关键词 微阵列数据 主成分分析 特征选择 支持向量机 集成分类
在线阅读 下载PDF
非负矩阵分解在微阵列数据分类和聚类发现中的应用 被引量:5
14
作者 任重鲁 李金明 《计算机工程与科学》 CSCD 北大核心 2014年第7期1389-1397,共9页
基因芯片是微阵列技术的典型代表,它具有高通量的特性和同时检测全部基因组基因表达水平的能力。应用微阵列芯片的一个主要目的是基因表达模式的发现,即在基因组水平发现功能相似,生物学过程相关的基因簇;或者将样本分类,发现样本的各... 基因芯片是微阵列技术的典型代表,它具有高通量的特性和同时检测全部基因组基因表达水平的能力。应用微阵列芯片的一个主要目的是基因表达模式的发现,即在基因组水平发现功能相似,生物学过程相关的基因簇;或者将样本分类,发现样本的各种亚型。例如根据基因表达水平对癌症样本进行分类,发现疾病的分子亚型。非负矩阵分解NMF方法是一种非监督的、非正交的、基于局部表示的矩阵分解方法。近年来这种方法被越来越多地应用在微阵列数据的分类分析和聚类发现中。系统地介绍了非负矩阵分解的原理、算法和应用,分解结果的生物学解释,分类结果的质量评估和基于NMF算法的分类软件。总结并评估了NMF方法在微阵列数据分类和聚类发现应用中的表现。 展开更多
关键词 非负矩阵分解 微阵列数据 分类分析 聚类发现
在线阅读 下载PDF
DNA微阵列数据判别的旋转森林方法 被引量:4
15
作者 陈金瓯 柳青 《中国卫生统计》 CSCD 北大核心 2012年第4期525-528,534,共5页
目的探讨旋转森林算法在DNA微阵列数据分类中的应用。方法通过对四个经典基因表达数据的分析考察旋转森林的分类效果,并与其他分类器进行比较,进一步调整算法参数并研究其对分类效果产生的影响。结果旋转森林对基因表达数据有较高且稳... 目的探讨旋转森林算法在DNA微阵列数据分类中的应用。方法通过对四个经典基因表达数据的分析考察旋转森林的分类效果,并与其他分类器进行比较,进一步调整算法参数并研究其对分类效果产生的影响。结果旋转森林对基因表达数据有较高且稳定的分类准确性,除了线性变换方式和集成规模对分类性能影响较大,分类效果不随算法其他几个主要参数变化。结论旋转森林在基因表达谱数据分类中有较好的判别结果。 展开更多
关键词 旋转森林 DNA微阵列数据 集成分类系统
在线阅读 下载PDF
面向高维微阵列数据的集成特征选择算法 被引量:2
16
作者 孙刚 张靖 《计算机工程与科学》 CSCD 北大核心 2016年第7期1330-1337,共8页
特征选择算法是微阵列数据分析的重要工具,特征选择算法的分类性能和稳定性对微阵列数据分析至关重要。为了提高特征选择算法的分类性能和稳定性,提出一种面向高维微阵列数据的集成特征选择算法来弥补单个基因子集信息量的不足,提高基... 特征选择算法是微阵列数据分析的重要工具,特征选择算法的分类性能和稳定性对微阵列数据分析至关重要。为了提高特征选择算法的分类性能和稳定性,提出一种面向高维微阵列数据的集成特征选择算法来弥补单个基因子集信息量的不足,提高基因特征选择算法的分类性能和稳定性。该算法首先采用信噪比方法选择若干区分基因;然后对每个区分基因利用条件信息相关系数评估候选基因与区分基因的相关性,生成多个相关基因子集,最后,通过集成学习技术整合多个相似基因子集。实验结果表明,本文提出的集成特征选择算法的分类性能以及稳定性在多数情况下均优于只选择单个基因子集的方法。 展开更多
关键词 微阵列数据 信噪比 条件相关系数 特征选择
在线阅读 下载PDF
挖掘微阵列数据集中的最大局部保守基因聚类
17
作者 赵宇海 印莹 +1 位作者 王国仁 许光宇 《计算机研究与发展》 EI CSCD 北大核心 2006年第z3期344-349,共6页
提出了一种新的基因聚类模型LC-cluster(局部保守基因聚类).其思想来源于当前的bicluster模型和emerging模式,但有着本质的不同.一个基因的表达水平被称为局部保守,如果它只在所有给定条件中的一部分(而非全部)上保持相似的"丰度&q... 提出了一种新的基因聚类模型LC-cluster(局部保守基因聚类).其思想来源于当前的bicluster模型和emerging模式,但有着本质的不同.一个基因的表达水平被称为局部保守,如果它只在所有给定条件中的一部分(而非全部)上保持相似的"丰度".一个LC-cluster中的样本可能对应着某种显型,其中的基因是与这种显型密切相关的候选基因.设计了两种有效的基于树的聚类算法FALCONER和E-FALCONER,来挖掘提出的LC-cluster.从多方面分析了该算法的性能,并将其用于真实表达数据集及人造数据集聚类.理论分析和实验结果表明:①算法能有效且高效地发现大量具有生物意义的局部保守基因聚类;②算法性能优于同类的基于穷举树的聚类算法. 展开更多
关键词 微阵列数据 显型 bicluster 聚类
在线阅读 下载PDF
HTCLOSE:快速挖掘微阵列数据集中的频繁闭合模式
18
作者 缪裕青 金波 陈国良 《小型微型计算机系统》 CSCD 北大核心 2008年第2期274-278,共5页
由于微阵列数据集行(样本)少列(基因)多的特征,使得采用传统列枚举方法对其进行频繁闭合模式挖掘较为困难.基于行枚举方法,提出超链接结构HT-struct,并基于该结构提出频繁闭合模式挖掘新算法HTCLOSE.算法采用深度优先搜索策略,结合高效... 由于微阵列数据集行(样本)少列(基因)多的特征,使得采用传统列枚举方法对其进行频繁闭合模式挖掘较为困难.基于行枚举方法,提出超链接结构HT-struct,并基于该结构提出频繁闭合模式挖掘新算法HTCLOSE.算法采用深度优先搜索策略,结合高效的修剪技术和巧妙的链表组织技术,在时间和空间上均得到了优化.实验表明,HTCLOSE算法通常快于行枚举算法CARPENTER. 展开更多
关键词 数据挖掘 关联规则 频繁闭合模式 微阵列数据 生物信息学
在线阅读 下载PDF
基于σ选择MOEA的微阵列数据三维聚类挖掘
19
作者 刘军万 李舟军 刘飞飞 《中南林业科技大学学报》 CAS CSCD 北大核心 2009年第1期92-96,共5页
从三维微阵列数据集挖掘出的三维聚类,能够分辨出与某些表现型(如疾病)相关的样本,而且能找出与这些表现型相关的候选基因.当挖掘3D微阵列数据矩阵中的3D聚类时往往要考虑同时优化几个目标,而且这些目标经常相互冲突,因此,应用多目标进... 从三维微阵列数据集挖掘出的三维聚类,能够分辨出与某些表现型(如疾病)相关的样本,而且能找出与这些表现型相关的候选基因.当挖掘3D微阵列数据矩阵中的3D聚类时往往要考虑同时优化几个目标,而且这些目标经常相互冲突,因此,应用多目标进化算法来求解GST数据集中的3D聚类是可行的.本文基于∈-支配和σ选择操作策略,提出一个新奇的多目标进化三维聚类算法来挖掘三维微阵列数据集中的3D聚类.通过在酵母细胞周期调控基因数据集上应用此算法,实验结果表明我们的方法能发现具有重大意义的高质量的3D聚类. 展开更多
关键词 数据挖掘 ∈-支配 微阵列数据 多目标进化 三维聚类
在线阅读 下载PDF
微阵列数据中一种改进Bagging决策树算法的研究
20
作者 刘青 李海峰 袁科 《计算机工程与科学》 CSCD 2005年第6期78-80,共3页
针对基因微阵列数据具有高维度、小样本等独特的特点,本文研究并实现了旨在降低计算时间和提高精确度的Bagging决策树。本文提出了一个能极大地降低计算时间、同时对精确度影响不大的属性离散化过程,接着以一种新的类分布置信度的方式... 针对基因微阵列数据具有高维度、小样本等独特的特点,本文研究并实现了旨在降低计算时间和提高精确度的Bagging决策树。本文提出了一个能极大地降低计算时间、同时对精确度影响不大的属性离散化过程,接着以一种新的类分布置信度的方式构造决策树,该方法在最终的Bagging组合方面有一定的优势。结合上述方法的Bagging决策树算法在基因微阵列数据集分类上取得了良好的效果。 展开更多
关键词 Bagging决策树 基因微阵列数据 类分布置信度 中值离散化
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部