期刊文献+
共找到82篇文章
< 1 2 5 >
每页显示 20 50 100
GEO(Gene Expression Omnibus):高通量基因表达数据库 被引量:9
1
作者 刘华 马文丽 郑文岭 《中国生物化学与分子生物学报》 CAS CSCD 北大核心 2007年第3期236-244,共9页
GEO(Gene Expression Omnibus)数据库包括高通量实验数据的广泛分类,有单通道和双通道以微阵列为基础的对mRNA丰度的测定;基因组DNA和蛋白质分子的实验数据;其中包括来自以非阵列为基础的高通量功能基因组学和蛋白质组学技术的数据也被... GEO(Gene Expression Omnibus)数据库包括高通量实验数据的广泛分类,有单通道和双通道以微阵列为基础的对mRNA丰度的测定;基因组DNA和蛋白质分子的实验数据;其中包括来自以非阵列为基础的高通量功能基因组学和蛋白质组学技术的数据也被存档,例如基因表达系列分析(serial analysis of gene expression,SAGE)和蛋白质鉴定技术.迄今为止,GEO数据库包含的数据含概10000个杂交实验和来自30种不同生物体的SAGE库.本文概述了GEO数据库的查询和浏览,数据下载和格式,数据分析,贮存与更新,并着重分析GEO数据浏览器中控制词汇的使用,阐述了GEO数据库的数据挖掘以及GEO在分子生物学领域中的应用前景.GEO可由此公众网址直接登陆http://www.ncbi.nlm.nih.gov/projects/geo/. 展开更多
关键词 基因表达 数据库 控制词汇 数据挖掘
在线阅读 下载PDF
基于GEO数据库筛选结核病关键基因及信号通路的研究
2
作者 石洁 常文静 +6 位作者 郑丹薇 苏茹月 马晓光 朱岩昆 王少华 孙建伟 孙定勇 《中国防痨杂志》 北大核心 2025年第6期769-778,共10页
目的:利用生物信息学方法鉴定结核病表达差异基因及相关信号通路,以发现可用于结核病诊断的生物标志物。方法:从高通量基因表达数据库(GEO)中搜索结核病患者样本及健康人群的基因表达芯片数据集,下载GSE139825基因芯片微阵列数据集作为... 目的:利用生物信息学方法鉴定结核病表达差异基因及相关信号通路,以发现可用于结核病诊断的生物标志物。方法:从高通量基因表达数据库(GEO)中搜索结核病患者样本及健康人群的基因表达芯片数据集,下载GSE139825基因芯片微阵列数据集作为分析数据集,使用R语言中的limma包对测序数据进行标准化校正和鉴定差异基因(DEGs),使用clusterProfiler包进行基因本体论(GO)及京都基因和基因组百科全书(KEGG)信号通路分析。使用STRING在线数据库进行差异基因的蛋白互作网络(PPI)分析并用Cytoscape软件进行可视化和筛选核心基因。下载GSE19439基因芯片微阵列数据集作为表达差异的核心基因的验证数据集,同时使用酶联免疫吸附试验验证候选生物标记物,并使用受试者工作特征曲线下面积(AUC)评估其诊断能力。结果:通过分析GSE139825数据库共筛选出206个差异基因,其中172个基因表达上调,34个基因表达下调,其中,下调50%以上的基因有PDK4和CABLES1,上调8倍以上的有IL1B、LOC728835、CXCL10和IL8。GO和KEGG分析表明,差异基因的生物过程主要集中在细胞因子介导的信号通路、白细胞细胞间黏附、对脂多糖的应答反应等方面,主要发挥细胞因子受体结合、细胞因子的活性等分子功能,并在细胞因子之间的相互作用、TNF信号通路、结核病相关通路等信号通路上富集显著。PPI分析鉴定出10个核心基因,分别为IL1B、TNF、IL6、IL1A、CCL20、CXCL1、CXCL10、CXCL8、CCL3和CCR7。通过GSE19439验证数据集分析,发现10个核心基因中CXCL10和IL1B同样表达上调;酶联免疫吸附实验验证也发现健康对照和结核病患者的CXCL10蛋白的ELISA平均值分别为0.570和0.827,IL1B蛋白分别为1.245和2.067,差异均有统计学意义(t=25.353,P<0.001;t=11.840,P=0.002);logistic回归模型分析显示,CXCL10和IL1B在区分健康组和结核病组方面均表现良好(AUC CXCL10=0.854,AUC IL1B=0.818)。结论:研究揭示了结核病发病相关基因间的相关作用,发现CXCL10和IL1B均能较好的区分健康对照和结核病患者,可作为新型结核病诊断的生物标志物。 展开更多
关键词 结核 基因组文库 数据挖掘 表达基因 生物学标记
在线阅读 下载PDF
DENGENE:一种高精度的基于密度的适用于基因表达数据的聚类算法 被引量:1
3
作者 孙亮 赵芳 王永吉 《计算机应用研究》 CSCD 北大核心 2007年第4期58-61,共4页
根据基因表达数据的特点,提出一种高精度的基于密度的聚类算法DENGENE。DENGENE通过定义一致性检测和引进峰点改进搜索方向,使得算法能够更好地处理基因表达数据。为了评价算法的性能,选取了两组广为使用的测试数据,即啤酒酵母基因表达... 根据基因表达数据的特点,提出一种高精度的基于密度的聚类算法DENGENE。DENGENE通过定义一致性检测和引进峰点改进搜索方向,使得算法能够更好地处理基因表达数据。为了评价算法的性能,选取了两组广为使用的测试数据,即啤酒酵母基因表达数据集对算法来进行测试。实验结果表明,与基于模型的五种算法、CAST算法、K-均值聚类等相比,DENGENE在滤除噪声和聚类精度方面取得了显著的改善。 展开更多
关键词 基因表达数据 聚类分析 基于密度的聚类 一致性检测 峰点
在线阅读 下载PDF
聚类分析中类数估计方法的实验比较 被引量:24
4
作者 王开军 李健 +1 位作者 张军英 过立新 《计算机工程》 CAS CSCD 北大核心 2008年第9期198-199,202,共3页
在基因表达数据的探索性聚类分析中,聚类个数的确定是决定聚类质量的关键因素。许多聚类有效性评价指标和方法可用于PAM聚类算法。该文讨论适合于PAM算法的7种常用评价指标和方法,采用4种不同聚类结构特征的基因表达数据对它们的性能进... 在基因表达数据的探索性聚类分析中,聚类个数的确定是决定聚类质量的关键因素。许多聚类有效性评价指标和方法可用于PAM聚类算法。该文讨论适合于PAM算法的7种常用评价指标和方法,采用4种不同聚类结构特征的基因表达数据对它们的性能进行实验比较。结果表明,系统演化方法和稳定性方法估计聚类个数的性能最好,正确率分别为100%与90%。 展开更多
关键词 聚类有效性 聚类个数估计 聚类分析 基因表达数据
在线阅读 下载PDF
基因表达数据的聚类分析研究进展 被引量:25
5
作者 岳峰 孙亮 +2 位作者 王宽全 王永吉 左旺孟 《自动化学报》 EI CSCD 北大核心 2008年第2期113-120,共8页
基因表达数据的爆炸性增长迫切需求自动、有效的数据分析工具.目前聚类分析己成为分析基因表达数据获取生物学信息的有力工具.为了更好地挖掘基因表达数据,近年来提出了许多改进的传统聚类算法和新聚类算法.本文首先简单介绍了基因表达... 基因表达数据的爆炸性增长迫切需求自动、有效的数据分析工具.目前聚类分析己成为分析基因表达数据获取生物学信息的有力工具.为了更好地挖掘基因表达数据,近年来提出了许多改进的传统聚类算法和新聚类算法.本文首先简单介绍了基因表达数据的获取和表示,之后系统地介绍了近年来应用在基因表达数据分析中的聚类算法.根据聚类目标的不同将算法分为基于基因的聚类、基于样本的聚类和两路聚类,并对每类算法介绍了其生物学的含义及其难点,详细讨论了各种算法的基本原理及优缺点.最后总结了当前的基因表达数据的聚类分析方法,并对发展趋势作了进一步的展望. 展开更多
关键词 DNA微阵列 基因表达数据 聚类分析
在线阅读 下载PDF
基于基因表达式的演化硬件进化和优化算法 被引量:11
6
作者 谢方军 唐常杰 +2 位作者 元昌安 左劼 陈安龙 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2005年第7期1415-1420,共6页
电路进化设计是可进化硬件研究的重要内容·针对电路进化设计做了如下工作:(1)融合了数据挖掘、基因表达式编程与传统电路进化技术,提出两阶段电路进化方法·该方法包括基于表达式树遗传编程进化算法的电路进化阶段和基于挖掘... 电路进化设计是可进化硬件研究的重要内容·针对电路进化设计做了如下工作:(1)融合了数据挖掘、基因表达式编程与传统电路进化技术,提出两阶段电路进化方法·该方法包括基于表达式树遗传编程进化算法的电路进化阶段和基于挖掘频繁数字电路算法的电路优化阶段·(2)给出了详尽的实验·实验表明6次多项式函数发现的平均进化代数为442代、乘法器电路的平均进化代数为2292代·比笛卡尔遗传编程和NEHF(NovelEvolvableHardwareFramework)快6倍以上·用MFDC对乘法器电路进化结果进行挖掘后,得到了比传统电路更有效的乘法器电路· 展开更多
关键词 电路进化 基因表达式编程 数据挖掘 挖掘频繁数字电路
在线阅读 下载PDF
基于模糊c-均值聚类的微阵列基因表达数据分析 被引量:8
7
作者 宫改云 毛用才 +1 位作者 高新波 刘三阳 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2004年第2期291-295,共5页
微阵列技术已成为染色体研究的主要工具,但是它所面临的挑战是如何对海量数据进行分析.利用模糊c 均值聚类对这些数据进行分析,从而发现有差异的基因表达.结果表明,模糊聚类是一种用来为微阵列基因表达数据寻找有差异的基因表达的一种... 微阵列技术已成为染色体研究的主要工具,但是它所面临的挑战是如何对海量数据进行分析.利用模糊c 均值聚类对这些数据进行分析,从而发现有差异的基因表达.结果表明,模糊聚类是一种用来为微阵列基因表达数据寻找有差异的基因表达的一种有用工具. 展开更多
关键词 模糊C-均值聚类 微阵列基因表达数据 差异基因表达 微阵列DNA芯片
在线阅读 下载PDF
太极拳运动对老年人骨骼肌全基因组表达的影响 被引量:11
8
作者 柯杰兵 马文丽 +3 位作者 钟梅 姜立 林建棣 郑文岭 《中国康复医学杂志》 CAS CSCD 北大核心 2007年第4期306-309,322,共5页
目的:研究太极拳运动对骨骼肌全基因组表达的影响及太极拳促进健康的分子机制。方法:6名健康的老年人(65.5±8.9岁)参加了为期12周的太极拳训练。在训练前后分别对实验对象进行肌活验,提取总RNA,经处理后与Affymetrix U133A基因芯... 目的:研究太极拳运动对骨骼肌全基因组表达的影响及太极拳促进健康的分子机制。方法:6名健康的老年人(65.5±8.9岁)参加了为期12周的太极拳训练。在训练前后分别对实验对象进行肌活验,提取总RNA,经处理后与Affymetrix U133A基因芯片进行杂交,分析数据。结果:太极拳运动使老年人骨骼肌全基因组表达发生明显改变,筛选出725条表达有差异的基因。本文对表达差异最显著的20条差异表达基因进行研究(3条基因表达上调,17条基因表达下调)。根据基因功能分类对比,差异表达基因分别归属8种细胞组分和生物过程,经KEGG搜索找到4条基因的代谢途径。结论:太极拳运动有助保持神经系统的灵敏性,提高反应能力,有助于抗衰老和减肥等,而不利于骨骼肌蛋白质的合成。 展开更多
关键词 BRB阵列工具 KEGG搜索 基因表达 数据挖掘 太极拳
在线阅读 下载PDF
基于人工免疫和基因表达式编程的多维复杂关联规则挖掘方法 被引量:14
9
作者 曾涛 唐常杰 +3 位作者 朱明放 向勇 刘胤田 陈鹏 《四川大学学报(工程科学版)》 EI CAS CSCD 北大核心 2006年第5期136-142,共7页
为满足复杂数据挖掘应用对处理丰富语义的要求,引入了多维复杂关联规则概念,提出了通过人工免疫循环控制的基因表达式编程挖掘方法。构造了有特色的抗体和免疫细胞结构,能有效减少计算量;设计了特有的否定选择策略,可以消除无用的... 为满足复杂数据挖掘应用对处理丰富语义的要求,引入了多维复杂关联规则概念,提出了通过人工免疫循环控制的基因表达式编程挖掘方法。构造了有特色的抗体和免疫细胞结构,能有效减少计算量;设计了特有的否定选择策略,可以消除无用的和冗余的免疫细胞;引出了逆否规则与原规则同为强规则的启发式过滤准则,可有效约简规则数目。实验表明,新方法能够高效、准确地挖掘多维复杂关联规则;在一定条件下,新方法的否定选择策略可将挖掘效率提高达1~3个数量级。 展开更多
关键词 数据挖掘 多维复杂关联规则 元规则 基因表达式编程 人工免疫
在线阅读 下载PDF
一种肿瘤基因表达数据的知识提取方法 被引量:13
10
作者 李颖新 刘全金 阮晓钢 《电子学报》 EI CAS CSCD 北大核心 2004年第9期1479-1482,共4页
本文以多发性骨髓瘤的基因表达数据为例 ,利用数据挖掘技术 ,提出了一种针对基因表达数据进行知识发现的方法 .该方法通过计算基因的信息增益 ,结合神经网络 ,找出了特征基因集合 ,最后利用决策树进行特征规则的提取 ,给出了基于多发性... 本文以多发性骨髓瘤的基因表达数据为例 ,利用数据挖掘技术 ,提出了一种针对基因表达数据进行知识发现的方法 .该方法通过计算基因的信息增益 ,结合神经网络 ,找出了特征基因集合 ,最后利用决策树进行特征规则的提取 ,给出了基于多发性骨髓瘤数据样本的产生式规则 ,为生物医学研究提供了一种分析和研究基因表达数据的参考方法 .实验结果表明了该方法的有效性 . 展开更多
关键词 DNA芯片 基因表达 数据挖掘 神经网络 多发性骨髓瘤
在线阅读 下载PDF
基于多维伪F统计量的基因表达动态聚类分析方法研究 被引量:12
11
作者 骆嘉伟 李仁发 张白妮 《系统仿真学报》 EI CAS CSCD 北大核心 2006年第3期586-589,601,共5页
K-均值聚类分析算法是一种广泛应用于基因表达数据聚类分析中的迭代变换算法,它通过指定类别数K,基于给定的聚类目标函数,并采用迭代更新的方法,使得最终的聚类结果的目标函数值为极小值,达到较优的聚类效果。针对K-均值聚类分析算法存... K-均值聚类分析算法是一种广泛应用于基因表达数据聚类分析中的迭代变换算法,它通过指定类别数K,基于给定的聚类目标函数,并采用迭代更新的方法,使得最终的聚类结果的目标函数值为极小值,达到较优的聚类效果。针对K-均值聚类分析算法存在参数依赖性强,且在整个聚类过程中类的数目无法改变的缺点,引入动态调整聚类个数的思想和多维伪F统计量,提出了一种基于多维伪F统计量的基因表达动态K-均值聚类算法。实验结果表明该算法可以动态调整聚类个数,给出最佳聚类数目,从而获得较好的聚类质量。 展开更多
关键词 聚类分析 基因表达数据 伪F统计量 动态K-均值聚类
在线阅读 下载PDF
利用全基因组寡核苷酸筛选大肠癌差异表达基因 被引量:8
12
作者 许红民 王强 +5 位作者 白雪娟 钟定荣 曹秀堂 张金萍 丁彦青 姚开泰 《第一军医大学学报》 CSCD 北大核心 2005年第9期1109-1113,共5页
目的筛查人大肠癌组织与相应正常大肠粘膜差异表达基因。方法应用美国AffymetrixHG-U133寡核苷酸芯片(代表迄今所知的32264个人类全基因,包括19308个已知的人类基因和12956个EST簇)检测9例大肠癌组织及相应正常大肠粘膜基因表达谱,并以... 目的筛查人大肠癌组织与相应正常大肠粘膜差异表达基因。方法应用美国AffymetrixHG-U133寡核苷酸芯片(代表迄今所知的32264个人类全基因,包括19308个已知的人类基因和12956个EST簇)检测9例大肠癌组织及相应正常大肠粘膜基因表达谱,并以实时荧光定量PCR技术对基因芯片检测结果进行验证;综合运用交集补集、秩和检验及t检验比较两组表达谱数据。结果获得大肠癌组织与正常大肠粘膜组织差异表达基因和ESTs3125个(包括肿瘤上调基因ESTs974个、下调基因ESTs2151个);大肠癌组织表达而相应正常粘膜不表达的ESTs245个;大肠癌组织不表达而正常粘膜表达的ESTs162个;最重要的大肠癌差异表达基因ESTs17个。本研究所筛得之大肠癌差异表达基因80.1%未见报道。结论综合运用交集补集分析、t检验、秩和检验对基因谱数据进行挖掘的策略,可为寻找大肠癌分子标记物和从整体上探讨大肠癌发生的分子机制奠定基础。 展开更多
关键词 大肠癌 基因表达谱 数据挖掘
在线阅读 下载PDF
基于MapReduce的基因数据密度层次聚类算法 被引量:7
13
作者 涂金金 杨明 郭丽娜 《中国科学技术大学学报》 CAS CSCD 北大核心 2014年第7期537-543,共7页
随着生物信息技术的快速发展,基因表达数据的规模急剧增长,这给传统的基因表达数据聚类算法带来了严峻的挑战.基于密度的层次聚类(DHC)能够较好地解决基因表达数据嵌套类问题且鲁棒性较好,但处理海量数据的效率不高.为此,提出了基于MapR... 随着生物信息技术的快速发展,基因表达数据的规模急剧增长,这给传统的基因表达数据聚类算法带来了严峻的挑战.基于密度的层次聚类(DHC)能够较好地解决基因表达数据嵌套类问题且鲁棒性较好,但处理海量数据的效率不高.为此,提出了基于MapReduce的密度层次聚类算法——DisDHC.该算法首先进行数据分割,在每个子集上利用DHC进行聚类获得稀疏化的数据;在此基础上再次进行DHC聚类;最终产生整体数据的密度中心点.在酵母数据集、酵母细胞周期数据集、人血清数据集上进行实验,结果表明,DisDHC算法在保持DHC聚类效果的同时,极大地缩短了聚类时间. 展开更多
关键词 M apReduce 密度层次聚类 基因表达数据
在线阅读 下载PDF
基于遗传算法及聚类的基因表达数据特征选择 被引量:4
14
作者 任江涛 黄焕宇 +1 位作者 孙婧昊 印鉴 《计算机科学》 CSCD 北大核心 2006年第9期155-156,224,共3页
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象(如基因表达数据)的特征选择,一方面可以提高分类及聚类的精度和效率,另一方面可以找出富含信息的特征子集,如发现与疾病密切相关的重要基因。针对此问题,本文提出... 特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象(如基因表达数据)的特征选择,一方面可以提高分类及聚类的精度和效率,另一方面可以找出富含信息的特征子集,如发现与疾病密切相关的重要基因。针对此问题,本文提出了一种新的面向基因表达数据的特征选择方法,在特征子集搜索上采用遗传算法进行随机搜索,在特征子集评价上采用聚类算法及聚类错误率作为学习算法及评价指标。实验结果表明,该算法可有效地找出具有较好可分离性的特征子集,从而实现降维并提高聚类及分类精度。 展开更多
关键词 特征选择 遗传算法 聚类 基因表达数据
在线阅读 下载PDF
双聚类的关联规则挖掘方法 被引量:4
15
作者 秦如新 田英杰 +2 位作者 陈静 邓乃扬 张海斌 《北京工业大学学报》 EI CAS CSCD 北大核心 2009年第4期561-565,共5页
为了使所有关联规则算法都可用于双聚类挖掘,将双聚类问题转化为关联规则的频繁集挖掘问题.在为双聚类挖掘提供大量算法的同时,不但能获得双聚类,而且还能得到额外的双聚类关联信息.基因表达数据的实验结果证明了其有效性.
关键词 双聚类 关联规则 频繁集 基因表达数据
在线阅读 下载PDF
基于基因表达式编程的信用评估模型挖掘方法 被引量:5
16
作者 吴江 唐常杰 +1 位作者 段磊 李太勇 《计算机应用》 CSCD 北大核心 2007年第4期877-880,共4页
提出了一种基于基因表达式编程(GEP)的信用评估模型挖掘方法GEP-CREDIT。该方法基于客户信贷数据,利用GEP算法自动进行属性筛选,并进行属性融合,在此基础上训练和建立信用评估模型。在德国信用数据库真实数据集上做的实验和性能分析表明... 提出了一种基于基因表达式编程(GEP)的信用评估模型挖掘方法GEP-CREDIT。该方法基于客户信贷数据,利用GEP算法自动进行属性筛选,并进行属性融合,在此基础上训练和建立信用评估模型。在德国信用数据库真实数据集上做的实验和性能分析表明,基于GEP的信用评估模型挖掘方法较Nave Bayes算法的预测精度提高了3%;较SVM算法的预测精度提高了1.6%;较KNN(K=17)算法的预测精度提高了6.83%。 展开更多
关键词 数据挖掘 基因表达式编程 信用评估
在线阅读 下载PDF
基于动态适应度的基因表达式编程挖掘反函数 被引量:4
17
作者 朱军 唐常杰 +2 位作者 魏大刚 段磊 左劼 《计算机应用研究》 CSCD 北大核心 2007年第9期40-42,共3页
为提高基因表达式编程(GEP)发现知识效率,提出并实现了基因表达式编程的动态适应度函数。将逐步权重自适应(SAW)应用于基因表达式编程中适应度函数的动态调整;将线性N维向量函数引入作为适应度函数的组件,用于提高求适应度效率;通过挖... 为提高基因表达式编程(GEP)发现知识效率,提出并实现了基因表达式编程的动态适应度函数。将逐步权重自适应(SAW)应用于基因表达式编程中适应度函数的动态调整;将线性N维向量函数引入作为适应度函数的组件,用于提高求适应度效率;通过挖掘反函数和方程求解的实验,表明新方法比传统基因表达式编程所求得的反函数表达式的精确度有较大的优势,性能提高约8%。 展开更多
关键词 数据挖掘 基因表达式编程 逐步权重自适应 适应度
在线阅读 下载PDF
一种有效的基于网格和密度的聚类分析算法 被引量:12
18
作者 胡泱 陈刚 《计算机应用》 CSCD 北大核心 2003年第12期64-67,共4页
讨论数据挖掘中聚类的相关概念、技术和算法。提出一种基于网格和密度的算法,它的优点在于能够自动发现包含有趣知识的子空间,并将里面存在的所有聚类挖掘出来;另一方面它能很好地处理高维数据和大数据集的数据表格。算法将最后的结果用... 讨论数据挖掘中聚类的相关概念、技术和算法。提出一种基于网格和密度的算法,它的优点在于能够自动发现包含有趣知识的子空间,并将里面存在的所有聚类挖掘出来;另一方面它能很好地处理高维数据和大数据集的数据表格。算法将最后的结果用DNF的形式表示出来。 展开更多
关键词 数据挖掘 聚类 网格 密度 高维数据 子空间 最大区域 DNF表达式
在线阅读 下载PDF
基于转基因GEP的公式发现 被引量:3
19
作者 唐常杰 陈瑜 +1 位作者 张欢 段磊 《计算机应用》 CSCD 北大核心 2007年第10期2358-2360,2364,共4页
在传统基因表达式编程(GEP)挖掘知识的过程中,用户只能被动等待程序连续进化若干代之后给出的结果,因此难以有效干预进化过程、质量和速度。为解决这一问题,把生物工程转基因思想引入到基于GEP的函数挖掘中,获得了一系列成果。综述了基... 在传统基因表达式编程(GEP)挖掘知识的过程中,用户只能被动等待程序连续进化若干代之后给出的结果,因此难以有效干预进化过程、质量和速度。为解决这一问题,把生物工程转基因思想引入到基于GEP的函数挖掘中,获得了一系列成果。综述了基于转基因技术的GEP研究进展,包括基因注入,转基因过程和进化干预等,通过自然选择与人工选择的融合,在一定程度上引导进化向着人们预期的方向进行。 展开更多
关键词 数据挖掘 基因表达式编程 转基因技术 基因注入
在线阅读 下载PDF
数据预处理和初始化方法对K-均值聚类的影响 被引量:4
20
作者 杨春梅 万柏坤 丁北生 《仪器仪表学报》 EI CAS CSCD 北大核心 2003年第z1期189-192,209,共5页
基于酵母二次迁移实验中表达谱相似的五类基因表达数据 ,研究了不同相似性度量准则、数据预处理方法及质心初始化方式对 K -均值聚类效果的影响。结果表明 :若对基因表达数据进行 K-均值聚类分析 ,最好采用能反映数据结构特征的向量对... 基于酵母二次迁移实验中表达谱相似的五类基因表达数据 ,研究了不同相似性度量准则、数据预处理方法及质心初始化方式对 K -均值聚类效果的影响。结果表明 :若对基因表达数据进行 K-均值聚类分析 ,最好采用能反映数据结构特征的向量对质心进行初始化。若随机初始化质心 ,则采用取相对表达水平的预处理方式 ,以欧几里德距离 (Euclidean distance)作为相似性测量准则 ,可以获得最佳的聚类结果 ;在欧氏距离准则下 ,标准化处理因可能破坏原始数据的幅度特征 ,而导致聚类结果变坏。若以 展开更多
关键词 基因表达 聚类分析 K-均值聚类 数据预处理
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部