期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
基因芯片表达谱数据的预处理分析 被引量:7
1
作者 吴斌 沈自尹 《中国生物化学与分子生物学报》 CAS CSCD 北大核心 2006年第4期272-277,共6页
基因芯片数据的预处理是一个十分关键的步骤,通过数据过滤获取需要的数据、数据转换满足正态分布的分析要求、缺失值的估计弥补不完整的数据、数据归一化纠正系统误差等处理为后续分析工作做准备,预处理分析的重要性并不亚于基因芯片的... 基因芯片数据的预处理是一个十分关键的步骤,通过数据过滤获取需要的数据、数据转换满足正态分布的分析要求、缺失值的估计弥补不完整的数据、数据归一化纠正系统误差等处理为后续分析工作做准备,预处理分析的重要性并不亚于基因芯片的后续分析,它将直接影响后续分析是否能得到预期的结果.本文重点综述了cDNA芯片的数据预处理,简要地概述寡核苷酸芯片的数据预处理. 展开更多
关键词 基因表达 数据预处理 CDNA芯片
在线阅读 下载PDF
广义似然比检验应用于基因芯片表达数据的分析 被引量:2
2
作者 单连峰 张惠丹 周宝森 《中国卫生统计》 CSCD 北大核心 2009年第3期328-330,共3页
关键词 基因芯片技术 似然比检验 广义 基因表达数据 基因组水平 检测灵敏度 同时监测 相互关系
在线阅读 下载PDF
基因表达谱芯片数据挖掘系统 被引量:2
3
作者 李荣 《计算机应用研究》 CSCD 北大核心 2009年第8期2938-2941,共4页
基因芯片是基因组研究的重要工具,其数据分析极大依赖于数据挖掘技术。结合数据挖掘技术和生物信息学研究,设计并实现了若干基因表达谱芯片数据挖掘分析模型及相应的数据挖掘系统,具有良好的收缩性和实体独立性,底层复杂的数据挖掘算法... 基因芯片是基因组研究的重要工具,其数据分析极大依赖于数据挖掘技术。结合数据挖掘技术和生物信息学研究,设计并实现了若干基因表达谱芯片数据挖掘分析模型及相应的数据挖掘系统,具有良好的收缩性和实体独立性,底层复杂的数据挖掘算法对用户透明。 展开更多
关键词 数据挖掘 生物信息学 基因芯片 基因表达 分析模型
在线阅读 下载PDF
fGn模型在结肠癌基因表达数据集去噪中的应用
4
作者 艾玲梅 李科 马苗 《计算机工程》 CAS CSCD 北大核心 2015年第11期303-307,共5页
基因表达数据集获取过程中容易掺杂噪声成分,噪声会干扰数据的正确表达从而影响其后期的分析与研究。基于中值计算法估计噪声标准差的经验模态分解(EMD)去噪存在一定的不足,从而影响去噪效果。分数阶高斯噪声(fGn)模型可提供EMD下较为... 基因表达数据集获取过程中容易掺杂噪声成分,噪声会干扰数据的正确表达从而影响其后期的分析与研究。基于中值计算法估计噪声标准差的经验模态分解(EMD)去噪存在一定的不足,从而影响去噪效果。分数阶高斯噪声(fGn)模型可提供EMD下较为准确的噪声标准差估计方法,在该模型下去噪可减少白色及有色噪声,进而增强去噪效果。因此在中值计算EMD去噪基础上,提出一种基于fGn模型的去噪方案,并对结肠癌基因表达数据集做去噪分析。实验结果表明,相比中值计算EMD去噪方法,改进方法的信噪比、噪声抑制比、t检验等值具有一定的优势,可作为基因表达数据集去噪的一种参考方案。 展开更多
关键词 基因表达数据 经验模态分解去噪 噪声标准差 分数阶高斯噪声 结肠癌
在线阅读 下载PDF
基于模糊c-均值聚类的微阵列基因表达数据分析 被引量:8
5
作者 宫改云 毛用才 +1 位作者 高新波 刘三阳 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2004年第2期291-295,共5页
微阵列技术已成为染色体研究的主要工具,但是它所面临的挑战是如何对海量数据进行分析.利用模糊c 均值聚类对这些数据进行分析,从而发现有差异的基因表达.结果表明,模糊聚类是一种用来为微阵列基因表达数据寻找有差异的基因表达的一种... 微阵列技术已成为染色体研究的主要工具,但是它所面临的挑战是如何对海量数据进行分析.利用模糊c 均值聚类对这些数据进行分析,从而发现有差异的基因表达.结果表明,模糊聚类是一种用来为微阵列基因表达数据寻找有差异的基因表达的一种有用工具. 展开更多
关键词 模糊C-均值聚类 微阵列基因表达数据 差异基因表达 微阵列DNA芯片
在线阅读 下载PDF
随机森林方法在基因表达数据分析中的应用及研究进展 被引量:29
6
作者 武晓岩 李康 《中国卫生统计》 CSCD 北大核心 2009年第4期437-440,共4页
关键词 基因表达数据 基因芯片技术 人类基因 森林 随机 相关基因表达 基因组时代 基因功能
在线阅读 下载PDF
一种肿瘤基因表达数据的知识提取方法 被引量:13
7
作者 李颖新 刘全金 阮晓钢 《电子学报》 EI CAS CSCD 北大核心 2004年第9期1479-1482,共4页
本文以多发性骨髓瘤的基因表达数据为例 ,利用数据挖掘技术 ,提出了一种针对基因表达数据进行知识发现的方法 .该方法通过计算基因的信息增益 ,结合神经网络 ,找出了特征基因集合 ,最后利用决策树进行特征规则的提取 ,给出了基于多发性... 本文以多发性骨髓瘤的基因表达数据为例 ,利用数据挖掘技术 ,提出了一种针对基因表达数据进行知识发现的方法 .该方法通过计算基因的信息增益 ,结合神经网络 ,找出了特征基因集合 ,最后利用决策树进行特征规则的提取 ,给出了基于多发性骨髓瘤数据样本的产生式规则 ,为生物医学研究提供了一种分析和研究基因表达数据的参考方法 .实验结果表明了该方法的有效性 . 展开更多
关键词 DNA芯片 基因表达 数据挖掘 神经网络 多发性骨髓瘤
在线阅读 下载PDF
基因芯片可靠性分析及数据处理 被引量:8
8
作者 高利宏 曹佳 《第三军医大学学报》 CAS CSCD 北大核心 2006年第1期80-82,共3页
关键词 基因芯片 可靠性分析 数据处理 DNA微阵列 杂交信号 寡聚核苷酸 基因序列 共聚焦显微 固相载体 基因表达
在线阅读 下载PDF
乳腺癌基因芯片数据分析 被引量:2
9
作者 蒋定锋 高峻 赵耐青 《复旦学报(医学版)》 CAS CSCD 北大核心 2005年第2期169-172,共4页
目的 以乳腺癌病人的表达谱芯片数据为基础 ,探寻乳腺癌复发的相关基因。方法 对标化芯片数据进行缺失值处理后 ,分别用单因素COX回归模型和综合了聚类及多因素COX回归的综合法来筛选兴趣基因 ,然后通过兴趣基因对病人做样品聚类 ,以... 目的 以乳腺癌病人的表达谱芯片数据为基础 ,探寻乳腺癌复发的相关基因。方法 对标化芯片数据进行缺失值处理后 ,分别用单因素COX回归模型和综合了聚类及多因素COX回归的综合法来筛选兴趣基因 ,然后通过兴趣基因对病人做样品聚类 ,以灵敏度、特异度、约登指数和Kaplan Meier法评价分类效果 ,最后结合文献和蛋白质数据库探寻乳腺癌复发的相关基因。结果 综合法筛出的 30个P <0 .0 1的基因对乳腺癌病人复发状况的预测效果最佳 ;单因素COX回归筛出的 1 0 2个P <0 .0 1的基因的预测效果较差 ;单因素COX回归筛出的 1 5个P <0 .0 0 1的基因预测效果最差。结论 综合法筛选得到的 30个基因可用来评价病人的预后状况 ,为进一步的生物学研究提供待选基因。 展开更多
关键词 乳腺癌 KAPLAN-MEIER法 数据分析 基因芯片 COX回归模型 蛋白质数据 预测效果 相关基因 表达芯片 生物学研究 综合法 单因素 分类效果 约登指数 癌复发 病人 数据 缺失值 多因素 灵敏度 特异度 筛选 聚类
在线阅读 下载PDF
基于强泛化神经网络的大规模基因表达数据分析 被引量:1
10
作者 刘青 周鹏 《计算机工程》 EI CAS CSCD 北大核心 2005年第3期189-191,共3页
DNA微阵列技术使人们可同时观测成千上万个基因的表达水平,对其数据的分析已成为生物信息学研究的焦点。针对微阵列基因表达数据维数高、样本小、非线性的特点,设计并实现了一种基因表达数据分类识别方法,针对结肠数据集的实验表明其泛... DNA微阵列技术使人们可同时观测成千上万个基因的表达水平,对其数据的分析已成为生物信息学研究的焦点。针对微阵列基因表达数据维数高、样本小、非线性的特点,设计并实现了一种基因表达数据分类识别方法,针对结肠数据集的实验表明其泛化效果有所增强。 展开更多
关键词 基因表达数据 结肠 DNA微阵列技术 表达水平 生物信息学 效果 分析 大规模 数据 神经网络
在线阅读 下载PDF
用并行计算从基因表达数据构建大规模基因调控网络 被引量:1
11
作者 郑明 周柚 卓慕瑰 《计算机应用研究》 CSCD 北大核心 2020年第7期2041-2044,共4页
为解决大规模基因调控网络构建算法精度不高、计算时间过长的问题,提出一种从基因表达数据分析出发,并行计算和阈值限定相结合的新算法来构建大规模基因调控网络。该算法中基因间交互强度值采用条件互信息值度量,并行计算采用GPU与CPU... 为解决大规模基因调控网络构建算法精度不高、计算时间过长的问题,提出一种从基因表达数据分析出发,并行计算和阈值限定相结合的新算法来构建大规模基因调控网络。该算法中基因间交互强度值采用条件互信息值度量,并行计算采用GPU与CPU相结合的CUDA与Open MP架构。综合数据集的运行结果证明该算法较新的构建算法(如贝叶斯模型算法和微分方程模型算法)相比,在构建大规模基因调控网络时有更高的运算精度和更短的运行时间。 展开更多
关键词 基因调控网络 大规模数据 并行计算 阈值限定 基因表达数据
在线阅读 下载PDF
多步骤决策树方法在基因表达数据上的应用研究 被引量:2
12
作者 马李冰 侯艳 +1 位作者 李贞子 李康 《中国卫生统计》 CSCD 北大核心 2017年第1期135-138,共4页
基因芯片技术得到的基因表达谱数据具有维数高、噪声大、样本量小、非线性等特点,如何从高维数据中提取含在其中的生物学信息,是医学和生物学研究中面临的一个重大挑战。基因表达数据分析的重要任务是筛选差异表达基因及对基因或样品进... 基因芯片技术得到的基因表达谱数据具有维数高、噪声大、样本量小、非线性等特点,如何从高维数据中提取含在其中的生物学信息,是医学和生物学研究中面临的一个重大挑战。基因表达数据分析的重要任务是筛选差异表达基因及对基因或样品进行分类,通过比较正常和疾病状态下基因表达的差异,研究疾病的发病机制、早期诊断和治疗方法。 展开更多
关键词 基因表达数据 决策树方法 高维数据 主成分分析 变量聚类 基因芯片技术 生物学信息 随机森林 差异表达 信息增益
在线阅读 下载PDF
一种基于主集分割的基因芯片聚类算法
13
作者 滕莉 付旭平 +4 位作者 李宏宇 李瑶 陈文斌 李荣宇 沈一帆 《软件学报》 EI CSCD 北大核心 2005年第9期1591-1598,共8页
聚类算法广泛应用于生物芯片数据分析中,用于寻找表达相似的基因或样本.大多数已有算法都需要人为地给出一些参数,然而在没有先验知识的情况下,人为地确定这些参数是十分困难的.为了解决这一难题,提出了一种迭代的聚类算法.首先用主集... 聚类算法广泛应用于生物芯片数据分析中,用于寻找表达相似的基因或样本.大多数已有算法都需要人为地给出一些参数,然而在没有先验知识的情况下,人为地确定这些参数是十分困难的.为了解决这一难题,提出了一种迭代的聚类算法.首先用主集方法对原有基因进行重新排序,使高度相似的基因排列在特定区域.类的分割界线通常难于确定.提出一种标准,根据类内元素间的距离远小于类外元素间的距离的性质,从排序后的数据集中划分出一个类.将找到的类从当前数据集中排除以后,对剩下的数据重复以上处理,直到满足所提出的循环停止条件为止.从多方面分析了该算法的性能,并将该算法应用于酵母细胞周期的芯片表达谱数据聚类.理论分析和应用结果都表明,该算法是实用、有效的,并且有很好的抗噪性能. 展开更多
关键词 基因芯片 聚类 相关表达 排序
在线阅读 下载PDF
基于GEO数据库生物信息学方法分析子宫内膜癌相关基因和候选通路 被引量:4
14
作者 王治 洪莉 +1 位作者 李素廷 曾婉玲 《吉林大学学报(医学版)》 CAS CSCD 北大核心 2020年第4期804-809,I0006,共7页
目的:通过生物信息学方法分析与子宫内膜癌(EC)发生发展相关的关键基因和候选通路,探讨EC的发病机制和治疗靶点。方法:自公共基因芯片数据库(GEO)下载EC芯片数据集GSE17025和GSE63678,使用GEO2R在线分析工具和R软件筛选EC癌组织与癌旁... 目的:通过生物信息学方法分析与子宫内膜癌(EC)发生发展相关的关键基因和候选通路,探讨EC的发病机制和治疗靶点。方法:自公共基因芯片数据库(GEO)下载EC芯片数据集GSE17025和GSE63678,使用GEO2R在线分析工具和R软件筛选EC癌组织与癌旁组织的差异表达基因(DEGs),并对DEGs进行基因本体论(GO)富集分析和京都基因与基因组百科全书(KEGG)信号通路分析,采用String数据库进行蛋白质-蛋白质互作网络(PPI)分析,最后采用Cytoscape软件对PPI网络进行可视化并进行模块分析。结果:对芯片数据集GSE17025和GSE63678进行DEGs分析后共获取100个共同上调基因和106个共同下调基因。GO富集分析DEGs主要富集于有丝分裂染色体分离、核分裂和细胞器分裂等生物学过程;KEGG信号通路分析DEGs主要富集于细胞周期、miRNA、p53信号通路和2型糖尿病等信号通路。通过Cytoscape软件分析,PPI网络中细胞分裂周期基因20(CDC20)、极光激酶A(AURKA)、细胞周期蛋白B1(CCNB1)、泛素E3连接酶(DTL)、中心体相关蛋白55(CEP55)、细胞周期蛋白依赖性激酶1(CDK1)、驱动蛋白家族成员11(KIF11)、母体胚胎亮氨酸拉链激酶(MELK)、细胞周期蛋白B2(CCNB2)和苯并咪唑出芽抑制解除同源物蛋白1(BUB1)被筛选为关键基因。结论:细胞周期相关基因与通路调控网络的失调可能是EC发病的主要机制。 展开更多
关键词 生物信息学 子宫内膜癌 差异基因 基因表达汇编芯片数据集
在线阅读 下载PDF
家蚕普通气味结合蛋白基因的表达及分子进化研究 被引量:7
15
作者 张升祥 徐世清 +3 位作者 王更先 周晓玲 王桂花 崔为正 《蚕业科学》 CAS CSCD 北大核心 2010年第4期610-618,共9页
昆虫的普通气味结合蛋白(general odorant binding protein,GOBP)是气味结合蛋白(odorant binding protein,OBP)家族中的重要成员,与昆虫感受低特异性气味分子刺激相关,在觅食、求偶等生理行为过程中发挥重要的作用。基于家蚕5龄第3天... 昆虫的普通气味结合蛋白(general odorant binding protein,GOBP)是气味结合蛋白(odorant binding protein,OBP)家族中的重要成员,与昆虫感受低特异性气味分子刺激相关,在觅食、求偶等生理行为过程中发挥重要的作用。基于家蚕5龄第3天幼虫的基因芯片和蛹期、成虫期的RT-PCR表达谱分析发现,家蚕的GOBP1蛋白基因(gobp1)主要在幼虫的头部及蛹和成虫的触角中表达,在幼虫的睾丸以及成虫的胸足、体壁、脂肪体等非感受器官中也有表达,而GOBP2蛋白基因(gobp2)的表达谱和gobp1相比明显较窄。该结果表明家蚕gobp1以感受气味分子刺激的功能为主,同时还可能具有其他尚未被发现的生理功能;而家蚕gobp2可能具有对气味感受更高、更专一的功能特点。对家蚕及其他12种鳞翅目昆虫的GOBP蛋白序列比对发现,各物种间的GOBP蛋白序列相似性很高,蛋白二级结构元件也高度相似,具有的昆虫OBP典型结构中的半胱氨酸(C)位点非常保守。基于非同义突变与同义突变比值(Ka/Ks)的分子进化分析显示,13种鳞翅目昆虫的GOBP蛋白基因仅有棉铃虫gobp1在分化中受到正向选择作用,揭示不同昆虫的GOBP蛋白基因可能具有相似的生理功能。 展开更多
关键词 家蚕 普通气味结合蛋白 基因表达 分子进化 基因芯片数据
在线阅读 下载PDF
基于模糊粗糙集的肿瘤分类特征基因选取 被引量:11
16
作者 徐菲菲 苗夺谦 魏莱 《计算机科学》 CSCD 北大核心 2009年第3期196-200,共5页
依据基因表达谱有效建立肿瘤分类模型的关键在于,准确找出决定样本类别的一组特征基因。粗糙集理论作为一种新的软计算方法能够保持在原数据集的分类能力不变的基础上,对属性极大约简,从大量基因中找到对分类有效的基因。由于基因表达... 依据基因表达谱有效建立肿瘤分类模型的关键在于,准确找出决定样本类别的一组特征基因。粗糙集理论作为一种新的软计算方法能够保持在原数据集的分类能力不变的基础上,对属性极大约简,从大量基因中找到对分类有效的基因。由于基因表达谱数据集的连续性,为了避免运用粗糙集方法所必需的离散化过程带来的信息丢失,尝试将模糊粗糙集应用于特征基因的选取,提出了基于互信息的模糊粗糙集属性约简算法,运用于基因表达谱数据集的基因选取。然后分别采用KNN和C5.0分类器进行特征基因分类性能进行检验。以急性白血病亚型(leukemia Microarray)和直肠癌(colon Microarray)分类特征基因选取为例进行实验,结果表明了上述方法的可行性和有效性。 展开更多
关键词 基因表达数据 特征选取 粗糙 模糊粗糙 互信息
在线阅读 下载PDF
胃癌顺铂抵抗相关免疫标记基因的富集分析 被引量:2
17
作者 汪圣毅 程彦 +4 位作者 李旭升 闫亚飞 张尚鑫 闫强 李永翔 《安徽医科大学学报》 CAS 北大核心 2020年第2期200-204,共5页
目的采用基因集富集分析(GSEA)方法寻找胃癌抵抗顺铂的免疫标记基因(ISGs)。方法用GEO数据库的GSE94714数据集,GEO2R分析差异基因,观察条件筛选对基因数的作用,GSEA纳入耐药、未耐药组胃癌细胞的全部差异表达基因,与分子标签数据库比较... 目的采用基因集富集分析(GSEA)方法寻找胃癌抵抗顺铂的免疫标记基因(ISGs)。方法用GEO数据库的GSE94714数据集,GEO2R分析差异基因,观察条件筛选对基因数的作用,GSEA纳入耐药、未耐药组胃癌细胞的全部差异表达基因,与分子标签数据库比较,获取ISGs,交集筛选,Kaplan Meier Plotter分析交集基因对胃癌预后的影响。结果差异表达基因共34183个,其中上调12452个、下调17381个,筛选差异倍数的增加使排除基因数增加。GSEA富集到标准化富集评分(NES)排序前6的条目(P<0.01),其中的交集基因包括线粒体核糖体蛋白L12、富含脯氨酸蛋白13、毛状蛋白样F-肌动蛋白结合蛋白1、聚(RC)结合蛋白1、艾杜糖2-硫酸酯酶、LIM结构域2、富含嘌呤元素结合蛋白A、小视觉叶同源物、CCR 4-非转录复合物亚单位3、转化生长因子β1、二酰甘油激酶ζ、接头蛋白2,12个基因与胃癌的总生存时间有关,均具有统计学意义(P<0.05)。结论GSEA方法可有效获取胃癌顺铂抵抗的ISGs,新发现的基因作为潜在靶点,可促进胃癌化疗抵抗机制的研究。 展开更多
关键词 胃癌 化疗抵抗 基因分析 基因表达数据 免疫标记基因 预后
在线阅读 下载PDF
基于基因功能表达谱的疾病分类:抗基因缺失的稳健性 被引量:3
18
作者 郭政 张田文 +1 位作者 王琦 李霞 《高技术通讯》 CAS CSCD 北大核心 2005年第6期78-81,共4页
利用基因表达谱数据,按 Gene Ontology基因功能分类体系,将基因模块化地组织到具有显著生物学意义的低维差异表达功能模块单元中,构造新的指标用于分类疾病样本,从而提出了基于功能表达谱的分析新途径.新算法可稳健地抗基因检测缺失,抗... 利用基因表达谱数据,按 Gene Ontology基因功能分类体系,将基因模块化地组织到具有显著生物学意义的低维差异表达功能模块单元中,构造新的指标用于分类疾病样本,从而提出了基于功能表达谱的分析新途径.新算法可稳健地抗基因检测缺失,抗基因表达变异,抗检测误差,并可以显著地降低分类特征维数(参与疾病分类的基因数目).采用淋巴瘤数据集,比较了基于功能表达谱和常规的基因表达谱的决策树分类器.结果显示,基于功能表达谱可以得到高准确度的疾病样本分类结果,能够直接从功能水平上给出相应的生物学解释.通过仿真分析,进一步显示了基于功能表达谱的分类方法具有抗基因检测缺失的稳健性. 展开更多
关键词 基因功能 稳健性 疾病 基因缺失 Ontology 基因检测 生物学意义 基因表达 分类体系 功能模块 差异表达 检测误差 基因数目 特征维数 树分类器 样本分类 仿真分析 分类方法 数据 地组织 模块化 新算法 数据 淋巴瘤
在线阅读 下载PDF
家蚕细胞色素P450基因Bmcyp6A8的克隆及序列与表达分析 被引量:1
19
作者 曾媛琴 米智 +2 位作者 隆耀航 杜文华 朱勇 《蚕业科学》 CAS CSCD 北大核心 2010年第3期421-427,共7页
昆虫细胞色素P450第6亚家族(CYP6)氧化酶在对异源有毒物质的代谢中具有重要作用。采用生物信息学方法获得与果蝇CYP6亚家族基因cyp6A8同源的家蚕cyp6A8基因序列,预测该基因的开放阅读框(ORF)为1572bp,编码523个氨基酸,推定的蛋白分子质... 昆虫细胞色素P450第6亚家族(CYP6)氧化酶在对异源有毒物质的代谢中具有重要作用。采用生物信息学方法获得与果蝇CYP6亚家族基因cyp6A8同源的家蚕cyp6A8基因序列,预测该基因的开放阅读框(ORF)为1572bp,编码523个氨基酸,推定的蛋白分子质量为61.52kD,等电点为8.17。以家蚕5龄第3天幼虫头部cDNA为模板,用设计的特异引物PCR扩增出一条约1500bp的条带,大小与家蚕cyp6A8基因的ORF预测值接近,命名为Bmcyp6A8基因(GenBank登录号:GQ241737)。同源性分析结果:Bmcyp6A8基因与野桑蚕cyp6AE8基因的相似性为93%;与棉铃虫cyp6AE12基因的相似性为57%;与人cyp3A43基因的相似性为48%。芯片数据分析显示Bmcyp6A8基因在家蚕5龄第3天幼虫的头部、表皮与中部丝腺前部高量表达,与家蚕CYP6亚家族的其它横向同源基因不同的是,只有该基因在中部丝腺前部表达,推测其具有功能特异性。 展开更多
关键词 家蚕 细胞色素P450第6亚家族 基因克隆 序列分析 表达特征 芯片数据分析
在线阅读 下载PDF
面向大数据集的有效聚类算法 被引量:7
20
作者 古凌岚 《计算机工程与设计》 CSCD 北大核心 2014年第6期2183-2187,共5页
为解决传统模糊C-均值算法无法适应大规模数据集体量大、冗余属性的问题,提出了一种面向大数据集的混合聚类算法。将大数据集划分为多个子集,对各子集进行聚类,通过合并得到最终聚类结果。对于子集采用基于基因表达式编程(GEP)和模糊C-... 为解决传统模糊C-均值算法无法适应大规模数据集体量大、冗余属性的问题,提出了一种面向大数据集的混合聚类算法。将大数据集划分为多个子集,对各子集进行聚类,通过合并得到最终聚类结果。对于子集采用基于基因表达式编程(GEP)和模糊C-均值的混合算法进行聚类,以改善聚类的质量和效率;基于相似性选取初始聚类中心,使用信息熵体现属性重要程度,从而进一步优化聚类性能。实验仿真及分析结果表明,该算法具有较好地全局收敛性,得到的聚类效果也更好。 展开更多
关键词 数据 模糊C-均值 基因表达式编程 属性信息熵 聚类
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部