提出了多标记分类和标记相关性的联合学习(JMLLC),在JMLLC中,构建了基于类别标记变量的有向条件依赖网络,这样不仅使得标记分类器之间可以联合学习,从而增强各个标记分类器的学习效果,而且标记分类器和标记相关性可以联合学习,从而使得...提出了多标记分类和标记相关性的联合学习(JMLLC),在JMLLC中,构建了基于类别标记变量的有向条件依赖网络,这样不仅使得标记分类器之间可以联合学习,从而增强各个标记分类器的学习效果,而且标记分类器和标记相关性可以联合学习,从而使得学习得到的标记相关性更为准确.通过采用两种不同的损失函数:logistic回归和最小二乘,分别提出了JMLLC-LR(JMLLC with logistic regression)和JMLLC-LS(JMLLC with least squares),并都拓展到再生核希尔伯特空间中.最后采用交替求解的方法求解JMLLC-LR和JMLLC-LS.在20个基准数据集上基于5种不同的评价准则的实验结果表明,JMLLC优于已提出的多标记学习算法.展开更多
穗轴粗和出籽率均是典型的数量性状,在不同程度上影响玉米产量。全基因组选择整合全基因组关联分析(GWAS,genome-wide association study)的先验信息是提高性状预测准确性的有效方法。本研究利用309份玉米自交系穗轴粗和出籽率表型和基...穗轴粗和出籽率均是典型的数量性状,在不同程度上影响玉米产量。全基因组选择整合全基因组关联分析(GWAS,genome-wide association study)的先验信息是提高性状预测准确性的有效方法。本研究利用309份玉米自交系穗轴粗和出籽率表型和基因分型测序技术获得的基因型数据,研究基因组最佳线性无偏预测(GBLUP,genomic best linear unbiased prediction)、贝叶斯A(Bayes A)和再生核希尔伯特空间(RKHS,reproducing kernel Hilbert space)模型对2种GWAS方法即固定和随机模型交替概率统一(FarmCPU,fixed and random model circulating probability unification)和压缩混合线性模型(CMLM,compressed mixed linear model)衍生的不同数量标记集、随机选择标记集和所有标记对预测准确性的影响。对于2个性状FarmCPU和CMLM衍生标记集,3个预测模型间的预测准确性差异较小,差值变异范围介于0~0.03。对于随机标记集,相比其他2个模型的预测准确性,RKHS对穗轴粗可提高3.57%~15.91%,而3个预测模型对出籽率具有相似的预测效果。除了50和100个标记,3个模型利用CMLM衍生标记对2个性状的预测效果均优于FarmCPU。相比随机标记集,穗轴粗GWAS衍生标记的预测准确性可提高15.52%~88.37%;出籽率利用衍生标记可提高1~5.89倍。所有衍生标记集的预测准确性均高于所有标记。这些结果均表明,全基因组选择整合GWAS衍生标记有利于提高穗轴粗和出籽率的预测准确性。展开更多
生物学探究的基因关联是类似于因果关系的本质联系,要解决的关键问题是寻找一种可以描述本质联系的方法。针对Dialogue for Reverse Engineering Assessments and Methods第3次竞赛项目(DREAM3)中的大肠杆菌(E.coli)基因调控网络结构辨...生物学探究的基因关联是类似于因果关系的本质联系,要解决的关键问题是寻找一种可以描述本质联系的方法。针对Dialogue for Reverse Engineering Assessments and Methods第3次竞赛项目(DREAM3)中的大肠杆菌(E.coli)基因调控网络结构辨识问题,提出一种基于再生核希尔伯特空间(RKHS)的统计独立性度量方法——Hilbert-Schmidt独立性准则(HSIC)。此方法是一种基于分布的非参数独立性度量方法,并不要求数据符合某种特定分布,不以分类率、模型简单度等外部条件作为约束条件,同时非参数定量地描述变量之间的联系程度。对大肠杆菌基因表达数据的实验结果显示,尽管数据集中的时间序列数据样本很小,并且只提供了较弱的和类型复杂的调控信息,但HSIC方法仍能较好地辨识出这种较为隐含且复杂的调控关系。对比计算显示,在3种数据规模下,采用HSIC方法辨识结果的AUROC值高于Granger Causality(GC)方法 23个百分点,高于参与此竞赛的第1名3.9个百分点,而且在计算效率上亦高出其所使用的微分方程法3个数量级。展开更多
文摘提出了多标记分类和标记相关性的联合学习(JMLLC),在JMLLC中,构建了基于类别标记变量的有向条件依赖网络,这样不仅使得标记分类器之间可以联合学习,从而增强各个标记分类器的学习效果,而且标记分类器和标记相关性可以联合学习,从而使得学习得到的标记相关性更为准确.通过采用两种不同的损失函数:logistic回归和最小二乘,分别提出了JMLLC-LR(JMLLC with logistic regression)和JMLLC-LS(JMLLC with least squares),并都拓展到再生核希尔伯特空间中.最后采用交替求解的方法求解JMLLC-LR和JMLLC-LS.在20个基准数据集上基于5种不同的评价准则的实验结果表明,JMLLC优于已提出的多标记学习算法.
文摘穗轴粗和出籽率均是典型的数量性状,在不同程度上影响玉米产量。全基因组选择整合全基因组关联分析(GWAS,genome-wide association study)的先验信息是提高性状预测准确性的有效方法。本研究利用309份玉米自交系穗轴粗和出籽率表型和基因分型测序技术获得的基因型数据,研究基因组最佳线性无偏预测(GBLUP,genomic best linear unbiased prediction)、贝叶斯A(Bayes A)和再生核希尔伯特空间(RKHS,reproducing kernel Hilbert space)模型对2种GWAS方法即固定和随机模型交替概率统一(FarmCPU,fixed and random model circulating probability unification)和压缩混合线性模型(CMLM,compressed mixed linear model)衍生的不同数量标记集、随机选择标记集和所有标记对预测准确性的影响。对于2个性状FarmCPU和CMLM衍生标记集,3个预测模型间的预测准确性差异较小,差值变异范围介于0~0.03。对于随机标记集,相比其他2个模型的预测准确性,RKHS对穗轴粗可提高3.57%~15.91%,而3个预测模型对出籽率具有相似的预测效果。除了50和100个标记,3个模型利用CMLM衍生标记对2个性状的预测效果均优于FarmCPU。相比随机标记集,穗轴粗GWAS衍生标记的预测准确性可提高15.52%~88.37%;出籽率利用衍生标记可提高1~5.89倍。所有衍生标记集的预测准确性均高于所有标记。这些结果均表明,全基因组选择整合GWAS衍生标记有利于提高穗轴粗和出籽率的预测准确性。
基金Supported by the National Natural Science Foundation of China(61972261)the Major Statistic Project of National Bureau of Statistics(2020ZX14)+1 种基金the National Training Program of Innovation and Entrepreneurship for Undergraduates(S202010590028)the Scientific Research Foundation of Shenzhen University for Newly-introduced Teachers(2018060)。
文摘生物学探究的基因关联是类似于因果关系的本质联系,要解决的关键问题是寻找一种可以描述本质联系的方法。针对Dialogue for Reverse Engineering Assessments and Methods第3次竞赛项目(DREAM3)中的大肠杆菌(E.coli)基因调控网络结构辨识问题,提出一种基于再生核希尔伯特空间(RKHS)的统计独立性度量方法——Hilbert-Schmidt独立性准则(HSIC)。此方法是一种基于分布的非参数独立性度量方法,并不要求数据符合某种特定分布,不以分类率、模型简单度等外部条件作为约束条件,同时非参数定量地描述变量之间的联系程度。对大肠杆菌基因表达数据的实验结果显示,尽管数据集中的时间序列数据样本很小,并且只提供了较弱的和类型复杂的调控信息,但HSIC方法仍能较好地辨识出这种较为隐含且复杂的调控关系。对比计算显示,在3种数据规模下,采用HSIC方法辨识结果的AUROC值高于Granger Causality(GC)方法 23个百分点,高于参与此竞赛的第1名3.9个百分点,而且在计算效率上亦高出其所使用的微分方程法3个数量级。