旨在对西门塔尔牛群体遗传多样性和遗传结构进行分析,为配种方案和遗传改良提供理论依据。本研究对149头西门塔尔牛的全基因组进行了重测序,并利用这些基因组数据获取的高质量单核苷酸多态性(single-nucleotide polymorphisms,SNPs)位点...旨在对西门塔尔牛群体遗传多样性和遗传结构进行分析,为配种方案和遗传改良提供理论依据。本研究对149头西门塔尔牛的全基因组进行了重测序,并利用这些基因组数据获取的高质量单核苷酸多态性(single-nucleotide polymorphisms,SNPs)位点,对其遗传结构、连续纯合片段(runs of homozygosity,ROH)以及其亲缘关系和家系构建等方面进行了深入的分析。结果显示,149头西门塔尔牛平均测序深度为5×,质控后共鉴定到1265356个SNPs位点,平均最小等位基因频率为0.067,平均多态信息含量为0.083,平均观察杂合度为0.121,平均期望杂合度为0.157。亲缘关系G矩阵与状态同源(identical by state,IBS)遗传距离矩阵具有相似的结果,大部分个体间的亲缘关系呈中等水平。在149头西门塔尔牛个体中,共检测到70个基因组ROH,且ROH总长度为127627.935 kb,其中有98.57%的ROH是长度介于在1~5 Mb之间。基于ROH计算得到的近交系数为0.0003,提示近亲繁殖程度不高。此外,进化树分析将这149头西门塔尔牛划分成为22个不同的家系分支。综上所述,西门塔尔牛群体表现出相对丰富的多样性和适度的亲缘关系。在少数个体中观察到近亲繁殖,但种群的整体近亲繁殖水平仍然很低。展开更多
文摘旨在对西门塔尔牛群体遗传多样性和遗传结构进行分析,为配种方案和遗传改良提供理论依据。本研究对149头西门塔尔牛的全基因组进行了重测序,并利用这些基因组数据获取的高质量单核苷酸多态性(single-nucleotide polymorphisms,SNPs)位点,对其遗传结构、连续纯合片段(runs of homozygosity,ROH)以及其亲缘关系和家系构建等方面进行了深入的分析。结果显示,149头西门塔尔牛平均测序深度为5×,质控后共鉴定到1265356个SNPs位点,平均最小等位基因频率为0.067,平均多态信息含量为0.083,平均观察杂合度为0.121,平均期望杂合度为0.157。亲缘关系G矩阵与状态同源(identical by state,IBS)遗传距离矩阵具有相似的结果,大部分个体间的亲缘关系呈中等水平。在149头西门塔尔牛个体中,共检测到70个基因组ROH,且ROH总长度为127627.935 kb,其中有98.57%的ROH是长度介于在1~5 Mb之间。基于ROH计算得到的近交系数为0.0003,提示近亲繁殖程度不高。此外,进化树分析将这149头西门塔尔牛划分成为22个不同的家系分支。综上所述,西门塔尔牛群体表现出相对丰富的多样性和适度的亲缘关系。在少数个体中观察到近亲繁殖,但种群的整体近亲繁殖水平仍然很低。
文摘为了比较自动机器学习下不同机器学习模型预测部分猪生长性状与全基因组估计育种值(genomic estimated breeding value,GEBV)的性能,并寻找适合的机器学习模型,以优化生猪育种的全基因组评估方法,本研究利用来自多个公司9968头猪的基因组信息、系谱矩阵、固定效应及表型信息通过自动机器学习方法获取深度学习(deep learning,DL)、随机森林(random forest,RF)、梯度提升机(gradient boosting machine,GBM)和极致梯度提升(extreme gradient boosting,XGB)4种机器学习最佳模型。采用10折交叉验证分别对猪达100 kg校正背膘(correcting backfat to 100 kg,B100)、达115 kg校正背膘(correcting backfat to 115 kg,B115)、达100 kg校正日龄(correcting days to 100 kg,D100)、达115 kg校正日龄(correcting days to 100 kg,D115)的GEBV及其表型进行预测,比较不同机器学习模型应用于猪基因组评估的性能。结果表明:机器学习模型对GEBV的估计准确性高于性状表型;在GEBV预测中,GBM在B100、B115、D100、D115的预测准确性分别为0.683、0.710、0.866、0.871,略高于其他方法;在表型预测中,对猪B100、B115、D100、D115预测性能最好的模型依次为GBM(0.547)、DL(0.547)、XGB(0.672、0.670);在模型训练所需时间上,RF远高于其他3种模型,GBM与DL居中,XGB所需时间最少。综上所述,通过自动机器学习获取的机器学习模型对GEBV预测的准确性高于表型;GBM模型总体上表现出最高的预测准确性与较短训练时间;XGB能够利用最短的时间训练准确性较高的预测模型;RF模型的训练时间远超其他3种模型,且准确性不足,不适用猪生长性状表型与GEBV预测。