摘要
目的本研究旨在评价二代测序数据中关联性分析方法。以往运用于全基因组关联性研究(genome-wide association study,GWAS)中的方法能否在全外显子测序数据中有良好的精确度,对于未来测序数据的挖掘有重要的意义。方法利用英国生物样本库(UK biobank,UKB)45万人全外显子测序数据,模拟不同病例占比、不同亲缘关系占比的数据集,采用BOLT-LMM,SAIGE,fastGWA-GLMM和REGENIE四种常见的关联性分析算法对各种情景下的数据集进行模拟试验,评价指标主要是一类错误、运行时间和内存占用。根据不同情景下模拟试验结果,寻找效果最优的方法。结果SAIGE和REGENIE在各种情况下均能较好的控制一类错误,计算效率也较高。面对亲缘关系占比高,亲缘关系复杂的数据时,fastGWA-GLMM表现较差。BOLT-LMM不适用于二元表型,不推荐用于实际工作。结论综合比较,基于广义混合模型的SAIGE和基于机器学习的REGENIE适用于二代测序数据关联性分析。
出处
《中国卫生统计》
北大核心
2025年第3期401-405,共5页
Chinese Journal of Health Statistics
基金
国家自然科学基金重点国际(地区)合作研究项目(82220108002)
国家自然科学基金面上项目(82373685)。
作者简介
通信作者:陈峰,E-mail:fengchen@njmu.edu.cn。