摘要
【目的】探讨机器学习在基因组微卫星状态检测方法中的应用及未来研究方向。【文献范围】本文收集了微卫星状态检测方法相关文献。【方法】首先简要介绍微卫星状态检测的意义和常用的检测手段,其次对目前主流的基于机器学习的检测方法进行详细介绍,最后展望未来机器学习在微卫星状态检测领域中的研究方向。【结果】基于机器学习的检测方法从大量测序数据中迭代学习,获取影响微卫星不稳定性的关键特征,该类检测方法可以取得较好的预测效果。【局限】检测方法使用的数据类型各异,本文中无法使用同一数据集对各个检测方法进行实验比较。【结论】机器学习已广泛应用于微卫星状态检测领域,提高检测方法的适用性以及从外周血样本中检测微卫星状态,是机器学习在此领域的未来研究方向。
[Objective]This paper discusses the application and future research direction of machine learning in microsatellite status detection.[Scope of the literature]We collected the related literature of microsatellite status detection methods.[Methods]Firstly,the significance of microsatellite status detection and common detection methods are briefly introduced.Secondly,the current mainstream detection methods based on machine learning are introduced in detail.Finally,perspective future research direction of machine learning in the field of microsatellite status detection is presented.[Results]The detection methods based on machine learning can iteratively learn from massive sequencing data and discern key features that affect microsatellite instability.They can achieve accurate prediction results.[Limitations]The data types used by the detection methods are different,so we cannot compare the detection methods within the same dataset.[Conclusions]Machine learning has been widely used in microsatellite status detection.Improving the applicability of detection methods and detecting microsatellite status from peripheral blood samples are the future research directions of machine learning in this field.
作者
张舒莹
韩鑫胤
何小雨
袁丹阳
栾海晶
李瑞琳
何佳茵
牛北方
ZHANG Shuying;HAN Xinyin;HE Xiaoyu;YUAN Danyang;LUAN Haijing;LI Ruilin;HE Jiayin;NIU Beifang(Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China)
出处
《数据与计算发展前沿》
CSCD
2021年第3期126-135,共10页
Frontiers of Data & Computing
基金
中国科学院战略性先导科技专项(B类)(XDB38040100)。
关键词
机器学习
基因组
微卫星不稳定性
测序数据
关键特征
machine learning
genome
microsatellite instability
sequencing data
key features
作者简介
张舒莹,中国科学院计算机网络信息中心,在读硕士研究生,主要研究方向为癌症基因组学,E-mail:zhangshuying@cnic.cn;韩鑫胤,中国科学院计算机网络信息中心,在读博士研究生,主要研究方向为癌症基因组学,E-mail:hanxinyin@cnic.cn;何小雨,中国科学院计算机网络信息中心,在读博士研究生,主要研究方向为高性能计算和癌症基因组学。E-mail:hexy@sccas.cn;袁丹阳,中国科学院计算机网络信息中心,在读硕士研究生,主要致力于白血病相关生物信息学的研究。E-mail:yuandanyang@cnic.cn;栾海晶,中国科学院计算机网络信息中心,在读硕士研究生,主要研究方向为高性能计算和癌症基因组学,E-mail:luanhaijing@cnic.cn;李瑞琳,中国科学院计算机网络信息中心,博士,助理研究员,主要研究方向为高性能计算和癌症基因组学,E-mail:lirl@sccas.cn;何佳茵,中国科学院计算机网络信息中心,硕士,助理工程师,主要研究方向为高性能计算和癌症基因组学,E-mail:jiayin.he@cnic.cn;通讯作者:牛北方,中国科学院计算机网络信息中心,博士,研究员,主要研究方向为高性能计算和癌症基因组学。E-mail:niubf@cnic.cn。