-
题名基于TPE的SpaRC算法超参数优化方法
被引量:4
- 1
-
-
作者
邓丽
武金达
李科学
卢亚康
-
机构
上海大学机电工程与自动化学院
上海市电站自动化技术重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2021年第2期70-75,共6页
-
基金
国家自然科学基金(61802246)。
-
文摘
宏基因组序列组装在计算和内存上面临着巨大挑战。SpaRC(Spark Reads Clustering)是基于Apache Spark的宏基因组序列片段聚类算法,为来自下一代测序技术的数十亿测序片段聚类提供了一种可扩展的解决方案。但是,SpaRC算法参数的设置是一项非常具有挑战性的工作。SpaRC算法拥有许多对算法性能有着很大影响的超参数,选择合适的超参数集对于充分发挥SpaRC算法的性能来说是至关重要的。为了提高SpaRC算法的性能,探索了一种基于树状结构Parzen估计方法(Tree Parzen Estimator,TPE)的超参数优化方法,其能够利用先验知识高效地调节参数,并通过减少计算任务加速寻找最优参数,达到最佳聚类效果,从而避免昂贵的参数探索。对长序列片段(PacBio)和短序列片段(CAMI2)进行实验,结果表明,该方法在改善SpaRC算法性能方面有着良好的效果。
-
关键词
SPARC
宏基因组
序列片段聚类
TPE
超参数优化
-
Keywords
SpaRC
Metagenomics
Sequence fragment clustering
TPE
Hyperparametric optimization
-
分类号
TP399
[自动化与计算机技术—计算机应用技术]
Q812
[生物学—生物工程]
-