目的选择5种机器学习算法构建模型并比较其预测孕前社会-心理-行为因素与夫妻备孕结局关联的性能表现。方法基于重庆市孕前生殖健康与出生结局队列,选取2019年1月至2022年3月年于重庆市妇幼保健院入组的志愿者资料,队列共入组5447对夫妻...目的选择5种机器学习算法构建模型并比较其预测孕前社会-心理-行为因素与夫妻备孕结局关联的性能表现。方法基于重庆市孕前生殖健康与出生结局队列,选取2019年1月至2022年3月年于重庆市妇幼保健院入组的志愿者资料,队列共入组5447对夫妻,以一对一问卷方式收集夫妻双方人口学和社会-心理-行为资料,共计221个变量。依据纳入排除标准,最终纳入4097对夫妇,按7∶3简单随机化法划分训练集(n=2867对)和验证集(n=1230对),采用特征分析和共线性筛除选择潜在暴露因素;考虑基层卫生机构不易开展精子质量分析,通过在训练集和验证集中同时纳入或排除精子质量,构建包含精液常规参数的特征集1和排除精液常规参数的特征集2。采用Logistic回归、朴素贝叶斯、随机森林、梯度提升机、支持向量机5种算法构建备孕结局预测模型,并采用随机搜索合并网格搜索法优化模型参数。利用精确率、召回率、FI分数、受试者工作特征曲线下面积(area under the curve,AUC)、校准曲线比较各模型预测能力,并选择最优模型,比较有或无精液常规参数情况下,问卷资料对生育结局预测能力的变化。结果特征集1共筛选得到24个变量,特征集2共筛选得到16个变量。特征集1中,梯度提升机效果较好,AUC相对较高(0.651),且F1分数表现较好(0.61);Logistic回归模型表现稳定(AUC=0.647),适合作为参照模型;随机森林(AUC=0.641)、朴素贝叶斯(AUC=0.641)和支持向量机(AUC=0.634)表现次之。特征集1中,梯度提升机验证集AUC为0.651(95%CI:0.629~0.681),预测精度为0.63,召回率为0.65,平均精确度值F1为0.61;特征集2中,其验证集AUC为0.649(95%CI:0.624~0.663),与特征集1相比未见明显降低,2个特征集校准曲线均与理想曲线接近。预测结果提示,在特征集1中,与备孕结局呈较高负相关的特征为女性年龄、男性年龄、夫妻无避孕措施1年内未怀孕;呈较高正相关的特征为女性妊娠史、精子总活力、入组前1年使用避孕措施。结论在本队列资料中对比5种机器学习算法,梯度提升机性能略优;夫妻双方共有24项因素与备孕结局关联,排除精液常规参数的简化模型性能未见明显下降。利用机器学习方法,通过社会-心理-行为问卷预测夫妻备孕结局具有可行性。展开更多
文摘目的选择5种机器学习算法构建模型并比较其预测孕前社会-心理-行为因素与夫妻备孕结局关联的性能表现。方法基于重庆市孕前生殖健康与出生结局队列,选取2019年1月至2022年3月年于重庆市妇幼保健院入组的志愿者资料,队列共入组5447对夫妻,以一对一问卷方式收集夫妻双方人口学和社会-心理-行为资料,共计221个变量。依据纳入排除标准,最终纳入4097对夫妇,按7∶3简单随机化法划分训练集(n=2867对)和验证集(n=1230对),采用特征分析和共线性筛除选择潜在暴露因素;考虑基层卫生机构不易开展精子质量分析,通过在训练集和验证集中同时纳入或排除精子质量,构建包含精液常规参数的特征集1和排除精液常规参数的特征集2。采用Logistic回归、朴素贝叶斯、随机森林、梯度提升机、支持向量机5种算法构建备孕结局预测模型,并采用随机搜索合并网格搜索法优化模型参数。利用精确率、召回率、FI分数、受试者工作特征曲线下面积(area under the curve,AUC)、校准曲线比较各模型预测能力,并选择最优模型,比较有或无精液常规参数情况下,问卷资料对生育结局预测能力的变化。结果特征集1共筛选得到24个变量,特征集2共筛选得到16个变量。特征集1中,梯度提升机效果较好,AUC相对较高(0.651),且F1分数表现较好(0.61);Logistic回归模型表现稳定(AUC=0.647),适合作为参照模型;随机森林(AUC=0.641)、朴素贝叶斯(AUC=0.641)和支持向量机(AUC=0.634)表现次之。特征集1中,梯度提升机验证集AUC为0.651(95%CI:0.629~0.681),预测精度为0.63,召回率为0.65,平均精确度值F1为0.61;特征集2中,其验证集AUC为0.649(95%CI:0.624~0.663),与特征集1相比未见明显降低,2个特征集校准曲线均与理想曲线接近。预测结果提示,在特征集1中,与备孕结局呈较高负相关的特征为女性年龄、男性年龄、夫妻无避孕措施1年内未怀孕;呈较高正相关的特征为女性妊娠史、精子总活力、入组前1年使用避孕措施。结论在本队列资料中对比5种机器学习算法,梯度提升机性能略优;夫妻双方共有24项因素与备孕结局关联,排除精液常规参数的简化模型性能未见明显下降。利用机器学习方法,通过社会-心理-行为问卷预测夫妻备孕结局具有可行性。