针对现有的工业控制系统异常检测分类方法大多无法有效处理类不平衡和重叠耦合的问题,提出了一种基于干扰样本分布优化的工控异常检测改进SVM模型(Improved SVM Model Based on Adaptive Differential Evolution with Sphere, SJADE_SV...针对现有的工业控制系统异常检测分类方法大多无法有效处理类不平衡和重叠耦合的问题,提出了一种基于干扰样本分布优化的工控异常检测改进SVM模型(Improved SVM Model Based on Adaptive Differential Evolution with Sphere, SJADE_SVM),该模型将基于超球体覆盖的自适应差分进化过采样技术与支持向量机相结合。首先,通过改进超球体覆盖算法和构建概率公式,来识别和排除干扰样本;然后,改进合成少数派过采样技术,通过对安全样本采样,缓解类不平衡和重叠耦合问题;最后,使用自适应差分进化算法优化样本的位置和属性,同时使用SVM进行分类。在6个真实工控数据集和4个UCI公开数据集上共设计3组实验,包括与逻辑回归和高斯朴素贝叶斯等异常检测分类算法的性能对比、改善样本分布方法的实验对比以及算法的运行时间对比。实验结果表明,该模型在F-score和G-mean评价指标上分别提高了38.29%和10.54%,分类效果稳居前三,且在α=0.05的非参数双侧Wilcoxon符号秩检验和Friedman检验等统计实验中表现出显著的性能优势。展开更多
致灾环境因子是滑坡易发性预测建模的输入变量,是指影响滑坡发生、发展和分布的各种边坡自然属性因子。类型齐全且意义明确的致灾环境因子,对提高滑坡易发性结果的准确性和可靠性至关重要。为了进一步明确致灾环境因子的研究现状和未来...致灾环境因子是滑坡易发性预测建模的输入变量,是指影响滑坡发生、发展和分布的各种边坡自然属性因子。类型齐全且意义明确的致灾环境因子,对提高滑坡易发性结果的准确性和可靠性至关重要。为了进一步明确致灾环境因子的研究现状和未来展望,本研究在Web of Science的核心合集数据库中进行了文献检索,标题中包含“landslide susceptibility”,出版日期范围从20130101-20231231,收集了767篇滑坡易发性英文论文构成文献数据库。首先统计每篇文献中致灾环境因子数量、获取方法、来源、重要性和认可度等信息,然后详述了致灾环境因子的定义和物理意义;之后对致灾环境因子的优化选取/组合方法、因子联接方法、因子误差及其适宜性等特征进行了讨论,为后续预测滑坡易发性时选取致灾环境因子的不确定性研究提供参考。综述结果表明:(1)文献数据库中共统计出82种致灾环境因子,使用频率较高的因子有40余种,其中坡度、坡向、高程、岩性是使用频率最高的4个因子,坡度、高程、公路密度、岩性、降雨等因子在滑坡易发性预测中的重要性依次增高;(2)发现采用类型齐全且物理意义明确的致灾环境因子、基于环境因子联接方法来构建模型输入变量、消除环境因子中的随机误差、提升环境因子的适宜性和内在可解释性等研究有利于大幅提升机器学习方法预测滑坡易发性的性能,在未来研究中需要重点关注这些关键问题。展开更多
目的选择5种机器学习算法构建模型并比较其预测孕前社会-心理-行为因素与夫妻备孕结局关联的性能表现。方法基于重庆市孕前生殖健康与出生结局队列,选取2019年1月至2022年3月年于重庆市妇幼保健院入组的志愿者资料,队列共入组5447对夫妻...目的选择5种机器学习算法构建模型并比较其预测孕前社会-心理-行为因素与夫妻备孕结局关联的性能表现。方法基于重庆市孕前生殖健康与出生结局队列,选取2019年1月至2022年3月年于重庆市妇幼保健院入组的志愿者资料,队列共入组5447对夫妻,以一对一问卷方式收集夫妻双方人口学和社会-心理-行为资料,共计221个变量。依据纳入排除标准,最终纳入4097对夫妇,按7∶3简单随机化法划分训练集(n=2867对)和验证集(n=1230对),采用特征分析和共线性筛除选择潜在暴露因素;考虑基层卫生机构不易开展精子质量分析,通过在训练集和验证集中同时纳入或排除精子质量,构建包含精液常规参数的特征集1和排除精液常规参数的特征集2。采用Logistic回归、朴素贝叶斯、随机森林、梯度提升机、支持向量机5种算法构建备孕结局预测模型,并采用随机搜索合并网格搜索法优化模型参数。利用精确率、召回率、FI分数、受试者工作特征曲线下面积(area under the curve,AUC)、校准曲线比较各模型预测能力,并选择最优模型,比较有或无精液常规参数情况下,问卷资料对生育结局预测能力的变化。结果特征集1共筛选得到24个变量,特征集2共筛选得到16个变量。特征集1中,梯度提升机效果较好,AUC相对较高(0.651),且F1分数表现较好(0.61);Logistic回归模型表现稳定(AUC=0.647),适合作为参照模型;随机森林(AUC=0.641)、朴素贝叶斯(AUC=0.641)和支持向量机(AUC=0.634)表现次之。特征集1中,梯度提升机验证集AUC为0.651(95%CI:0.629~0.681),预测精度为0.63,召回率为0.65,平均精确度值F1为0.61;特征集2中,其验证集AUC为0.649(95%CI:0.624~0.663),与特征集1相比未见明显降低,2个特征集校准曲线均与理想曲线接近。预测结果提示,在特征集1中,与备孕结局呈较高负相关的特征为女性年龄、男性年龄、夫妻无避孕措施1年内未怀孕;呈较高正相关的特征为女性妊娠史、精子总活力、入组前1年使用避孕措施。结论在本队列资料中对比5种机器学习算法,梯度提升机性能略优;夫妻双方共有24项因素与备孕结局关联,排除精液常规参数的简化模型性能未见明显下降。利用机器学习方法,通过社会-心理-行为问卷预测夫妻备孕结局具有可行性。展开更多
文摘针对现有的工业控制系统异常检测分类方法大多无法有效处理类不平衡和重叠耦合的问题,提出了一种基于干扰样本分布优化的工控异常检测改进SVM模型(Improved SVM Model Based on Adaptive Differential Evolution with Sphere, SJADE_SVM),该模型将基于超球体覆盖的自适应差分进化过采样技术与支持向量机相结合。首先,通过改进超球体覆盖算法和构建概率公式,来识别和排除干扰样本;然后,改进合成少数派过采样技术,通过对安全样本采样,缓解类不平衡和重叠耦合问题;最后,使用自适应差分进化算法优化样本的位置和属性,同时使用SVM进行分类。在6个真实工控数据集和4个UCI公开数据集上共设计3组实验,包括与逻辑回归和高斯朴素贝叶斯等异常检测分类算法的性能对比、改善样本分布方法的实验对比以及算法的运行时间对比。实验结果表明,该模型在F-score和G-mean评价指标上分别提高了38.29%和10.54%,分类效果稳居前三,且在α=0.05的非参数双侧Wilcoxon符号秩检验和Friedman检验等统计实验中表现出显著的性能优势。
文摘致灾环境因子是滑坡易发性预测建模的输入变量,是指影响滑坡发生、发展和分布的各种边坡自然属性因子。类型齐全且意义明确的致灾环境因子,对提高滑坡易发性结果的准确性和可靠性至关重要。为了进一步明确致灾环境因子的研究现状和未来展望,本研究在Web of Science的核心合集数据库中进行了文献检索,标题中包含“landslide susceptibility”,出版日期范围从20130101-20231231,收集了767篇滑坡易发性英文论文构成文献数据库。首先统计每篇文献中致灾环境因子数量、获取方法、来源、重要性和认可度等信息,然后详述了致灾环境因子的定义和物理意义;之后对致灾环境因子的优化选取/组合方法、因子联接方法、因子误差及其适宜性等特征进行了讨论,为后续预测滑坡易发性时选取致灾环境因子的不确定性研究提供参考。综述结果表明:(1)文献数据库中共统计出82种致灾环境因子,使用频率较高的因子有40余种,其中坡度、坡向、高程、岩性是使用频率最高的4个因子,坡度、高程、公路密度、岩性、降雨等因子在滑坡易发性预测中的重要性依次增高;(2)发现采用类型齐全且物理意义明确的致灾环境因子、基于环境因子联接方法来构建模型输入变量、消除环境因子中的随机误差、提升环境因子的适宜性和内在可解释性等研究有利于大幅提升机器学习方法预测滑坡易发性的性能,在未来研究中需要重点关注这些关键问题。
文摘目的选择5种机器学习算法构建模型并比较其预测孕前社会-心理-行为因素与夫妻备孕结局关联的性能表现。方法基于重庆市孕前生殖健康与出生结局队列,选取2019年1月至2022年3月年于重庆市妇幼保健院入组的志愿者资料,队列共入组5447对夫妻,以一对一问卷方式收集夫妻双方人口学和社会-心理-行为资料,共计221个变量。依据纳入排除标准,最终纳入4097对夫妇,按7∶3简单随机化法划分训练集(n=2867对)和验证集(n=1230对),采用特征分析和共线性筛除选择潜在暴露因素;考虑基层卫生机构不易开展精子质量分析,通过在训练集和验证集中同时纳入或排除精子质量,构建包含精液常规参数的特征集1和排除精液常规参数的特征集2。采用Logistic回归、朴素贝叶斯、随机森林、梯度提升机、支持向量机5种算法构建备孕结局预测模型,并采用随机搜索合并网格搜索法优化模型参数。利用精确率、召回率、FI分数、受试者工作特征曲线下面积(area under the curve,AUC)、校准曲线比较各模型预测能力,并选择最优模型,比较有或无精液常规参数情况下,问卷资料对生育结局预测能力的变化。结果特征集1共筛选得到24个变量,特征集2共筛选得到16个变量。特征集1中,梯度提升机效果较好,AUC相对较高(0.651),且F1分数表现较好(0.61);Logistic回归模型表现稳定(AUC=0.647),适合作为参照模型;随机森林(AUC=0.641)、朴素贝叶斯(AUC=0.641)和支持向量机(AUC=0.634)表现次之。特征集1中,梯度提升机验证集AUC为0.651(95%CI:0.629~0.681),预测精度为0.63,召回率为0.65,平均精确度值F1为0.61;特征集2中,其验证集AUC为0.649(95%CI:0.624~0.663),与特征集1相比未见明显降低,2个特征集校准曲线均与理想曲线接近。预测结果提示,在特征集1中,与备孕结局呈较高负相关的特征为女性年龄、男性年龄、夫妻无避孕措施1年内未怀孕;呈较高正相关的特征为女性妊娠史、精子总活力、入组前1年使用避孕措施。结论在本队列资料中对比5种机器学习算法,梯度提升机性能略优;夫妻双方共有24项因素与备孕结局关联,排除精液常规参数的简化模型性能未见明显下降。利用机器学习方法,通过社会-心理-行为问卷预测夫妻备孕结局具有可行性。