海洋温度数据在全球海洋观测和气候研究中发挥着关键作用,质量控制对于确保这些数据的可靠性十分关键,然而,目前在大数据集上的异常数据召回率尚不理想。文章基于Argo温度数据,提出一种基于规则集和多层感知机(rule set and multilayer ...海洋温度数据在全球海洋观测和气候研究中发挥着关键作用,质量控制对于确保这些数据的可靠性十分关键,然而,目前在大数据集上的异常数据召回率尚不理想。文章基于Argo温度数据,提出一种基于规则集和多层感知机(rule set and multilayer perceptron,RS-MLP)的质量控制方法。首先对13种机器学习模型进行对比分析,从中筛选出最优机器学习模型,然后设计了由6种基于规则的质量控制检查模块组成的规则集,最后集成规则集和最优机器学习模型构建出RS-MLP方法,并以南海区域的Argo数据为例评估方法性能。研究结果表明:RS-MLP在351746条温度数据的测试集中真阳性率(true positive rate,TPR)、真阴性率(true negative rate,TNR)和接受者操作特性(receiver operating characteristic,ROC)曲线下面积(area under the curve,AUC)依次能达到93%、96%和95%,并在不同深度层次上的异常数据召回率比较稳定,具有优秀的质量控制性能。展开更多
文摘海洋温度数据在全球海洋观测和气候研究中发挥着关键作用,质量控制对于确保这些数据的可靠性十分关键,然而,目前在大数据集上的异常数据召回率尚不理想。文章基于Argo温度数据,提出一种基于规则集和多层感知机(rule set and multilayer perceptron,RS-MLP)的质量控制方法。首先对13种机器学习模型进行对比分析,从中筛选出最优机器学习模型,然后设计了由6种基于规则的质量控制检查模块组成的规则集,最后集成规则集和最优机器学习模型构建出RS-MLP方法,并以南海区域的Argo数据为例评估方法性能。研究结果表明:RS-MLP在351746条温度数据的测试集中真阳性率(true positive rate,TPR)、真阴性率(true negative rate,TNR)和接受者操作特性(receiver operating characteristic,ROC)曲线下面积(area under the curve,AUC)依次能达到93%、96%和95%,并在不同深度层次上的异常数据召回率比较稳定,具有优秀的质量控制性能。