大数据时代,越来越多的数据以数据流的形式产生,由于其具有快速、无限、不稳定及动态变化等特性,使得概念漂移成为流数据挖掘中一个重要但困难的问题.目前多数概念漂移处理方法存在信息提取能力有限且未充分考虑流数据的时序特性等问题...大数据时代,越来越多的数据以数据流的形式产生,由于其具有快速、无限、不稳定及动态变化等特性,使得概念漂移成为流数据挖掘中一个重要但困难的问题.目前多数概念漂移处理方法存在信息提取能力有限且未充分考虑流数据的时序特性等问题.针对这些问题,提出一种基于混合特征提取的流数据概念漂移处理方法(concept drift processing method of streaming data based on mixed feature extraction,MFECD).该方法首先采用不同尺度的卷积核对数据进行建模以构建拼接特征,采用门控机制将浅层输入和拼接特征融合,作为不同网络层次输入进行自适应集成,以获得能够兼顾细节信息和语义信息的数据特性.在此基础上,采用注意力机制和相似度计算评估流数据不同时刻的重要性,以增强数据流关键位点的时序特性.实验结果表明,该方法能有效提取流数据中包含的复杂数据特征和时序特征,提高了数据流中概念漂移的处理能力.展开更多
部分有序数据是同时包含有序特征与无序特征的一类数据,其广泛存在于现实生活中。传统的有序分类方法或者将所有特征都视为有序特征,或者对有序与无序特征分别进行处理,忽略了二者之间的关系,这些方法难以有效解决部分有序数据上的分类...部分有序数据是同时包含有序特征与无序特征的一类数据,其广泛存在于现实生活中。传统的有序分类方法或者将所有特征都视为有序特征,或者对有序与无序特征分别进行处理,忽略了二者之间的关系,这些方法难以有效解决部分有序数据上的分类问题。针对该问题,提出一种基于特征融合的部分有序深度森林模型,称为FFDF(feature fusion-based deep forest)。利用典型相关分析的思想,设计特征融合的贡献度计算方法,将有序特征和无序特征融合到同一特征空间,统一度量二者之间的关系。对融合的特征空间进行数据粒化,降低模型处理连续变量时的复杂性。设计融合空间下的特征矩阵输入级联森林,构建部分有序的深度森林模型。在来自UCI和WEKA的13个公共数据集上与部分单调决策树、有序分类模型、深度森林模型等六种方法进行比较实验,结果表明所提方法在准确性和平均绝对误差方面均优于对比方法;与集成模型深度森林gcForest和DF21进行了时间性能上的对比实验,结果表明所提方法在时间性能上优于对比方法。展开更多
文摘大数据时代,越来越多的数据以数据流的形式产生,由于其具有快速、无限、不稳定及动态变化等特性,使得概念漂移成为流数据挖掘中一个重要但困难的问题.目前多数概念漂移处理方法存在信息提取能力有限且未充分考虑流数据的时序特性等问题.针对这些问题,提出一种基于混合特征提取的流数据概念漂移处理方法(concept drift processing method of streaming data based on mixed feature extraction,MFECD).该方法首先采用不同尺度的卷积核对数据进行建模以构建拼接特征,采用门控机制将浅层输入和拼接特征融合,作为不同网络层次输入进行自适应集成,以获得能够兼顾细节信息和语义信息的数据特性.在此基础上,采用注意力机制和相似度计算评估流数据不同时刻的重要性,以增强数据流关键位点的时序特性.实验结果表明,该方法能有效提取流数据中包含的复杂数据特征和时序特征,提高了数据流中概念漂移的处理能力.
文摘部分有序数据是同时包含有序特征与无序特征的一类数据,其广泛存在于现实生活中。传统的有序分类方法或者将所有特征都视为有序特征,或者对有序与无序特征分别进行处理,忽略了二者之间的关系,这些方法难以有效解决部分有序数据上的分类问题。针对该问题,提出一种基于特征融合的部分有序深度森林模型,称为FFDF(feature fusion-based deep forest)。利用典型相关分析的思想,设计特征融合的贡献度计算方法,将有序特征和无序特征融合到同一特征空间,统一度量二者之间的关系。对融合的特征空间进行数据粒化,降低模型处理连续变量时的复杂性。设计融合空间下的特征矩阵输入级联森林,构建部分有序的深度森林模型。在来自UCI和WEKA的13个公共数据集上与部分单调决策树、有序分类模型、深度森林模型等六种方法进行比较实验,结果表明所提方法在准确性和平均绝对误差方面均优于对比方法;与集成模型深度森林gcForest和DF21进行了时间性能上的对比实验,结果表明所提方法在时间性能上优于对比方法。