针对大多数加密流量分类(encrypted traffic classification,ETC)模型由于标签数据稀缺而导致的性能下降问题,提出了一个基于对比学习的半监督加密流量分类(semisupervised encrypted traffic classification based on contrastive lear...针对大多数加密流量分类(encrypted traffic classification,ETC)模型由于标签数据稀缺而导致的性能下降问题,提出了一个基于对比学习的半监督加密流量分类(semisupervised encrypted traffic classification based on contrastive learning,SSETC-CL)模型。通过比较样本之间的相似性和差异性,SSETC-CL模型能够从大量无标注数据中学习到有用的表示,从而获得一个通用且优秀的特征编码网络,降低了下游任务对标签数据的依赖。本文在公有数据集ISCXVPN2016以及两个自采数据集上对SSETC-CL模型进行了评估。与其他基准模型相比,SSETC-CL模型在设定任务上的表现最佳,准确率最大提升了8.92%。实验结果表明,SSETC-CL模型不仅在预训练模型已知的流量上具有较高的精度,而且具备将预训练模型所获得的知识应用于未知流量的迁移能力。展开更多
现有的时间序列对比学习方法存在增强样本构造方式过于依赖人工经验、泛化能力不足、正样本的定义方式不够通用、对比度量方式存在粗粒度表征等问题,使得整体的时序表示效果较差。为此,提出了一种融合时频特征的多粒度时间序列对比学习...现有的时间序列对比学习方法存在增强样本构造方式过于依赖人工经验、泛化能力不足、正样本的定义方式不够通用、对比度量方式存在粗粒度表征等问题,使得整体的时序表示效果较差。为此,提出了一种融合时频特征的多粒度时间序列对比学习方法(Temporal-Spectral Deep Contrastive Network, TSDC)。该方法通过季节-趋势生成网络在时域内产生具有稳定变化的时序增强样本,通过多频带融合扰动操作在频域内产生非稳定变化的时序增强样本,两种增强样本通过实例级别的粗粒度对比以及维度级别的细粒度对比方式进行对比学习,使得模型在获得较好表征的同时能够较好地适应于下游不同类型的时序任务。在多个时间序列公开数据集上进行的分类、预测以及异常检测实验表明,由TSDC方法所得的表征用于下游任务的结果优于典型基线模型。展开更多
乙烯裂解炉是乙烯生产的核心装置,烃类原料在裂解炉中发生复杂的高温裂解反应,及时识别裂解炉运行工况变化对设备安全高效运行非常重要。裂解炉运行过程中产生大量的过程数据,这些数据通常具有多变量、高维度特性,增加了数据处理和分析...乙烯裂解炉是乙烯生产的核心装置,烃类原料在裂解炉中发生复杂的高温裂解反应,及时识别裂解炉运行工况变化对设备安全高效运行非常重要。裂解炉运行过程中产生大量的过程数据,这些数据通常具有多变量、高维度特性,增加了数据处理和分析的复杂性,如何基于过程数据及时检测乙烯裂解炉工况变化成为亟需解决的问题。借鉴对比学习算法在图片分类中的优秀性能,提出一类基于对比学习的裂解炉运行工况识别方法。首先,将乙烯裂解炉工业数据经归一化后,使用不同长度的时间窗动态提取数据,将其转化为灰度图片。根据图片中的信息,将图片进行数据增强后输入编码器,得到图片的全局语义、类别、内容不变性等特征。将这些特征应用于计算对比学习的损失函数,通过最小化对比损失函数,实现对灰度图片的分类。通过本文方法,可以根据过程数据快速发现工况变化,其分类准确度较通用时间序列表示学习的自监督对比学习(self-supervised contrastive learning for universal time series representation learning,TimesURL)方法有明显提升,可有效实现乙烯裂解炉工况识别。展开更多
影像基因组学认为神经影像与基因之间存在着一定程度的相关性,利用遗传变异与影像数据进行疾病分析愈发受研究人员重视。在实践中,临床医生拥有的数据规模往往较小,但仍然希望使用深度学习来解决现实问题。考虑到不断扩大的数据规模与...影像基因组学认为神经影像与基因之间存在着一定程度的相关性,利用遗传变异与影像数据进行疾病分析愈发受研究人员重视。在实践中,临床医生拥有的数据规模往往较小,但仍然希望使用深度学习来解决现实问题。考虑到不断扩大的数据规模与昂贵的标注成本,构建能够利用多模态数据的无监督学习方法十分必要。为了满足上述需求,提出了一种基于影像与基因多模态表格数据对比学习的表征学习方法(multimodal tabular data with contrastive learning,MTCL),该模型利用了静息态功能磁共振成像(rs-fMRI)和单核苷酸多态性(single nucleotide polymorphisms,SNP)数据,无需数据的任何标签信息。为了增强可解释性,模型先通过特征提取模块将rs-fMRI和SNP数据转换为表格类型结构,再通过多模态表格数据对比学习模块对多模态数据进行融合,并获得融合后的数据表征。在重度抑郁症(major depression disorder,MDD)数据上,文中提出的方法能够有效提升MDD诊断性能。此外,MTCL方法结合了模型归因方法挖掘与MDD相关的影像和遗传生物标记物,提高了模型的可解释性,有助于研究人员对疾病发病机制的理解。展开更多
针对序列推荐任务中存在的数据稀疏问题,提出语义增强的多任务对比学习序列推荐模型(multi-task contrastive learning model with semantic enhancement for sequential recommendation,MCLM-SE4SRec),采用多任务联合训练的方式将2个...针对序列推荐任务中存在的数据稀疏问题,提出语义增强的多任务对比学习序列推荐模型(multi-task contrastive learning model with semantic enhancement for sequential recommendation,MCLM-SE4SRec),采用多任务联合训练的方式将2个对比学习任务与推荐任务进行结合。数据增强的对比学习任务通过结合项目相关性和序列长度对用户序列执行数据增强操作;语义聚类的对比学习任务从高维语义信息的角度,通过语义信息聚类挖掘潜在的用户序列语义信息,学习到更好的向量表示特征。在数据增强的对比学习任务中,利用负样本选择优化策略,通过对假负例的识别得到更合理的负样例集合,进一步提升模型性能。在3个公开数据集上的实验结果表明,该模型取得了优异的性能。展开更多
文摘针对大多数加密流量分类(encrypted traffic classification,ETC)模型由于标签数据稀缺而导致的性能下降问题,提出了一个基于对比学习的半监督加密流量分类(semisupervised encrypted traffic classification based on contrastive learning,SSETC-CL)模型。通过比较样本之间的相似性和差异性,SSETC-CL模型能够从大量无标注数据中学习到有用的表示,从而获得一个通用且优秀的特征编码网络,降低了下游任务对标签数据的依赖。本文在公有数据集ISCXVPN2016以及两个自采数据集上对SSETC-CL模型进行了评估。与其他基准模型相比,SSETC-CL模型在设定任务上的表现最佳,准确率最大提升了8.92%。实验结果表明,SSETC-CL模型不仅在预训练模型已知的流量上具有较高的精度,而且具备将预训练模型所获得的知识应用于未知流量的迁移能力。
文摘现有的时间序列对比学习方法存在增强样本构造方式过于依赖人工经验、泛化能力不足、正样本的定义方式不够通用、对比度量方式存在粗粒度表征等问题,使得整体的时序表示效果较差。为此,提出了一种融合时频特征的多粒度时间序列对比学习方法(Temporal-Spectral Deep Contrastive Network, TSDC)。该方法通过季节-趋势生成网络在时域内产生具有稳定变化的时序增强样本,通过多频带融合扰动操作在频域内产生非稳定变化的时序增强样本,两种增强样本通过实例级别的粗粒度对比以及维度级别的细粒度对比方式进行对比学习,使得模型在获得较好表征的同时能够较好地适应于下游不同类型的时序任务。在多个时间序列公开数据集上进行的分类、预测以及异常检测实验表明,由TSDC方法所得的表征用于下游任务的结果优于典型基线模型。
文摘乙烯裂解炉是乙烯生产的核心装置,烃类原料在裂解炉中发生复杂的高温裂解反应,及时识别裂解炉运行工况变化对设备安全高效运行非常重要。裂解炉运行过程中产生大量的过程数据,这些数据通常具有多变量、高维度特性,增加了数据处理和分析的复杂性,如何基于过程数据及时检测乙烯裂解炉工况变化成为亟需解决的问题。借鉴对比学习算法在图片分类中的优秀性能,提出一类基于对比学习的裂解炉运行工况识别方法。首先,将乙烯裂解炉工业数据经归一化后,使用不同长度的时间窗动态提取数据,将其转化为灰度图片。根据图片中的信息,将图片进行数据增强后输入编码器,得到图片的全局语义、类别、内容不变性等特征。将这些特征应用于计算对比学习的损失函数,通过最小化对比损失函数,实现对灰度图片的分类。通过本文方法,可以根据过程数据快速发现工况变化,其分类准确度较通用时间序列表示学习的自监督对比学习(self-supervised contrastive learning for universal time series representation learning,TimesURL)方法有明显提升,可有效实现乙烯裂解炉工况识别。
文摘影像基因组学认为神经影像与基因之间存在着一定程度的相关性,利用遗传变异与影像数据进行疾病分析愈发受研究人员重视。在实践中,临床医生拥有的数据规模往往较小,但仍然希望使用深度学习来解决现实问题。考虑到不断扩大的数据规模与昂贵的标注成本,构建能够利用多模态数据的无监督学习方法十分必要。为了满足上述需求,提出了一种基于影像与基因多模态表格数据对比学习的表征学习方法(multimodal tabular data with contrastive learning,MTCL),该模型利用了静息态功能磁共振成像(rs-fMRI)和单核苷酸多态性(single nucleotide polymorphisms,SNP)数据,无需数据的任何标签信息。为了增强可解释性,模型先通过特征提取模块将rs-fMRI和SNP数据转换为表格类型结构,再通过多模态表格数据对比学习模块对多模态数据进行融合,并获得融合后的数据表征。在重度抑郁症(major depression disorder,MDD)数据上,文中提出的方法能够有效提升MDD诊断性能。此外,MTCL方法结合了模型归因方法挖掘与MDD相关的影像和遗传生物标记物,提高了模型的可解释性,有助于研究人员对疾病发病机制的理解。
文摘针对序列推荐任务中存在的数据稀疏问题,提出语义增强的多任务对比学习序列推荐模型(multi-task contrastive learning model with semantic enhancement for sequential recommendation,MCLM-SE4SRec),采用多任务联合训练的方式将2个对比学习任务与推荐任务进行结合。数据增强的对比学习任务通过结合项目相关性和序列长度对用户序列执行数据增强操作;语义聚类的对比学习任务从高维语义信息的角度,通过语义信息聚类挖掘潜在的用户序列语义信息,学习到更好的向量表示特征。在数据增强的对比学习任务中,利用负样本选择优化策略,通过对假负例的识别得到更合理的负样例集合,进一步提升模型性能。在3个公开数据集上的实验结果表明,该模型取得了优异的性能。