针对大多数加密流量分类(encrypted traffic classification,ETC)模型由于标签数据稀缺而导致的性能下降问题,提出了一个基于对比学习的半监督加密流量分类(semisupervised encrypted traffic classification based on contrastive lear...针对大多数加密流量分类(encrypted traffic classification,ETC)模型由于标签数据稀缺而导致的性能下降问题,提出了一个基于对比学习的半监督加密流量分类(semisupervised encrypted traffic classification based on contrastive learning,SSETC-CL)模型。通过比较样本之间的相似性和差异性,SSETC-CL模型能够从大量无标注数据中学习到有用的表示,从而获得一个通用且优秀的特征编码网络,降低了下游任务对标签数据的依赖。本文在公有数据集ISCXVPN2016以及两个自采数据集上对SSETC-CL模型进行了评估。与其他基准模型相比,SSETC-CL模型在设定任务上的表现最佳,准确率最大提升了8.92%。实验结果表明,SSETC-CL模型不仅在预训练模型已知的流量上具有较高的精度,而且具备将预训练模型所获得的知识应用于未知流量的迁移能力。展开更多
现有的半监督声音事件检测方法直接使用强标签合成样本、弱标签真实样本和无标签真实样本进行训练,以缓解标签样本量不足的问题。然而,合成和真实数据域之间存在不可避免的分布差异,这种差异会干扰模型梯度优化方向,从而限制模型的泛化...现有的半监督声音事件检测方法直接使用强标签合成样本、弱标签真实样本和无标签真实样本进行训练,以缓解标签样本量不足的问题。然而,合成和真实数据域之间存在不可避免的分布差异,这种差异会干扰模型梯度优化方向,从而限制模型的泛化能力。针对这一问题,基于元学习(Meta Learning)提出了一种新颖的半监督声音事件检测学习范式MMT(Meta Mean Teacher)。具体来说,对于每个训练批次的数据,将其分为由合成样本组成的元训练集和由真实样本组成的元测试集;将模型在元训练集上计算的元梯度作为元测试梯度更新的指导,使模型感知并学习到更具泛化性的知识。在DCASE2021任务4数据集的测试集上进行对比实验,结果表明,相较于官方基线,所提出的学习范式MMT在F1,PSDS1和PSDS2指标上分别提升了8.9%,6.6%和1.1%;相较于当前的先进方法,所提出的学习范式MMT同样表现出了显著的性能优势。展开更多
文摘针对大多数加密流量分类(encrypted traffic classification,ETC)模型由于标签数据稀缺而导致的性能下降问题,提出了一个基于对比学习的半监督加密流量分类(semisupervised encrypted traffic classification based on contrastive learning,SSETC-CL)模型。通过比较样本之间的相似性和差异性,SSETC-CL模型能够从大量无标注数据中学习到有用的表示,从而获得一个通用且优秀的特征编码网络,降低了下游任务对标签数据的依赖。本文在公有数据集ISCXVPN2016以及两个自采数据集上对SSETC-CL模型进行了评估。与其他基准模型相比,SSETC-CL模型在设定任务上的表现最佳,准确率最大提升了8.92%。实验结果表明,SSETC-CL模型不仅在预训练模型已知的流量上具有较高的精度,而且具备将预训练模型所获得的知识应用于未知流量的迁移能力。
文摘现有的半监督声音事件检测方法直接使用强标签合成样本、弱标签真实样本和无标签真实样本进行训练,以缓解标签样本量不足的问题。然而,合成和真实数据域之间存在不可避免的分布差异,这种差异会干扰模型梯度优化方向,从而限制模型的泛化能力。针对这一问题,基于元学习(Meta Learning)提出了一种新颖的半监督声音事件检测学习范式MMT(Meta Mean Teacher)。具体来说,对于每个训练批次的数据,将其分为由合成样本组成的元训练集和由真实样本组成的元测试集;将模型在元训练集上计算的元梯度作为元测试梯度更新的指导,使模型感知并学习到更具泛化性的知识。在DCASE2021任务4数据集的测试集上进行对比实验,结果表明,相较于官方基线,所提出的学习范式MMT在F1,PSDS1和PSDS2指标上分别提升了8.9%,6.6%和1.1%;相较于当前的先进方法,所提出的学习范式MMT同样表现出了显著的性能优势。