近年来,深度学习方法被广泛地应用于命名实体识别任务中,并取得了良好的效果.但是主流的命名实体识别都是基于序列标注的方法,这类方法依赖于足够的高质量标注语料.然而序列数据的标注成本高昂,导致命名实体识别训练集规模往往较小,这...近年来,深度学习方法被广泛地应用于命名实体识别任务中,并取得了良好的效果.但是主流的命名实体识别都是基于序列标注的方法,这类方法依赖于足够的高质量标注语料.然而序列数据的标注成本高昂,导致命名实体识别训练集规模往往较小,这严重地限制了命名实体识别模型的最终性能.为了在不增加人工成本的前提下扩大命名实体识别的训练集规模,本文分别提出了基于EDA(Easy Data Augmentation)、基于远程监督、基于Bootstrap(自展法)的命名实体识别数据增强技术.通过在本文给出的FIND-2019数据集上进行的实验表明,这几种数据增强技术及其它们的组合能够低成本地增加训练集的规模,从而显著地提升命名实体识别模型的性能.展开更多
窃电行为是导致电力企业电能与经济效益损失的重要原因.提出了一种基于t-LeNet(Time-Series Specific Version of LeNet Model)与时间序列分类(Time Series Classification, TSC)的窃电行为检测方法:首先,获取用户用电量时序数据,使用...窃电行为是导致电力企业电能与经济效益损失的重要原因.提出了一种基于t-LeNet(Time-Series Specific Version of LeNet Model)与时间序列分类(Time Series Classification, TSC)的窃电行为检测方法:首先,获取用户用电量时序数据,使用降采样方法生成训练集;然后,使用t-LeNet神经网络训练并预测得到分类结果,判断用户是否存在窃电行为.使用国家电网真实用户的用电量数据集进行了实验验证.实验结果表明,所提方法相较于基于Time-CNN(Time Convolutional Neural Network)、MLP(Muti-Layer Perception)的时间序列分类方法,在综合评价指标、精确率、召回率指标上均有不同程度提高,其对窃电行为的检测具有可行性与有效性.展开更多
文摘近年来,深度学习方法被广泛地应用于命名实体识别任务中,并取得了良好的效果.但是主流的命名实体识别都是基于序列标注的方法,这类方法依赖于足够的高质量标注语料.然而序列数据的标注成本高昂,导致命名实体识别训练集规模往往较小,这严重地限制了命名实体识别模型的最终性能.为了在不增加人工成本的前提下扩大命名实体识别的训练集规模,本文分别提出了基于EDA(Easy Data Augmentation)、基于远程监督、基于Bootstrap(自展法)的命名实体识别数据增强技术.通过在本文给出的FIND-2019数据集上进行的实验表明,这几种数据增强技术及其它们的组合能够低成本地增加训练集的规模,从而显著地提升命名实体识别模型的性能.
文摘窃电行为是导致电力企业电能与经济效益损失的重要原因.提出了一种基于t-LeNet(Time-Series Specific Version of LeNet Model)与时间序列分类(Time Series Classification, TSC)的窃电行为检测方法:首先,获取用户用电量时序数据,使用降采样方法生成训练集;然后,使用t-LeNet神经网络训练并预测得到分类结果,判断用户是否存在窃电行为.使用国家电网真实用户的用电量数据集进行了实验验证.实验结果表明,所提方法相较于基于Time-CNN(Time Convolutional Neural Network)、MLP(Muti-Layer Perception)的时间序列分类方法,在综合评价指标、精确率、召回率指标上均有不同程度提高,其对窃电行为的检测具有可行性与有效性.