为解决渔业标准命名实体识别任务中部分实体语料分布稀疏导致的效果不佳问题,提出了基于多元组合数据增广(data augmentation method based on multiple combination,MCA)的渔业标准命名实体识别方法,该方法融合了基于领域词典的联合替...为解决渔业标准命名实体识别任务中部分实体语料分布稀疏导致的效果不佳问题,提出了基于多元组合数据增广(data augmentation method based on multiple combination,MCA)的渔业标准命名实体识别方法,该方法融合了基于领域词典的联合替换算法(joint replacement algorithm based on domain dictionary,DDR)、基于槽点保护的随机删除算法(random deletion algorithm based on slot protection,SPD)和基于槽点保护的随机插入算法(random insertion algorithm based on slot protection,SPI)进行语料库的数据增广,首先构建“水产品名称”同类词词典和领域同义词词典,通过两个词典分别对“水产品名称”类实体和随机词进行同类词替换和同义词替换,生成新的句子,以增加目标实体数量和句子的多样性,然后在基于槽点保护的情况下对原句子分别进行随机删除和随机插入操作,在保留实体及上下文特征的情况下进一步丰富语料的多样性,提高模型的泛化能力。结果表明,采用基于融合注意力机制的BERT+BiLSTM+CRF网络模型和多元组合数据增广方法进行渔业标准命名实体识别,准确率、召回率、F1值分别达到了91.73%、88.64%、90.16%,具有较好的效果。研究表明,基于多元组合数据增广的渔业标准命名实体识别方法有效解决了部分实体样本稀疏问题,提升了渔业标准命名实体识别的整体效果。展开更多
文摘为解决渔业标准命名实体识别任务中部分实体语料分布稀疏导致的效果不佳问题,提出了基于多元组合数据增广(data augmentation method based on multiple combination,MCA)的渔业标准命名实体识别方法,该方法融合了基于领域词典的联合替换算法(joint replacement algorithm based on domain dictionary,DDR)、基于槽点保护的随机删除算法(random deletion algorithm based on slot protection,SPD)和基于槽点保护的随机插入算法(random insertion algorithm based on slot protection,SPI)进行语料库的数据增广,首先构建“水产品名称”同类词词典和领域同义词词典,通过两个词典分别对“水产品名称”类实体和随机词进行同类词替换和同义词替换,生成新的句子,以增加目标实体数量和句子的多样性,然后在基于槽点保护的情况下对原句子分别进行随机删除和随机插入操作,在保留实体及上下文特征的情况下进一步丰富语料的多样性,提高模型的泛化能力。结果表明,采用基于融合注意力机制的BERT+BiLSTM+CRF网络模型和多元组合数据增广方法进行渔业标准命名实体识别,准确率、召回率、F1值分别达到了91.73%、88.64%、90.16%,具有较好的效果。研究表明,基于多元组合数据增广的渔业标准命名实体识别方法有效解决了部分实体样本稀疏问题,提升了渔业标准命名实体识别的整体效果。
文摘工作在复杂环境下的多元退化设备面临失效数据少、多源信息融合准确度低和监督学习数据不平衡等问题,对此本文提出一种基于时间序列生成对抗网络(Time-series Generative Adversarial Networks,TimeGAN)与单分类支持向量机(One-Class Support Vector Machine,OCSVM)组合模型的小子样数据增广方法.方法引入了TimeGAN模型拟合真实数据时间序列相关性,从而生成新的多元退化设备数据.本文提出了一种基于最大均值差异改进方法的可信度判据,避免强相关特征对生成数据质量评价的影响,通过使用T-分布随机邻近嵌入(T-distributed Stochastic Neighbor Embedding,T-SNE)和全局最大均值差异(Global Maximum Mean Discrepancy,GMMD)的组合方法,定性定量地评价生成数据的质量水平.基于训练后的OCSVM模型,对生成数据进行异常检测与剔除,进一步提高生成数据的质量.以航空发动机数据集C-MAPSS为例进行方法验证分析,通过与其他数据增强模型对比验证了所提方法的可行性和有效性.
文摘数据增广是提升深度学习模型性能的有效方法之一。针对多类别目标检测任务中检测性能不平衡问题,提出一种针对“短板类别”(检测性能远低于模型平均检测性能的类别)的离线数据增广方法。受Cannikin’s Law的启发,采用基于复制粘贴(copy-paste)机制的场景多样性增广方法。随机采集训练集中“短板类别”实例区域,通过相似性度量机制选取训练集中增广目标样本进行随机粘贴。为了降低随机粘贴导致的遮挡问题,采用基于自遮挡(cut-replace)机制的增广方法提升模型遮挡表达能力。通过截取样本自身区域,对特征表达最显著区域进行遮挡。实验表明,FCOS目标检测框架在PASCAL VOC数据上的平均检测精度(mean average precision,mAP)从79.10%提升到83.90%,其中短板类别更为显著,提升了20.8个百分点。在MS-COCO数据上平均检测精度提升了0.9个百分点。