针对句子分类任务常面临着训练数据不足,而且文本语言具有离散性,在语义保留的条件下进行数据增强具有一定困难,语义一致性和多样性难以平衡的问题,本文提出一种惩罚生成式预训练语言模型的数据增强方法(punishing generative pre-train...针对句子分类任务常面临着训练数据不足,而且文本语言具有离散性,在语义保留的条件下进行数据增强具有一定困难,语义一致性和多样性难以平衡的问题,本文提出一种惩罚生成式预训练语言模型的数据增强方法(punishing generative pre-trained transformer for data augmentation,PunishGPT-DA)。设计了惩罚项和超参数α,与负对数似然损失函数共同作用微调GPT-2(generative pre-training 2.0),鼓励模型关注那些预测概率较小但仍然合理的输出;使用基于双向编码器表征模型(bidirectional encoder representation from transformers,BERT)的过滤器过滤语义偏差较大的生成样本。本文方法实现了对训练集16倍扩充,与GPT-2相比,在意图识别、问题分类以及情感分析3个任务上的准确率分别提升了1.1%、4.9%和8.7%。实验结果表明,本文提出的方法能够同时有效地控制一致性和多样性需求,提升下游任务模型的训练性能。展开更多
句子蕴含丰富的语义信息,为商品图像标注句子能准确刻画商品特性,并改善信息检索准确率。现有商品图像句子标注方法存在特征学习不充分、特征表现单一等问题,针对这些问题,提出了基于高效匹配核(efficient match kernels,EMK)进行特征学...句子蕴含丰富的语义信息,为商品图像标注句子能准确刻画商品特性,并改善信息检索准确率。现有商品图像句子标注方法存在特征学习不充分、特征表现单一等问题,针对这些问题,提出了基于高效匹配核(efficient match kernels,EMK)进行特征学习,抽取判别性能更优的形状核特征来刻画商品图像,并综合图像的形状、纹理、梯度等特征,在多核学习模型内融合出多核特征(multiple kernel feature,MKF),丰富特征表现形式,更好地解释图像中的形状和纹理视觉特性。基于MKF完成图像分类,检索关键文本标注商品图像。实验表明,MKF获取了最优的图像分类准确率,并且具有鲜明纹理或形状特性的商品图像,其MAP(mean average precision)指标更优。另据BLEU(bilingual evaluation understudy)评分显示,所标句子包含的语义信息贴近商品图像内容,且它的连贯性、可读性更好,具有很高的实用价值。展开更多
文摘针对句子分类任务常面临着训练数据不足,而且文本语言具有离散性,在语义保留的条件下进行数据增强具有一定困难,语义一致性和多样性难以平衡的问题,本文提出一种惩罚生成式预训练语言模型的数据增强方法(punishing generative pre-trained transformer for data augmentation,PunishGPT-DA)。设计了惩罚项和超参数α,与负对数似然损失函数共同作用微调GPT-2(generative pre-training 2.0),鼓励模型关注那些预测概率较小但仍然合理的输出;使用基于双向编码器表征模型(bidirectional encoder representation from transformers,BERT)的过滤器过滤语义偏差较大的生成样本。本文方法实现了对训练集16倍扩充,与GPT-2相比,在意图识别、问题分类以及情感分析3个任务上的准确率分别提升了1.1%、4.9%和8.7%。实验结果表明,本文提出的方法能够同时有效地控制一致性和多样性需求,提升下游任务模型的训练性能。
文摘句子蕴含丰富的语义信息,为商品图像标注句子能准确刻画商品特性,并改善信息检索准确率。现有商品图像句子标注方法存在特征学习不充分、特征表现单一等问题,针对这些问题,提出了基于高效匹配核(efficient match kernels,EMK)进行特征学习,抽取判别性能更优的形状核特征来刻画商品图像,并综合图像的形状、纹理、梯度等特征,在多核学习模型内融合出多核特征(multiple kernel feature,MKF),丰富特征表现形式,更好地解释图像中的形状和纹理视觉特性。基于MKF完成图像分类,检索关键文本标注商品图像。实验表明,MKF获取了最优的图像分类准确率,并且具有鲜明纹理或形状特性的商品图像,其MAP(mean average precision)指标更优。另据BLEU(bilingual evaluation understudy)评分显示,所标句子包含的语义信息贴近商品图像内容,且它的连贯性、可读性更好,具有很高的实用价值。