为解决医学文本使用预训练模型处理速度慢、对硬件的算力要求高、难以分辨少样本类别,以及使用传统小模型由于自身限制难以做到足够的准确度的问题,提出了一种融合预训练和元蒸馏的文本分类模型PTMD(fusion of pre-training and meta di...为解决医学文本使用预训练模型处理速度慢、对硬件的算力要求高、难以分辨少样本类别,以及使用传统小模型由于自身限制难以做到足够的准确度的问题,提出了一种融合预训练和元蒸馏的文本分类模型PTMD(fusion of pre-training and meta distillation model)。PTMD针对医学文本的多标签问题,通过对比训练对RoBERTa预训练方法进行微调,再由双向内置注意力简单循环单元充分获取语义信息。最后在传统蒸馏模型的基础上融合元学习和助教的思想,通过教学实验和双级模型等方法,提高模型的教学水平,最终在减少训练成本的基础上得到一个高性能医学文本分类模型。实验结果表明,教师模型在CHIP2019评测三数据集上的F1值达到了85.47%,同时学生模型在F1值损失1.45个百分点的情况下,将模型规模缩小到教师模型的近1/6,效果高于大多数传统预训练模型和知识蒸馏模型,证明了该模型具有良好的实用价值。展开更多
针对农业领域文本信息密度大、语义模糊、特征稀疏的特点,提出一种基于MacBERT(MLM as correction-BERT)、深度金字塔卷积网络(DPCNN)和注意力机制(Attention)的农业文本分类模型,命名为MacBERT—DPCNN—Attention(MDA)。首先,使用MacB...针对农业领域文本信息密度大、语义模糊、特征稀疏的特点,提出一种基于MacBERT(MLM as correction-BERT)、深度金字塔卷积网络(DPCNN)和注意力机制(Attention)的农业文本分类模型,命名为MacBERT—DPCNN—Attention(MDA)。首先,使用MacBERT模型充分提取农业类文本内容的上下文信息,强化文本的语义特征表示。然后,DPCNN模型通过其多层卷积神经网络和池化操作,有效捕获文本的局部特征。最后,注意力机制进一步增强农业文本序列的特征表达。结果表明,与其他主流模型如BERT—DPCNN、BERT—CNN、BERT—RNN相比,MDA模型在农业文本分类任务上的精确率提升1.04%以上,召回率提升0.95%以上,F1值提升0.14%以上。表明所提模型在解决农业领域文本分类问题方面的有效性和优越性。展开更多
针对现有的基于注意力机制的方法难以捕捉文本之间复杂的依赖关系的问题,提出一种基于对比学习增强双注意力机制的多标签文本分类方法。首先,分别学习基于自注意力和基于标签注意力的文本表示,并融合二者以获得更全面的文本表示捕捉文...针对现有的基于注意力机制的方法难以捕捉文本之间复杂的依赖关系的问题,提出一种基于对比学习增强双注意力机制的多标签文本分类方法。首先,分别学习基于自注意力和基于标签注意力的文本表示,并融合二者以获得更全面的文本表示捕捉文本的结构特征以及文本与标签之间的语义关联;其次,给定一个多标签对比学习目标,利用标签引导的文本相似度监督文本表示的学习,以捕捉文本之间在主题、内容和结构层面上复杂的依赖关系;最后,使用前馈神经网络作为分类器进行文本分类。实验结果表明,相较于LDGN(Label-specific Dual Graph neural Network),所提方法在EUR-Lex(European Union Law Document)数据集与Reuters-21578数据集上的排名第5处的归一化折现累积收益(nDCG@5)值分别提升了1.81和0.86个百分点,在AAPD(Arxiv Academic Paper Dataset)数据集与RCV1(Reuters Corpus VolumeⅠ)数据集上也都取得了有竞争力的结果。可见,所提方法能有效捕捉文本之间在主题、内容和结构层面上复杂的依赖关系,从而在多标签文本分类任务上取得较优结果。展开更多
传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标...传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标签混淆的数据增强(LCDA)技术,从文本和标签这2个基本方面入手,为数据提供全面的强化。在文本方面,通过对文本进行标点符号随机插入和替换以及句末标点符号补齐等增强,在保留全部文本信息和顺序的同时增加文本的多样性;在标签方面,采用标签混淆方法生成模拟标签分布替代传统的one-hot标签分布,以更好地反映实例和标签与标签之间的关系。在THUCNews(TsingHua University Chinese News)和Toutiao这2个中文新闻数据集构建的小样本数据集上分别结合TextCNN、TextRNN、BERT(Bidirectional Encoder Representations from Transformers)和RoBERTa-CNN(Robustly optimized BERT approach Convolutional Neural Network)文本分类模型的实验结果表明,与增强前相比,性能均得到显著提升。其中,在由THUCNews数据集构造的50-THU数据集上,4种模型结合LCDA技术后的准确率相较于增强前分别提高了1.19、6.87、3.21和2.89个百分点;相较于softEDA(Easy Data Augmentation with soft labels)方法增强的模型分别提高了0.78、7.62、1.75和1.28个百分点。通过在文本和标签这2个维度的处理结果可知,LCDA技术能显著提升模型的准确率,在数据量较少的应用场景中表现尤为突出。展开更多
为了改善零样本文本分类任务中无标签数据存在的类别不平衡问题,并充分发挥预训练语言模型在该任务中的推理能力,该文提出了一种自监督知识增强的零样本文本分类方法(Knowledge Enhanced Zero-shot Text Classification,KE0TC)。该方法...为了改善零样本文本分类任务中无标签数据存在的类别不平衡问题,并充分发挥预训练语言模型在该任务中的推理能力,该文提出了一种自监督知识增强的零样本文本分类方法(Knowledge Enhanced Zero-shot Text Classification,KE0TC)。该方法利用提示模板引导大规模预训练语言模型扩展类别标签并构建知识图谱,通过图结构进行去噪和自监督数据生成;然后,采用段落采样等方式将提取的带标签数据隐式映射到分类器的参数空间中,进而在不收集无标签训练数据的情况下实现对分类空间的建模。在三个文本分类数据集上与四个基线方法相比,KE0TC能基于较少的训练语料,以较低的耗时达到较高分类性能。展开更多
文摘为解决医学文本使用预训练模型处理速度慢、对硬件的算力要求高、难以分辨少样本类别,以及使用传统小模型由于自身限制难以做到足够的准确度的问题,提出了一种融合预训练和元蒸馏的文本分类模型PTMD(fusion of pre-training and meta distillation model)。PTMD针对医学文本的多标签问题,通过对比训练对RoBERTa预训练方法进行微调,再由双向内置注意力简单循环单元充分获取语义信息。最后在传统蒸馏模型的基础上融合元学习和助教的思想,通过教学实验和双级模型等方法,提高模型的教学水平,最终在减少训练成本的基础上得到一个高性能医学文本分类模型。实验结果表明,教师模型在CHIP2019评测三数据集上的F1值达到了85.47%,同时学生模型在F1值损失1.45个百分点的情况下,将模型规模缩小到教师模型的近1/6,效果高于大多数传统预训练模型和知识蒸馏模型,证明了该模型具有良好的实用价值。
文摘针对农业领域文本信息密度大、语义模糊、特征稀疏的特点,提出一种基于MacBERT(MLM as correction-BERT)、深度金字塔卷积网络(DPCNN)和注意力机制(Attention)的农业文本分类模型,命名为MacBERT—DPCNN—Attention(MDA)。首先,使用MacBERT模型充分提取农业类文本内容的上下文信息,强化文本的语义特征表示。然后,DPCNN模型通过其多层卷积神经网络和池化操作,有效捕获文本的局部特征。最后,注意力机制进一步增强农业文本序列的特征表达。结果表明,与其他主流模型如BERT—DPCNN、BERT—CNN、BERT—RNN相比,MDA模型在农业文本分类任务上的精确率提升1.04%以上,召回率提升0.95%以上,F1值提升0.14%以上。表明所提模型在解决农业领域文本分类问题方面的有效性和优越性。
文摘针对现有的基于注意力机制的方法难以捕捉文本之间复杂的依赖关系的问题,提出一种基于对比学习增强双注意力机制的多标签文本分类方法。首先,分别学习基于自注意力和基于标签注意力的文本表示,并融合二者以获得更全面的文本表示捕捉文本的结构特征以及文本与标签之间的语义关联;其次,给定一个多标签对比学习目标,利用标签引导的文本相似度监督文本表示的学习,以捕捉文本之间在主题、内容和结构层面上复杂的依赖关系;最后,使用前馈神经网络作为分类器进行文本分类。实验结果表明,相较于LDGN(Label-specific Dual Graph neural Network),所提方法在EUR-Lex(European Union Law Document)数据集与Reuters-21578数据集上的排名第5处的归一化折现累积收益(nDCG@5)值分别提升了1.81和0.86个百分点,在AAPD(Arxiv Academic Paper Dataset)数据集与RCV1(Reuters Corpus VolumeⅠ)数据集上也都取得了有竞争力的结果。可见,所提方法能有效捕捉文本之间在主题、内容和结构层面上复杂的依赖关系,从而在多标签文本分类任务上取得较优结果。
文摘传统数据增强技术,如同义词替换、随机插入和随机删除等,可能改变文本的原始语义,甚至导致关键信息丢失。此外,在文本分类任务中,数据通常包含文本部分和标签部分,然而传统数据增强方法仅针对文本部分。为解决这些问题,提出一种结合标签混淆的数据增强(LCDA)技术,从文本和标签这2个基本方面入手,为数据提供全面的强化。在文本方面,通过对文本进行标点符号随机插入和替换以及句末标点符号补齐等增强,在保留全部文本信息和顺序的同时增加文本的多样性;在标签方面,采用标签混淆方法生成模拟标签分布替代传统的one-hot标签分布,以更好地反映实例和标签与标签之间的关系。在THUCNews(TsingHua University Chinese News)和Toutiao这2个中文新闻数据集构建的小样本数据集上分别结合TextCNN、TextRNN、BERT(Bidirectional Encoder Representations from Transformers)和RoBERTa-CNN(Robustly optimized BERT approach Convolutional Neural Network)文本分类模型的实验结果表明,与增强前相比,性能均得到显著提升。其中,在由THUCNews数据集构造的50-THU数据集上,4种模型结合LCDA技术后的准确率相较于增强前分别提高了1.19、6.87、3.21和2.89个百分点;相较于softEDA(Easy Data Augmentation with soft labels)方法增强的模型分别提高了0.78、7.62、1.75和1.28个百分点。通过在文本和标签这2个维度的处理结果可知,LCDA技术能显著提升模型的准确率,在数据量较少的应用场景中表现尤为突出。
文摘为了改善零样本文本分类任务中无标签数据存在的类别不平衡问题,并充分发挥预训练语言模型在该任务中的推理能力,该文提出了一种自监督知识增强的零样本文本分类方法(Knowledge Enhanced Zero-shot Text Classification,KE0TC)。该方法利用提示模板引导大规模预训练语言模型扩展类别标签并构建知识图谱,通过图结构进行去噪和自监督数据生成;然后,采用段落采样等方式将提取的带标签数据隐式映射到分类器的参数空间中,进而在不收集无标签训练数据的情况下实现对分类空间的建模。在三个文本分类数据集上与四个基线方法相比,KE0TC能基于较少的训练语料,以较低的耗时达到较高分类性能。