目前,基于BERT预训练的文本摘要模型效果良好。然而,预训练模型内部使用的自注意力机制倾向于关注文本中字与字之间的相关信息,对词信息关注度较低,并且在解码时存在语义理解不充分的情况。针对上述问题,该文提出了一种基于BERT的语义...目前,基于BERT预训练的文本摘要模型效果良好。然而,预训练模型内部使用的自注意力机制倾向于关注文本中字与字之间的相关信息,对词信息关注度较低,并且在解码时存在语义理解不充分的情况。针对上述问题,该文提出了一种基于BERT的语义增强文本摘要模型CBSUM-Aux(Convolution and BERT Based Summarization Model with Auxiliary Information)。首先,使用窗口大小不同的卷积神经网络模块提取原文中的词特征信息,并与输入的字嵌入进行特征融合,之后通过预训练模型对融合特征进行深度特征挖掘。然后,在解码输出阶段,将卷积之后的词特征信息作为解码辅助信息输入解码器中指导模型解码。最后,针对束搜索算法倾向于输出短句的问题对其进行优化。该文使用LCSTS和CSTSD数据集对模型进行验证,实验结果表明,该文模型在ROUGE指标上有明显提升,生成的摘要与原文语义更加贴合。展开更多
目前基于种子词的弱监督文本分类算法大多需要从数据集中搜索所有种子词并以此扩展类别词典,出现频率较低的种子词的类别识别能力也较低。因此设计了一个简单且有效的弱监督中文文本分类算法(simple and effective weakly supervised Ch...目前基于种子词的弱监督文本分类算法大多需要从数据集中搜索所有种子词并以此扩展类别词典,出现频率较低的种子词的类别识别能力也较低。因此设计了一个简单且有效的弱监督中文文本分类算法(simple and effective weakly supervised Chinese text classification,SEWClass)。该方法利用预训练语言模型初始权重生成对文本的抽象理解,并以此为基础继续生成抽象约束条件和具象约束条件,以构建初次训练的伪标签数据;根据类别数量联合构建降维模型与分类器,以适应弱监督文本分类需要预先指定类别和在自训练过程中需要增加训练数据的特点;通过两种约束条件,伪标签数据拥有较高精确率,并在自训练过程中仅训练降维模型以提升召回率和算法效率。SEWClass对每个类别只需要一个种子词,如类别名称,即可完成分类任务,且SEWClass的性能与种子词是否出现在数据集中无关。SEWClass在THUCNews与toutiao两个中文数据集上的性能均远高于其他弱监督算法。展开更多
文摘目前,基于BERT预训练的文本摘要模型效果良好。然而,预训练模型内部使用的自注意力机制倾向于关注文本中字与字之间的相关信息,对词信息关注度较低,并且在解码时存在语义理解不充分的情况。针对上述问题,该文提出了一种基于BERT的语义增强文本摘要模型CBSUM-Aux(Convolution and BERT Based Summarization Model with Auxiliary Information)。首先,使用窗口大小不同的卷积神经网络模块提取原文中的词特征信息,并与输入的字嵌入进行特征融合,之后通过预训练模型对融合特征进行深度特征挖掘。然后,在解码输出阶段,将卷积之后的词特征信息作为解码辅助信息输入解码器中指导模型解码。最后,针对束搜索算法倾向于输出短句的问题对其进行优化。该文使用LCSTS和CSTSD数据集对模型进行验证,实验结果表明,该文模型在ROUGE指标上有明显提升,生成的摘要与原文语义更加贴合。
文摘目前基于种子词的弱监督文本分类算法大多需要从数据集中搜索所有种子词并以此扩展类别词典,出现频率较低的种子词的类别识别能力也较低。因此设计了一个简单且有效的弱监督中文文本分类算法(simple and effective weakly supervised Chinese text classification,SEWClass)。该方法利用预训练语言模型初始权重生成对文本的抽象理解,并以此为基础继续生成抽象约束条件和具象约束条件,以构建初次训练的伪标签数据;根据类别数量联合构建降维模型与分类器,以适应弱监督文本分类需要预先指定类别和在自训练过程中需要增加训练数据的特点;通过两种约束条件,伪标签数据拥有较高精确率,并在自训练过程中仅训练降维模型以提升召回率和算法效率。SEWClass对每个类别只需要一个种子词,如类别名称,即可完成分类任务,且SEWClass的性能与种子词是否出现在数据集中无关。SEWClass在THUCNews与toutiao两个中文数据集上的性能均远高于其他弱监督算法。