在基于Transformer的语言模型中自注意力网络扮演了重要的角色,其中的全连接结构能够以并行方式捕捉序列中非连续的依赖关系。但是,全连接的自注意力网络很容易过拟合到虚假关联信息上,比如词与词、词与预测目标之间的虚假关联。这种过...在基于Transformer的语言模型中自注意力网络扮演了重要的角色,其中的全连接结构能够以并行方式捕捉序列中非连续的依赖关系。但是,全连接的自注意力网络很容易过拟合到虚假关联信息上,比如词与词、词与预测目标之间的虚假关联。这种过拟合问题限制了语言模型对领域外或分布外数据的泛化能力。为了提高Transformer语言模型对虚假关联的鲁棒性以及泛化能力,提出掩码语言增强表示的对比学习微调框架(fine-tuning framework via mask language model enhanced representations based contrastive learning,MCL-FT)。具体而言,文本序列和其随机掩码后的序列送入到一个孪生网络,结合对比学习目标和下游任务目标对模型进行参数学习。其中,每一个孪生网络由预训练语言模型和任务分类器组成。所以,该微调框架更加符合掩码语言模型预训练学习方式,能够在下游任务中保持预训练知识的泛化能力。在MNLI、FEVER和QQP数据集以及它们的挑战数据集上与最新的基线模型进行了对比,包括大语言模型ChatGPT、GPT4、LLaMA,实验结果验证了提出模型在保证分布内性能的同时有效提高了分布外的性能。在ATIS和Snips数据集上的实验结果证明,该模型在常见自然语言处理任务中也有显著的效果。展开更多
针对现有深度学习算法在壁画修复时,存在全局语义一致性约束不足及局部特征提取不充分,导致修复后的壁画易出现边界效应和细节模糊等问题,提出一种双向自回归Transformer与快速傅里叶卷积增强的壁画修复方法.首先,设计基于Transformer...针对现有深度学习算法在壁画修复时,存在全局语义一致性约束不足及局部特征提取不充分,导致修复后的壁画易出现边界效应和细节模糊等问题,提出一种双向自回归Transformer与快速傅里叶卷积增强的壁画修复方法.首先,设计基于Transformer结构的全局语义特征修复模块,利用双向自回归机制与掩码语言模型(masked language modeling,MLM),提出改进的多头注意力全局语义壁画修复模块,提高对全局语义特征的修复能力.然后,构建了由门控卷积和残差模块组成的全局语义增强模块,增强全局语义特征一致性约束.最后,设计局部细节修复模块,采用大核注意力机制(large kernel attention,LKA)与快速傅里叶卷积提高细节特征的捕获能力,同时减少局部细节信息的丢失,提升修复壁画局部和整体特征的一致性.通过对敦煌壁画数字化修复实验,结果表明,所提算法修复性能更优,客观评价指标均优于比较算法.展开更多
文摘在基于Transformer的语言模型中自注意力网络扮演了重要的角色,其中的全连接结构能够以并行方式捕捉序列中非连续的依赖关系。但是,全连接的自注意力网络很容易过拟合到虚假关联信息上,比如词与词、词与预测目标之间的虚假关联。这种过拟合问题限制了语言模型对领域外或分布外数据的泛化能力。为了提高Transformer语言模型对虚假关联的鲁棒性以及泛化能力,提出掩码语言增强表示的对比学习微调框架(fine-tuning framework via mask language model enhanced representations based contrastive learning,MCL-FT)。具体而言,文本序列和其随机掩码后的序列送入到一个孪生网络,结合对比学习目标和下游任务目标对模型进行参数学习。其中,每一个孪生网络由预训练语言模型和任务分类器组成。所以,该微调框架更加符合掩码语言模型预训练学习方式,能够在下游任务中保持预训练知识的泛化能力。在MNLI、FEVER和QQP数据集以及它们的挑战数据集上与最新的基线模型进行了对比,包括大语言模型ChatGPT、GPT4、LLaMA,实验结果验证了提出模型在保证分布内性能的同时有效提高了分布外的性能。在ATIS和Snips数据集上的实验结果证明,该模型在常见自然语言处理任务中也有显著的效果。
文摘针对现有深度学习算法在壁画修复时,存在全局语义一致性约束不足及局部特征提取不充分,导致修复后的壁画易出现边界效应和细节模糊等问题,提出一种双向自回归Transformer与快速傅里叶卷积增强的壁画修复方法.首先,设计基于Transformer结构的全局语义特征修复模块,利用双向自回归机制与掩码语言模型(masked language modeling,MLM),提出改进的多头注意力全局语义壁画修复模块,提高对全局语义特征的修复能力.然后,构建了由门控卷积和残差模块组成的全局语义增强模块,增强全局语义特征一致性约束.最后,设计局部细节修复模块,采用大核注意力机制(large kernel attention,LKA)与快速傅里叶卷积提高细节特征的捕获能力,同时减少局部细节信息的丢失,提升修复壁画局部和整体特征的一致性.通过对敦煌壁画数字化修复实验,结果表明,所提算法修复性能更优,客观评价指标均优于比较算法.