关系抽取是梳理学科知识的重要手段以及构建教育知识图谱的重要步骤。在当前研究中,如BERT(Bidirectional Encoder Representations from Transformers)等以Transformer架构为基础的预训练语言模型多数存在参数量大、复杂度过高的问题,...关系抽取是梳理学科知识的重要手段以及构建教育知识图谱的重要步骤。在当前研究中,如BERT(Bidirectional Encoder Representations from Transformers)等以Transformer架构为基础的预训练语言模型多数存在参数量大、复杂度过高的问题,难以部署于终端设备,限制了在真实教育场景中的应用。此外,大多数传统的轻量级关系抽取模型并不是通过文本结构对数据进行建模,容易忽略实体间的结构信息;且生成的词嵌入向量难以捕捉文本的上下文特征、对一词多义问题解决能力差,难以契合学科知识文本非结构化以及专有名词占比大的特点,不利于高质量的关系抽取。针对上述问题,提出一种基于改进分段卷积神经网络(PCNN)和知识蒸馏(KD)的学科知识实体间关系抽取方法。首先,利用BERT生成高质量的领域文本词向量,改进PCNN模型的输入层,从而有效捕捉文本上下文特征并在一定程度上解决一词多义问题;其次,利用卷积和分段最大池化操作深入挖掘实体间结构信息,构建BERTPCNN模型,实现高质量的关系抽取;最后,考虑到教育场景对高效且轻量化模型的需求,蒸馏BERT-PCNN模型输出层和中间层知识,用于指导PCNN模型,完成KD-PCNN模型的构建。实验结果表明,BERT-PCNN模型的加权平均F1值达到94%,相较于R-BERT和EC_BERT模型分别提升了1和2个百分点;KD-PCNN模型的加权平均F1值达到92%,与EC_BERT模型持平;参数量相较于BERT-PCNN、KD-RB-l模型下降了3个数量级。可见,所提方法能在性能评价指标和网络参数量之间更好地权衡,有利于教育知识图谱自动化构建水平的提高和新型教育应用的研发与部署。展开更多
针对景区手写诗词存在背景纹理复杂、字体尺寸及风格多样等特点导致景区游客难以识别手写诗词的问题,首先,分析研究景区手写诗词的识别场景,设计景区诗词检测网络(detection of poetry in scenic areas-network,DPSA-Net)以提取景区手...针对景区手写诗词存在背景纹理复杂、字体尺寸及风格多样等特点导致景区游客难以识别手写诗词的问题,首先,分析研究景区手写诗词的识别场景,设计景区诗词检测网络(detection of poetry in scenic areas-network,DPSA-Net)以提取景区手写诗词不同尺度的特征,并结合手写诗词字符间的链接依赖关系实现景区手写诗词检测;其次,设计了卷积循环聚合网络(convolution recurrent aggregation network,CRA-Net)以对景区手写诗词进行识别,结合卷积神经网络(convolutional neural networks,CNN)和双向长短期记忆网络提取手写诗词图像的序列特征,并通过聚合交叉熵(aggregation cross-entropy,ACE)实现特征向文本的转换;最后,结合景区知识图谱对CRA-Net的输出进行校正,进而提高景区手写诗词的识别准确率。实验结果表明,通过景区手写诗词矫正技术对CRA-Net的识别结果矫正后,识别准确率达到了79.04%,同时,该技术具有较好的抗干扰能力和良好的应用前景。展开更多
文摘关系抽取是梳理学科知识的重要手段以及构建教育知识图谱的重要步骤。在当前研究中,如BERT(Bidirectional Encoder Representations from Transformers)等以Transformer架构为基础的预训练语言模型多数存在参数量大、复杂度过高的问题,难以部署于终端设备,限制了在真实教育场景中的应用。此外,大多数传统的轻量级关系抽取模型并不是通过文本结构对数据进行建模,容易忽略实体间的结构信息;且生成的词嵌入向量难以捕捉文本的上下文特征、对一词多义问题解决能力差,难以契合学科知识文本非结构化以及专有名词占比大的特点,不利于高质量的关系抽取。针对上述问题,提出一种基于改进分段卷积神经网络(PCNN)和知识蒸馏(KD)的学科知识实体间关系抽取方法。首先,利用BERT生成高质量的领域文本词向量,改进PCNN模型的输入层,从而有效捕捉文本上下文特征并在一定程度上解决一词多义问题;其次,利用卷积和分段最大池化操作深入挖掘实体间结构信息,构建BERTPCNN模型,实现高质量的关系抽取;最后,考虑到教育场景对高效且轻量化模型的需求,蒸馏BERT-PCNN模型输出层和中间层知识,用于指导PCNN模型,完成KD-PCNN模型的构建。实验结果表明,BERT-PCNN模型的加权平均F1值达到94%,相较于R-BERT和EC_BERT模型分别提升了1和2个百分点;KD-PCNN模型的加权平均F1值达到92%,与EC_BERT模型持平;参数量相较于BERT-PCNN、KD-RB-l模型下降了3个数量级。可见,所提方法能在性能评价指标和网络参数量之间更好地权衡,有利于教育知识图谱自动化构建水平的提高和新型教育应用的研发与部署。