目前在高校C语言编程课程中,使用客观评价的题目难度考验学生的学习情况是非常重要的手段。目前大部分难度评估方法都针对特有科目和特有题型,而对中文编程题目的难度评估存在不足。因此,提出一种融合题目文本和知识点标签的基于BERT(Bi...目前在高校C语言编程课程中,使用客观评价的题目难度考验学生的学习情况是非常重要的手段。目前大部分难度评估方法都针对特有科目和特有题型,而对中文编程题目的难度评估存在不足。因此,提出一种融合题目文本和知识点标签的基于BERT(Bidirectional Encoder Representations from Transformers)和双向长短时记忆(Bi-LSTM)模型的C语言题目难度预测模型FTKB-BiLSTM(Fusion of Title and Knowledge based on BERT and Bi-LSTM)。首先,利用BERT的中文预训练模型获得题目文本和知识点的词向量;其次,融合模块将融合后的信息通过BERT处理得到文本的信息表示,并输入Bi-LSTM模型中学习其中的序列信息,提取更丰富的特征;最后,把经Bi-LSTM模型得到的特征表示通过全连接层并经过Softmax函数处理得到题目难度分类结果。在Leetcode中文数据集和ZjgsuOJ平台数据集上的实验结果表明,相较于XLNet等主流的深度学习模型,所提模型的准确率更优,具有较强的分类能力。展开更多
随着数字农业的快速发展,农作物命名实体识别作为农业领域知识图谱构建的基础,成为一种高效率的农作物研究领域识别方法。由于农作物实体识别呈现结构复杂、实体指称不一致、干扰因素多等特征,严重制约了农作物领域实体识别的性能,提出...随着数字农业的快速发展,农作物命名实体识别作为农业领域知识图谱构建的基础,成为一种高效率的农作物研究领域识别方法。由于农作物实体识别呈现结构复杂、实体指称不一致、干扰因素多等特征,严重制约了农作物领域实体识别的性能,提出一种基于预训练语言模型的实体识别模型,使用BERT为文本中词进行编码、采用双向LSTM(Long-Short Term Memory)获取句子中关键词的上下文,采用CRFs(Conditional Random Fields)捕获词之间的依赖关系,并结合所构建的农作物命名实体识别数据集进行验证。实验证明该模型能够有效对农作物实体进行识别,且性能优于当前已有的实体识别模型。展开更多
针对短文本自动评分中存在的特征稀疏、一词多义及上下文关联信息少等问题,提出一种基于BERT-BiLSTM(bidirectional encoder representations from transformers-bidirectional long short-term memory)的短文本自动评分模型.使用BERT(b...针对短文本自动评分中存在的特征稀疏、一词多义及上下文关联信息少等问题,提出一种基于BERT-BiLSTM(bidirectional encoder representations from transformers-bidirectional long short-term memory)的短文本自动评分模型.使用BERT(bidirectional encoder representations from transformers)语言模型预训练大规模语料库习得通用语言的语义特征,通过预训练好的BERT语言模型预微调下游具体任务的短文本数据集习得短文本的语义特征和关键词特定含义,再通过BiLSTM(bidirectional long short-term memory)捕获深层次上下文关联信息,最后将获得的特征向量输入Softmax回归模型进行自动评分.实验结果表明,对比CNN(convolutional neural networks)、CharCNN(character-level CNN)、LSTM(long short-term memory)和BERT等基准模型,基于BERT-BiLSTM的短文本自动评分模型所获的二次加权kappa系数平均值最优.展开更多
BERT预训练语言模型在一系列自然语言处理问题上取得了突破性进展,对此提出探究BERT预训练模型在中文文本摘要上的应用。探讨文本摘要信息论框架和ROUGE评分的关系,从信息论角度分析中文词级粒度表示和字级粒度表示的信息特征,根据文本...BERT预训练语言模型在一系列自然语言处理问题上取得了突破性进展,对此提出探究BERT预训练模型在中文文本摘要上的应用。探讨文本摘要信息论框架和ROUGE评分的关系,从信息论角度分析中文词级粒度表示和字级粒度表示的信息特征,根据文本摘要信息压缩的特性,提出采用全词遮罩(Whole Word Masking)的中文预训练语言模型BERT_wwm作为编码器提取词级粒度信息特征,采用多层Transformer作为解码器以字为粒度生成摘要的混合字词特征中文文本摘要模型。分别以BERT_base_Chinese、BERT_wwm_Chinese、BERT_wwm_ext_Chinese和RoBERTa_wwm_ext_Chinese四种预训练语言模型作为中文词级信息特征编码器,在LCSTS数据集上进行实验,采用ROUGE作为评价指标。结果表明,RoBERTa_wwm_ext_Chinese+Transformer的编码器-解码器框架的ROUGE-1、ROUGE-2和ROUGE-L的F1评分分别达到了44.60、32.33和41.37,性能超过了HWC+Transformer方法。展开更多
文摘目前在高校C语言编程课程中,使用客观评价的题目难度考验学生的学习情况是非常重要的手段。目前大部分难度评估方法都针对特有科目和特有题型,而对中文编程题目的难度评估存在不足。因此,提出一种融合题目文本和知识点标签的基于BERT(Bidirectional Encoder Representations from Transformers)和双向长短时记忆(Bi-LSTM)模型的C语言题目难度预测模型FTKB-BiLSTM(Fusion of Title and Knowledge based on BERT and Bi-LSTM)。首先,利用BERT的中文预训练模型获得题目文本和知识点的词向量;其次,融合模块将融合后的信息通过BERT处理得到文本的信息表示,并输入Bi-LSTM模型中学习其中的序列信息,提取更丰富的特征;最后,把经Bi-LSTM模型得到的特征表示通过全连接层并经过Softmax函数处理得到题目难度分类结果。在Leetcode中文数据集和ZjgsuOJ平台数据集上的实验结果表明,相较于XLNet等主流的深度学习模型,所提模型的准确率更优,具有较强的分类能力。
文摘源代码漏洞检测常使用代码指标、机器学习和深度学习等技术.但是这些技术存在无法保留源代码中的句法和语义信息、需要大量专家知识对漏洞特征进行定义等问题.为应对现有技术存在的问题,提出基于BERT(bidirectional encoder representations from transformers)模型的源代码漏洞检测模型.该模型将需要检测的源代码分割为多个小样本,将每个小样本转换成近似自然语言的形式,通过BERT模型实现源代码中漏洞特征的自动提取,然后训练具有良好性能的漏洞分类器,实现Python语言多种类型漏洞的检测.该模型在不同类型的漏洞中实现了平均99.2%的准确率、97.2%的精确率、96.2%的召回率和96.7%的F1分数的检测水平,对比现有的漏洞检测方法有2%~14%的性能提升.实验结果表明,该模型是一种通用的、轻量级的、可扩展的漏洞检测方法.
文摘随着数字农业的快速发展,农作物命名实体识别作为农业领域知识图谱构建的基础,成为一种高效率的农作物研究领域识别方法。由于农作物实体识别呈现结构复杂、实体指称不一致、干扰因素多等特征,严重制约了农作物领域实体识别的性能,提出一种基于预训练语言模型的实体识别模型,使用BERT为文本中词进行编码、采用双向LSTM(Long-Short Term Memory)获取句子中关键词的上下文,采用CRFs(Conditional Random Fields)捕获词之间的依赖关系,并结合所构建的农作物命名实体识别数据集进行验证。实验证明该模型能够有效对农作物实体进行识别,且性能优于当前已有的实体识别模型。
文摘针对短文本自动评分中存在的特征稀疏、一词多义及上下文关联信息少等问题,提出一种基于BERT-BiLSTM(bidirectional encoder representations from transformers-bidirectional long short-term memory)的短文本自动评分模型.使用BERT(bidirectional encoder representations from transformers)语言模型预训练大规模语料库习得通用语言的语义特征,通过预训练好的BERT语言模型预微调下游具体任务的短文本数据集习得短文本的语义特征和关键词特定含义,再通过BiLSTM(bidirectional long short-term memory)捕获深层次上下文关联信息,最后将获得的特征向量输入Softmax回归模型进行自动评分.实验结果表明,对比CNN(convolutional neural networks)、CharCNN(character-level CNN)、LSTM(long short-term memory)和BERT等基准模型,基于BERT-BiLSTM的短文本自动评分模型所获的二次加权kappa系数平均值最优.
文摘BERT预训练语言模型在一系列自然语言处理问题上取得了突破性进展,对此提出探究BERT预训练模型在中文文本摘要上的应用。探讨文本摘要信息论框架和ROUGE评分的关系,从信息论角度分析中文词级粒度表示和字级粒度表示的信息特征,根据文本摘要信息压缩的特性,提出采用全词遮罩(Whole Word Masking)的中文预训练语言模型BERT_wwm作为编码器提取词级粒度信息特征,采用多层Transformer作为解码器以字为粒度生成摘要的混合字词特征中文文本摘要模型。分别以BERT_base_Chinese、BERT_wwm_Chinese、BERT_wwm_ext_Chinese和RoBERTa_wwm_ext_Chinese四种预训练语言模型作为中文词级信息特征编码器,在LCSTS数据集上进行实验,采用ROUGE作为评价指标。结果表明,RoBERTa_wwm_ext_Chinese+Transformer的编码器-解码器框架的ROUGE-1、ROUGE-2和ROUGE-L的F1评分分别达到了44.60、32.33和41.37,性能超过了HWC+Transformer方法。