作文自动评分(Automated Essay Scoring AES)是指使用统计学、自然语言处理及语言学等领域的技术对作文进行评价和评分的系统。篇章结构分析是自然语言处理领域的一个重要研究方向,也是作文自动评分系统的重要组成部分之一。目前国外的...作文自动评分(Automated Essay Scoring AES)是指使用统计学、自然语言处理及语言学等领域的技术对作文进行评价和评分的系统。篇章结构分析是自然语言处理领域的一个重要研究方向,也是作文自动评分系统的重要组成部分之一。目前国外的作文自动评分系统虽有广泛应用,但对篇章结构评分的研究还存在不足,且对中国学生英语作文的针对性不强;国内对英语作文自动评分的研究处于起步阶段,忽视了篇章结构对英语作文评分的重要性。针对这些问题,提出一种基于篇章结构的英文作文自动评分方法,在词、句、段落3个层面上提取作文的词汇、句法以及结构等特征,并使用支持向量机、随机森林以及极端梯度上升等算法对篇章成分进行分类,最后构建线性回归模型对作文的篇章结构进行评分。实验结果表明,基于随机森林的篇章成分识别模型(Discourse Element Identification based Random Forest,DEI-RF)的准确率为94.13%;基于线性回归的篇章结构自动评分模型(Discourse Structures Scoring based Linear Regression,DSS-LR)在背景介绍段(Introduction)、论证段(Argumentation)以及让步段(Concession)的均方差可达到0.02,0.11和0.08。展开更多
研究一种基于新型神经网络结构的自动作文评分模型,该模型包括双层长短时记忆(two-layer long short-term memory,LSTM)神经网络层和注意力机制层,模型输入层的词向量通过word embedding预训练谷歌文本库生成.相较于基于本地文本数据集...研究一种基于新型神经网络结构的自动作文评分模型,该模型包括双层长短时记忆(two-layer long short-term memory,LSTM)神经网络层和注意力机制层,模型输入层的词向量通过word embedding预训练谷歌文本库生成.相较于基于本地文本数据集预训练,预训练谷歌文本库生成的词向量含有更丰富的上下文语义信息及依赖关系;双层长短时记忆网络的下层抽取上下文语义信息及隐藏的上下文依赖关系,上层捕获更深层次的上下文依赖关系;注意力机制依据双层长短时记忆网络的输出计算注意力概率,以突出关键信息在文本中的重要程度.模型所使用数据集由Hewlett基金提供,并以二次加权kappa系数作为模型的评估指标.实验结果表明,对比其他基准模型(如双向LSTM模型和SKIPFLOW-LSTM模型等),基于注意力机制的双层LSTM模型所获二次加权kappa系数平均值最好.展开更多
文摘作文自动评分(Automated Essay Scoring AES)是指使用统计学、自然语言处理及语言学等领域的技术对作文进行评价和评分的系统。篇章结构分析是自然语言处理领域的一个重要研究方向,也是作文自动评分系统的重要组成部分之一。目前国外的作文自动评分系统虽有广泛应用,但对篇章结构评分的研究还存在不足,且对中国学生英语作文的针对性不强;国内对英语作文自动评分的研究处于起步阶段,忽视了篇章结构对英语作文评分的重要性。针对这些问题,提出一种基于篇章结构的英文作文自动评分方法,在词、句、段落3个层面上提取作文的词汇、句法以及结构等特征,并使用支持向量机、随机森林以及极端梯度上升等算法对篇章成分进行分类,最后构建线性回归模型对作文的篇章结构进行评分。实验结果表明,基于随机森林的篇章成分识别模型(Discourse Element Identification based Random Forest,DEI-RF)的准确率为94.13%;基于线性回归的篇章结构自动评分模型(Discourse Structures Scoring based Linear Regression,DSS-LR)在背景介绍段(Introduction)、论证段(Argumentation)以及让步段(Concession)的均方差可达到0.02,0.11和0.08。
文摘研究一种基于新型神经网络结构的自动作文评分模型,该模型包括双层长短时记忆(two-layer long short-term memory,LSTM)神经网络层和注意力机制层,模型输入层的词向量通过word embedding预训练谷歌文本库生成.相较于基于本地文本数据集预训练,预训练谷歌文本库生成的词向量含有更丰富的上下文语义信息及依赖关系;双层长短时记忆网络的下层抽取上下文语义信息及隐藏的上下文依赖关系,上层捕获更深层次的上下文依赖关系;注意力机制依据双层长短时记忆网络的输出计算注意力概率,以突出关键信息在文本中的重要程度.模型所使用数据集由Hewlett基金提供,并以二次加权kappa系数作为模型的评估指标.实验结果表明,对比其他基准模型(如双向LSTM模型和SKIPFLOW-LSTM模型等),基于注意力机制的双层LSTM模型所获二次加权kappa系数平均值最好.