-
题名基于LDA和word2vec的英文作文跑题检测
被引量:3
- 1
-
-
作者
曲强
崔荣一
赵亚慧
-
机构
延边大学计算机科学与技术学科智能信息处理研究室
-
出处
《计算机应用研究》
CSCD
北大核心
2019年第2期415-419,共5页
-
基金
国家语委"十二五"科研规划2015年度科研项目(YB125-178)
-
文摘
针对目前国内的英语作文辅助批阅系统缺少准确而高效的跑题检测算法的问题,提出了一种结合LDA和word2vec的跑题检测算法。该算法利用LDA模型对文档建模并通过word2vec对文档进行训练,利用得到的文档主题和词语之间的语义关系,对文档中各主题及其特征词计算概率加权和,最终通过设定合理阈值筛选出跑题作文。实验中通过改变文档的主题数而得到不同的F值,确定了最佳主题数。实验结果表明,所提出的方法比基于向量空间模型的方法更具有效性,可以检测到更多的跑题作文,并且准确率较高,F值达到89%以上,实现了作文跑题检测的智能化处理,可以有效地应用在英语作文教学中。
-
关键词
作文跑题检测
向量空间模型
潜在狄利克雷分配
词语间语义关系
-
Keywords
off-topic essays detection
vector space model(VSM)
latent Dirichlet allocation(LDA)
semantic relations between words
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于LDA耦合空间模型的作文跑题检测方法研究
被引量:2
- 2
-
-
作者
孟超颖
宋文爱
富丽贞
-
机构
中北大学软件学院
-
出处
《计算机应用研究》
CSCD
北大核心
2019年第12期3544-3547,共4页
-
基金
国家自然科学基金资助项目(61602427)
山西省自然科学基金资助项目(201601D202037)
-
文摘
传统的跑题检测方法大部分是将文本转换为向量空间的向量表示,再计算与正确文章之间的相似度来得到是否跑题的结果,然而这种方法仅针对文章语句结构上的表示,却忽略了文章语义上的关联,并且对于题目发散度较高的作文跑题检测效果较低。针对以上问题,利用题目与正文主题词在耦合空间计算其相关度,再通过聚类的方法实现无监督的作文跑题检测。实验结果表明,基于耦合空间模型的作文跑题检测方法不论对于题目发散度较低还是较高的作文的检测准确度都有一定程度的提高,其中对于题目发散度较高的作文更为明显。
-
关键词
作文跑题检测
耦合空间
主题词提取
相关度
-
Keywords
off-topic essay detection
coupling space
extraction of subject words
relevance
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于局部密度的无监督作文跑题检测方法
被引量:1
- 3
-
-
作者
李霞
温启帆
-
机构
广东外语外贸大学语言工程与计算实验室
广东外语外贸大学信息科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2017年第6期205-213,共9页
-
基金
国家自然科学基金(61402119)
广东省普通高校科技创新项目(2013KJCX0071)
-
文摘
针对现有的无监督作文跑题检测方法中,使用作文内容向量表示作文存在非主题词噪声所导致的相似度不准确问题,该文提出一种基于作文主题词抽取和局部密度阈值选择的无监督作文跑题检测方法。首先使用LDA主题生成模型挖掘待测作文的主题词,并使用分布式表示向量寻找与题目词项语义相似的词,作为对作文题目的主题词扩展,在此基础上使用提出的切题度计算方法计算待测作文的切题度,并使用所提出的基于作文集切题度局部密度的阈值抽取方法动态选取切题阈值,进而实现一种无需训练集和主题无关的无监督作文跑题检测方法。在以英语为母语的学习者和以汉语为母语的学习者所写的8个作文集共9 381篇作文上的实验结果表明,该文提出的作文跑题检测方法能有效识别跑题作文,加入拼写检查预处理后,平均F1值为79.64%,单个作文题目下F1值最好为96.1%。
-
关键词
作文跑题检测
主题词抽取
切题度
阈值选取
-
Keywords
off-topic essay detection
topic word extraction
on-topic score
threshold extraction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-