期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于LDA和word2vec的英文作文跑题检测 被引量:3
1
作者 曲强 崔荣一 赵亚慧 《计算机应用研究》 CSCD 北大核心 2019年第2期415-419,共5页
针对目前国内的英语作文辅助批阅系统缺少准确而高效的跑题检测算法的问题,提出了一种结合LDA和word2vec的跑题检测算法。该算法利用LDA模型对文档建模并通过word2vec对文档进行训练,利用得到的文档主题和词语之间的语义关系,对文档中... 针对目前国内的英语作文辅助批阅系统缺少准确而高效的跑题检测算法的问题,提出了一种结合LDA和word2vec的跑题检测算法。该算法利用LDA模型对文档建模并通过word2vec对文档进行训练,利用得到的文档主题和词语之间的语义关系,对文档中各主题及其特征词计算概率加权和,最终通过设定合理阈值筛选出跑题作文。实验中通过改变文档的主题数而得到不同的F值,确定了最佳主题数。实验结果表明,所提出的方法比基于向量空间模型的方法更具有效性,可以检测到更多的跑题作文,并且准确率较高,F值达到89%以上,实现了作文跑题检测的智能化处理,可以有效地应用在英语作文教学中。 展开更多
关键词 作文跑题检测 向量空间模型 潜在狄利克雷分配 词语间语义关系
在线阅读 下载PDF
基于LDA耦合空间模型的作文跑题检测方法研究 被引量:2
2
作者 孟超颖 宋文爱 富丽贞 《计算机应用研究》 CSCD 北大核心 2019年第12期3544-3547,共4页
传统的跑题检测方法大部分是将文本转换为向量空间的向量表示,再计算与正确文章之间的相似度来得到是否跑题的结果,然而这种方法仅针对文章语句结构上的表示,却忽略了文章语义上的关联,并且对于题目发散度较高的作文跑题检测效果较低。... 传统的跑题检测方法大部分是将文本转换为向量空间的向量表示,再计算与正确文章之间的相似度来得到是否跑题的结果,然而这种方法仅针对文章语句结构上的表示,却忽略了文章语义上的关联,并且对于题目发散度较高的作文跑题检测效果较低。针对以上问题,利用题目与正文主题词在耦合空间计算其相关度,再通过聚类的方法实现无监督的作文跑题检测。实验结果表明,基于耦合空间模型的作文跑题检测方法不论对于题目发散度较低还是较高的作文的检测准确度都有一定程度的提高,其中对于题目发散度较高的作文更为明显。 展开更多
关键词 作文跑题检测 耦合空间 主题词提取 相关度
在线阅读 下载PDF
基于局部密度的无监督作文跑题检测方法 被引量:1
3
作者 李霞 温启帆 《中文信息学报》 CSCD 北大核心 2017年第6期205-213,共9页
针对现有的无监督作文跑题检测方法中,使用作文内容向量表示作文存在非主题词噪声所导致的相似度不准确问题,该文提出一种基于作文主题词抽取和局部密度阈值选择的无监督作文跑题检测方法。首先使用LDA主题生成模型挖掘待测作文的主题词... 针对现有的无监督作文跑题检测方法中,使用作文内容向量表示作文存在非主题词噪声所导致的相似度不准确问题,该文提出一种基于作文主题词抽取和局部密度阈值选择的无监督作文跑题检测方法。首先使用LDA主题生成模型挖掘待测作文的主题词,并使用分布式表示向量寻找与题目词项语义相似的词,作为对作文题目的主题词扩展,在此基础上使用提出的切题度计算方法计算待测作文的切题度,并使用所提出的基于作文集切题度局部密度的阈值抽取方法动态选取切题阈值,进而实现一种无需训练集和主题无关的无监督作文跑题检测方法。在以英语为母语的学习者和以汉语为母语的学习者所写的8个作文集共9 381篇作文上的实验结果表明,该文提出的作文跑题检测方法能有效识别跑题作文,加入拼写检查预处理后,平均F1值为79.64%,单个作文题目下F1值最好为96.1%。 展开更多
关键词 作文跑题检测 主题词抽取 切题度 阈值选取
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部