-
题名融合词先验知识的MOOCs课程概念抽取
- 1
-
-
作者
聂凡
刘德喜
张子靖
刘喜平
廖国琼
万常选
-
机构
江西财经大学计算机与人工智能学院
江西财经大学数据与知识工程江西省高校重点实验室
-
出处
《中文信息学报》
北大核心
2025年第1期101-111,120,共12页
-
基金
国家自然科学基金(62272206,62272205,62462034)
江西省主要学科学术和技术带头人培养计划领军人才项目(20213BCJL22041)
+1 种基金
江西省自然科学基金(20212ACB202002,20242BAB25119)
江西省教育厅科学技术研究项目(GJJ2200501)。
-
文摘
针对中文大规模开放在线课程(Massive Open Online Courses,MOOCs)视频字幕中课程概念词性丰富、领域特性显著等特点,该文提出一种融合词性、词性规则和词典等词先验知识(Word Prior Knowledge,WPK)的课程概念抽取模型WPK-MCC。该模型首先通过BERT以及字符嵌入的方式获得包含上下文和词性信息的字符表示,再利用词典匹配当前字符所在窗口的字符串,构建当前字符的4个词汇集群(当前字符在词的开头、中间、结尾,以及当前字符单独成词),并通过词性规则控制每个词的贡献权重。此外,考虑到课程概念在MOOCs中有一定的重复性,WPK-MCC模型利用当前句子所在视频字幕的上下文信息,提升课程概念抽取的效果。在MoocData数据集上的实验结果表明,WPK-MCC模型对课程概念实体抽取的F_(1)值达到89.42%,优于SoftLexicon等先进的模型。消融实验显示,词性、规则和词典等词先验知识以及上下文全局信息对WPK-MCC模型的帮助较大,去除词先验知识和上下文全局信息后,WPK-MCC的F_(1)值下降了1.13%。
-
关键词
课程概念抽取
词先验知识
词汇集群
全局信息
-
Keywords
course concept extraction
word prior knowledge
vocabulary cluster
global information
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-