期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
针对大规模训练集的支持向量机的学习策略 被引量:53
1
作者 李红莲 王春花 +1 位作者 袁保宗 朱占辉 《计算机学报》 EI CSCD 北大核心 2004年第5期715-719,共5页
当训练集的规模很大特别是支持向量很多时 ,支持向量机的学习过程需要占用大量的内存 ,寻优速度非常缓慢 ,这给实际应用带来了很大的麻烦 .该文提出了一种针对大规模样本集的学习策略 :首先用一个小规模的样本集训练得到一个初始的分类... 当训练集的规模很大特别是支持向量很多时 ,支持向量机的学习过程需要占用大量的内存 ,寻优速度非常缓慢 ,这给实际应用带来了很大的麻烦 .该文提出了一种针对大规模样本集的学习策略 :首先用一个小规模的样本集训练得到一个初始的分类器 ,然后用这个分类器对大规模训练集进行修剪 ,修剪后得到一个规模很小的约减集 ,再用这个约减集进行训练得到最终的分类器 .实验表明 ,采用这种学习策略不仅大幅降低了学习的代价 ,而且这样获得的分类器的分类精度完全可以与直接通过大规模样本集训练得到的分类器的分类精度相媲美 ,甚至更优 ,同时分类速度也得到大幅提高 . 展开更多
关键词 支持向量机 学习策略 大规模训练 分类器
在线阅读 下载PDF
大规模训练数据的支持向量机学习新方法 被引量:14
2
作者 郑志洵 杨建刚 《计算机工程与设计》 CSCD 北大核心 2006年第13期2425-2426,2431,共3页
支持向量机不能直接对大规模的训练数据进行学习。提出一种新的减小样本集规模的方法;在映射后的高维空间中寻找两种类别的交界部分,交界部分上的样本作为学习样本。并且指出,不需涉及具体映射的形式只用核函数即可找到交界部分的样本... 支持向量机不能直接对大规模的训练数据进行学习。提出一种新的减小样本集规模的方法;在映射后的高维空间中寻找两种类别的交界部分,交界部分上的样本作为学习样本。并且指出,不需涉及具体映射的形式只用核函数即可找到交界部分的样本。实验表明,新方法优于直接在低维样本空间中寻找交界部分样本的方法。 展开更多
关键词 支持向量机 大规模训练数据 核函数 高维空间 类别交界
在线阅读 下载PDF
面向深度神经网络大规模分布式数据并行训练的MC^(2)能耗模型 被引量:1
3
作者 魏嘉 张兴军 +2 位作者 王龙翔 赵明强 董小社 《计算机研究与发展》 EI CSCD 北大核心 2024年第12期2985-3004,共20页
深度神经网络(deep neural network,DNN)在许多现代人工智能(artificial intelligence,AI)任务中取得了最高的精度.近年来,使用高性能计算平台进行大规模分布式并行训练DNN越来越普遍.能耗模型在设计和优化DNN大规模并行训练和抑制高性... 深度神经网络(deep neural network,DNN)在许多现代人工智能(artificial intelligence,AI)任务中取得了最高的精度.近年来,使用高性能计算平台进行大规模分布式并行训练DNN越来越普遍.能耗模型在设计和优化DNN大规模并行训练和抑制高性能计算平台过量能耗方面起着至关重要的作用.目前,大部分的能耗模型都是从设备的角度出发对单个设备或多个设备构成的集群进行能耗建模,由于缺乏从能耗角度对分布式并行DNN应用进行分解剖析,导致罕有针对分布式DNN应用特征进行建模的能耗模型.针对目前最常用的DNN分布式数据并行训练模式,从DNN模型训练本质特征角度出发,提出了“数据预处理(materials preprocessing)-前向与反向传播(computing)-梯度同步与更新(communicating)”三阶段MC^(2)能耗模型,并通过在国产E级原型机天河三号上使用最多128个MT节点和32个FT节点训练经典的VGG16和ResNet50网络以及最新的Vision Transformer网络验证了模型的有效性和可靠性.实验结果表明,MC^(2)与真实能耗测量结果相差仅为2.84%,相较4种线性比例能耗模型以及AR,SES,ARIMA时间预测模型准确率分别提升了69.12个百分点,69.50个百分点,34.58个百分点,13.47个百分点,5.23个百分点,22.13个百分点,10.53个百分点.通过使用的模型可以在超算平台得到DNN模型的各阶段能耗和总体能耗结果,为评估基于能耗感知的DNN大规模分布式数据并行训练及推理各阶段任务调度、作业放置、模型分割、模型裁剪等优化策略的效能提供了基础. 展开更多
关键词 深度神经网络 能耗模型 大规模分布式训练 数据并行 超级计算机
在线阅读 下载PDF
鹏程·盘古:大规模自回归中文预训练语言模型及应用 被引量:6
4
作者 曾炜 苏腾 +2 位作者 王晖 田永鸿 高文 《中兴通讯技术》 2022年第2期33-43,共11页
在鹏城云脑Ⅱ上训练了全球首个拥有全开源2000亿参数的自回归中文预训练语言大模型——鹏程·盘古。鹏程·盘古模型基于1.1 TB高质量中文训练数据,采用全场景人工智能计算框架MindSpore自动并行技术实现了五维并行训练策略,从... 在鹏城云脑Ⅱ上训练了全球首个拥有全开源2000亿参数的自回归中文预训练语言大模型——鹏程·盘古。鹏程·盘古模型基于1.1 TB高质量中文训练数据,采用全场景人工智能计算框架MindSpore自动并行技术实现了五维并行训练策略,从而可将训练任务高效扩展到4096个处理器上。对比实验表明,在少样本或零样本情况下,鹏程·盘古模型在多个中文自然语言理解或生成任务上都具有较优的性能。在此基础上,鹏程·盘古模型在大模型压缩、提示微调学习、多任务学习以及持续学习等方面也取得了很好的应用效果。 展开更多
关键词 大规模训练语言模型 鹏城云脑Ⅱ 大规模分布式训练 中文理解与生成 提示微调学习
在线阅读 下载PDF
适于大规模数据集的块增量学习算法:BISVM 被引量:3
5
作者 王磊 孙世新 +1 位作者 李杰 杨浩淼 《计算机应用研究》 CSCD 北大核心 2008年第1期98-100,113,共4页
对支持向量机的大规模训练问题进行了深入研究,提出一种类似SMO的块增量算法。该算法利用increase和decrease两个过程依次对每个输入数据块进行学习,避免了传统支持向量机学习算法在大规模数据集情况下急剧增大的计算开销。理论分析表... 对支持向量机的大规模训练问题进行了深入研究,提出一种类似SMO的块增量算法。该算法利用increase和decrease两个过程依次对每个输入数据块进行学习,避免了传统支持向量机学习算法在大规模数据集情况下急剧增大的计算开销。理论分析表明新算法能够收敛到近似最优解。基于KDD数据集的实验结果表明,该算法能够获得接近线性的训练速率,且泛化性能和支持向量数目与LIBSVM方法的结果接近。 展开更多
关键词 支持向量机 块增量算法 大规模训练
在线阅读 下载PDF
超大规模多模态预训练模型M6的关键技术及产业应用 被引量:4
6
作者 林俊旸 周畅 杨红霞 《中兴通讯技术》 2022年第2期44-50,共7页
阿里巴巴达摩院研发了超大规模中文多模态预训练模型M6,并陆续推出了百亿、千亿、万亿和十万亿参数规模的预训练模型,实现了高效低碳的预训练,推动超大规模预训练模型的产业化应用。同时,推出了M6服务化平台,帮助广大用户快速使用大模... 阿里巴巴达摩院研发了超大规模中文多模态预训练模型M6,并陆续推出了百亿、千亿、万亿和十万亿参数规模的预训练模型,实现了高效低碳的预训练,推动超大规模预训练模型的产业化应用。同时,推出了M6服务化平台,帮助广大用户快速使用大模型。未来,大模型在产业领域的应用将更加丰富。 展开更多
关键词 多模态预训练 大规模训练 图像生成 文本生成
在线阅读 下载PDF
医学人工智能临床应用的伦理困境:从信息系统到机器人
7
作者 王兰英 郑睿 刘宪伟 《医学与哲学》 北大核心 2025年第9期24-29,共6页
分析从经典的影像诊断信息系统到智能决策、自主操作的手术机器人等不同自主程度的医学人工智能所面临的主要伦理困境,探讨数据三角定位导致的隐私泄露、数据价值的分配、针对罕见病与弱势群体的偏见、医学人工智能对医生角色的挑战和... 分析从经典的影像诊断信息系统到智能决策、自主操作的手术机器人等不同自主程度的医学人工智能所面临的主要伦理困境,探讨数据三角定位导致的隐私泄露、数据价值的分配、针对罕见病与弱势群体的偏见、医学人工智能对医生角色的挑战和对医患关系的重塑、患者个体获益不明确、责任归属不清晰等核心问题,提出按照自主程度对医学人工智能进行分级管理;医学伦理理论为医学人工智能的系统发展提供框架;教育引导医患双方正确认识和使用医学人工智能等治理对策。 展开更多
关键词 医学人工智能 数据伦理 医疗责任归属 人机关系 医患关系 医疗大规模训练模型
在线阅读 下载PDF
农业知识驱动服务技术革新综述与前沿 被引量:5
8
作者 王元胜 吴华瑞 赵春江 《农业工程学报》 EI CAS CSCD 北大核心 2024年第7期1-16,共16页
农业知识驱动服务技术是指运用先进信息技术,科学、高效调配农业领域专业知识服务资源,为农业行业提供智能化知识服务的技术,在解决农业技术服务供需严重失衡等难点问题方面具有重要意义,日益成为支撑农业转型升级和高质量发展的重要引... 农业知识驱动服务技术是指运用先进信息技术,科学、高效调配农业领域专业知识服务资源,为农业行业提供智能化知识服务的技术,在解决农业技术服务供需严重失衡等难点问题方面具有重要意义,日益成为支撑农业转型升级和高质量发展的重要引擎,代表着核心研究方向,伴随着技术发展全过程。目前农业行业迫切需要解决的是知识供给严重不足、服务效率不高的问题。农业知识驱动服务技术经历较长时间发展,在知识高效匹配和精准供给方面取得了较大进步,特别是2022年11月以来ChatGPT这类技术的出现,充分展现了超大规模预训练模型在知识智能服务方面的巨大潜力,这也是农业知识驱动服务可以取得突破的关键所在,可以在这方面发挥重要作用。该文在分析农业知识驱动服务相关技术现状的基础上,展望了农业领域可行的知识驱动服务技术路径,预测农业领域知识服务大模型研发构建会呈现参数由少到多、算力由弱趋强、强化训练逐渐加深的特点得到快速发展应用,未来将在专业技术指导、农业“装备-信息-农艺”融合、农业信息系统平台服务总线等方面系统升级现有农业知识服务范式,多模态服务将得到系统融合加深,人机交互模式将向“人性化”方向进一步黏合增强,从而为农业智能化转型升级提供全新的技术支撑,引领农业知识服务从数据检索、语义匹配迈向生成式知识驱动模式转变。 展开更多
关键词 农业 技术服务 知识驱动 ChatGPT 大规模训练模型 新范式
在线阅读 下载PDF
矿山行业大模型建设路径探索与应用展望 被引量:10
9
作者 王海军 《煤炭科学技术》 EI CAS CSCD 北大核心 2024年第11期45-59,共15页
煤炭是保障能源安全的压舱石。在当前加快发展数字经济、积极稳妥推进“双碳”目标的背景下,煤炭行业亟需深化数字化转型与智能化建设。在此背景下,探索引入大模型技术赋能煤炭行业应用,充分利用行业海量知识数据,加快推动煤炭行业的数... 煤炭是保障能源安全的压舱石。在当前加快发展数字经济、积极稳妥推进“双碳”目标的背景下,煤炭行业亟需深化数字化转型与智能化建设。在此背景下,探索引入大模型技术赋能煤炭行业应用,充分利用行业海量知识数据,加快推动煤炭行业的数字化发展,已成为行业关注的焦点。基于此,梳理了通用大模型技术的发展现状,阐述了大模型技术在多领域的应用现状与成效,介绍了数据处理(清洗、平衡、增强等)、文本分词、预训练与微调、提示词优化、向量嵌入、对齐、检索增强生成等行业大模型关键技术,表明了行业大模型在继承通用大模型“通”的优势的同时又兼具“专”的特点,在推动行业生产力革新和产业升级方面发挥着重要作用。深度剖析了大模型技术在煤炭行业应用面临研发投入成本高、高质量数据搜集难度大、多模态数据融合技术难度高等挑战,从基础设施层、数据资源层、算法模型层、应用服务层、安全可信与测试层、行业生态层六方面详细总结了太阳石矿山大模型为应对上述挑战采取的建设路径以及取得的阶段性成效,最后对大模型技术的发展给煤炭行业带来的生产与技术变革进行了展望,指出矿山行业大模型建设应遵循开源模型与行业数据相结合的路径,发挥大模型的工具属性以赋能业务场景、构建“产-学-研-用”相结合的应用生态,助力矿山行业新质生产力的发展。 展开更多
关键词 大规模训练模型 矿山行业大模型 太阳石矿山大模型 检索增强生成 知识标签体系
在线阅读 下载PDF
基于软提示微调和强化学习的网络安全命名实体识别方法研究 被引量:1
10
作者 田泽庶 刘春雨 +3 位作者 张云婷 张嘉宇 孟超 张宏莉 《通信学报》 EI CSCD 北大核心 2024年第10期1-16,共16页
随着网络技术的迅猛发展,新型网络安全威胁不断涌现,网络安全命名实体识别重要性日益增加。针对现有基于大语言模型的命名实体识别方法在网络安全领域识别准确率差的问题,提出了一种结合软提示微调和强化学习的网络安全命名实体识别方... 随着网络技术的迅猛发展,新型网络安全威胁不断涌现,网络安全命名实体识别重要性日益增加。针对现有基于大语言模型的命名实体识别方法在网络安全领域识别准确率差的问题,提出了一种结合软提示微调和强化学习的网络安全命名实体识别方法。通过结合软提示微调技术,针对网络安全领域的复杂性,精细调整大语言模型的识别能力,提升模型对网络安全命名实体的识别准确率,同时优化训练效率。此外,提出了基于强化学习的网络安全实体筛选器,可以有效去除训练集中的低质量标注,从而提升识别准确率。在2个开源基准网络安全实体识别数据集上评估了所提方法,实验结果表明,所提方法的F1值优于现有最佳的网络安全命名实体识别方法。 展开更多
关键词 网络安全命名实体识别 软提示微调 强化学习 大规模训练模型
在线阅读 下载PDF
视觉提示学习综述 被引量:4
11
作者 廖宁 曹敏 严骏驰 《计算机学报》 EI CAS CSCD 北大核心 2024年第4期790-820,共31页
近年来,随着提示学习方法在自然语言处理领域被提出,其日益受到研究人员广泛关注,它通过将各类下游任务重构成预训练任务的形式,以参数高效和数据高效的方式将大规模预训练模型应用在各类自然语言相关下游任务中.其中以GPT系列为代表的... 近年来,随着提示学习方法在自然语言处理领域被提出,其日益受到研究人员广泛关注,它通过将各类下游任务重构成预训练任务的形式,以参数高效和数据高效的方式将大规模预训练模型应用在各类自然语言相关下游任务中.其中以GPT系列为代表的模型通过提示学习在对话生成和多模态图文理解等任务上取得了巨大的成功.然而,这类模型及方法还不能解决视觉中的稠密任务.受此启发,一些研究人员逐渐将提示学习广泛应用到视觉相关的各类任务当中,如图像识别、目标检测、图像分割、领域适应、持续学习等.由于目前还没有提示学习应用在视觉相关领域中的综述,本文将对视觉单模态领域以及视觉语言多模态领域的提示学习方法展开全面论述和分析.作为回顾,我们首先简要介绍自然语言处理领域的预训练模型,并对提示学习的基本概念、下游应用形式以及提示模板类型进行阐述和分类.其次,我们分别介绍视觉单模态领域以及视觉语言多模态领域里提示学习方法适配的预训练模型和任务.再次,我们分别介绍视觉单模态领域以及视觉语言多模态领域的提示学习方法.在自然语言处理领域,提示学习方法以继承预训练形式实现多任务统一为主要目的;与此不同,在视觉相关领域,提示学习方法侧重于面向特定下游任务进行设计.为此,我们将从方法设计上进行简单分类,然后从应用任务角度详细介绍视觉单模态提示学习和视觉语言多模态提示学习方法.最后,我们对比分析了自然语言处理领域和视觉相关领域提示学习研究的进展,并对未来研究路线给出了展望。 展开更多
关键词 大规模训练模型 自然语言处理 视觉单模态提示学习 视觉语言多模态提示学习
在线阅读 下载PDF
AIGC赋能我国自动版权侵权检测技术发展 被引量:2
12
作者 陈潇婷 《中国出版》 CSSCI 北大核心 2024年第6期60-64,共5页
数字经济为自动版权侵权检测技术发展带来新机遇,但也面临检测规模巨大、准确率有待提高等问题。新一代人工智能技术,特别是大规模预训练语言模型(Large Language Model,LLM)可实现内容“深度理解”,显著提升检测性能。构建LLM驱动的检... 数字经济为自动版权侵权检测技术发展带来新机遇,但也面临检测规模巨大、准确率有待提高等问题。新一代人工智能技术,特别是大规模预训练语言模型(Large Language Model,LLM)可实现内容“深度理解”,显著提升检测性能。构建LLM驱动的检测技术体系,完善法规政策,增强检测主体能力,是推动检测技术进步的重要举措。这不仅影响知识产权保护效果,也关系到文化产业数字化转型的成效。检测技术创新应兼顾经济效益和社会效益,在支持转型的同时维护文化安全。 展开更多
关键词 数字经济 自动版权检测 大规模训练语言模型 技术创新 文化产业转型
在线阅读 下载PDF
应用快速多分类SVM的航空发动机故障诊断方法 被引量:20
13
作者 徐启华 师军 耿帅 《推进技术》 EI CAS CSCD 北大核心 2012年第6期961-967,共7页
提出了一种新的快速多分类SVM算法,用于解决大样本情况下航空发动机的多类故障诊断问题。首先,选用层次支持向量机(H-SVM)来实现多类分类,用各类数据中心代表该类数据,通过自组织特征映射神经网络(SOFM)进行聚类,把类中心之间距离较近... 提出了一种新的快速多分类SVM算法,用于解决大样本情况下航空发动机的多类故障诊断问题。首先,选用层次支持向量机(H-SVM)来实现多类分类,用各类数据中心代表该类数据,通过自组织特征映射神经网络(SOFM)进行聚类,把类中心之间距离较近的数据归为同一个子类进行训练,得到H-SVM层次结构。其次,在训练H-SVM中的二元分类器时,应用相对边界向量(RBV)代替全部训练样本,在保持分类精度几乎不变的条件下大幅度减少了训练样本数,使训练时间明显缩短;同时,由于支持向量的数量减小,分类时间也相应缩短。在分类数据混迭较为严重的情况下,新算法先剔除混迭的异类数据,再计算RBV,并且把与计算的RBV距离小于一定数值的样本都选择来训练SVM,保证了RBV的合理性,防止了关键数据的丢失,有效提高了分类精度。针对一个航空涡喷发动机5类复合故障的分类进行了实例仿真,总的故障分类正确率达到91.2%,二元SVM的训练时间最多只有原来的16.20%;当训练样本总数达到7500的大规模情况下,根据本算法,约减后的样本数量只有原来的3.05%。仿真结果表明,提出的算法有效、可靠,容易实现。 展开更多
关键词 航空发动机 支持向量机 故障诊断 大规模训练 样本约减 神经网络
在线阅读 下载PDF
基于多层聚类的多分类SVM快速学习方法 被引量:8
14
作者 张春艳 倪世宏 +1 位作者 张鹏 查翔 《计算机工程与设计》 北大核心 2017年第2期522-527,共6页
针对SVM大规模多类样本学习效率较低的问题,提出一种基于多层聚类的多分类SVM快速学习方法。采用自下而上的方式构建二叉树层次结构,根据所得层次结构,对每个节点对应的样本进行学习。学习时对训练样本进行首次聚类得到若干类簇,对其中... 针对SVM大规模多类样本学习效率较低的问题,提出一种基于多层聚类的多分类SVM快速学习方法。采用自下而上的方式构建二叉树层次结构,根据所得层次结构,对每个节点对应的样本进行学习。学习时对训练样本进行首次聚类得到若干类簇,对其中只有一类样本的类簇提取中心点;对有两类样本的类簇,根据其混合度,对其正负类样本设定不同的聚类数,进行二次聚类,提取所得类簇中心点。整合上述步骤中提取的中心点作为约简后的样本,学习并得到子分类器。仿真结果表明,基于多层聚类的多分类SVM快速学习方法能够在保证较高分类准确率的前提下,大幅约简训练样本,有效提高学习效率。 展开更多
关键词 支持向量机 大规模训练 多分类 多层聚类 二叉树
在线阅读 下载PDF
基于壳向量和中心向量的支持向量机 被引量:3
15
作者 薛贞霞 刘三阳 齐小刚 《数据采集与处理》 CSCD 北大核心 2009年第3期328-334,共7页
针对支持向量机(Support vector machines,SVMs)中大规模样本集训练速度慢且分类精度易受野点影响的问题,提出一个基于样本几何信息的支持向量机算法。其基本步骤是,首先分别求取每类样本点的壳向量和中心向量,然后将求出的壳向量作为... 针对支持向量机(Support vector machines,SVMs)中大规模样本集训练速度慢且分类精度易受野点影响的问题,提出一个基于样本几何信息的支持向量机算法。其基本步骤是,首先分别求取每类样本点的壳向量和中心向量,然后将求出的壳向量作为新的训练集进行标准的SVM训练得到超平面的法向量,最后利用中心向量来更新法向量从而减少野点的影响得到最终的分类嚣。实验表明,采用这种学习策略,不仅加快了训练速度,而且在一般情况下也提高了分类精度。 展开更多
关键词 支持向量机 大规模训练 壳向量 中心向量
在线阅读 下载PDF
UCM算法及其在电子政务网页分类系统中的应用
16
作者 李恒锐 万杨亮 周继华 《计算机应用与软件》 CSCD 北大核心 2013年第1期213-215,共3页
针对大规模训练集的网页分类问题提出UCM(UC and SVM)分类方法。UCM算法结合了支持向量机SVM(Support Vector Machine)与无监督聚类UC(Unsupervised Clustering)的特点,使网页分类既有较高的准确率,又有较快的分类速度。在训练阶段,UCM... 针对大规模训练集的网页分类问题提出UCM(UC and SVM)分类方法。UCM算法结合了支持向量机SVM(Support Vector Machine)与无监督聚类UC(Unsupervised Clustering)的特点,使网页分类既有较高的准确率,又有较快的分类速度。在训练阶段,UCM算法利用UC方法形成聚类中心;在分类阶段,UCM算法计算待分类网页与正例中心及反例中心的距离,若距离差较大,用UC分类,否则用SVM分类。在电子政务网页分类系统中的应用表明,UCM网页分类算法在准确率方面远高于UC,略高于SVM;在分类速度上,UCM介于UC和SVM二者之间,远大于SVM。 展开更多
关键词 支持向量机 聚类 大规模训练 网页分类系统 电子政务
在线阅读 下载PDF
基于复述增广的医疗领域机器翻译 被引量:2
17
作者 安波 龙从军 《电子与信息学报》 EI CSCD 北大核心 2022年第1期118-126,共9页
医疗机器翻译对于跨境医疗、医疗文献翻译等应用具有重要价值。汉英神经机器翻译依靠深度学习强大的建模能力和大规模双语平行数据取得了长足的进步。神经机器翻译通常依赖于大规模的平行句对训练翻译模型。目前,汉英翻译数据主要以新... 医疗机器翻译对于跨境医疗、医疗文献翻译等应用具有重要价值。汉英神经机器翻译依靠深度学习强大的建模能力和大规模双语平行数据取得了长足的进步。神经机器翻译通常依赖于大规模的平行句对训练翻译模型。目前,汉英翻译数据主要以新闻、政策等领域数据为主,缺少医疗领域的数据,导致医疗领域的汉英机器翻译效果不佳。针对医疗垂直领域机器翻译训练数据不足的问题,该文提出利用复述生成技术对汉英医疗机器翻译数据进行增广,扩大汉英机器翻译的规模。通过多种主流的神经机器翻译模型的实验结果表明,通过复述生成对数据进行增广可以有效地提升机器翻译的性能,在RNNSearch,Transformer等多个主流模型上均取得了6个点以上的BLEU值提升,验证了复述增广方法对领域机器翻译的有效性。同时,基于MT5等大规模预训练语言模型可以进一步地提升机器翻译的性能。 展开更多
关键词 神经机器翻译 汉英翻译 复述生成 数据增广 大规模训练语言模型
在线阅读 下载PDF
中文慕课评论情感识别语料库的构建与应用 被引量:3
18
作者 魏晓聪 于澜 《重庆理工大学学报(自然科学)》 CAS 北大核心 2023年第4期174-181,共8页
中文在线教育评论情感识别在很大程度上受到有标注数据不足的限制,针对此问题,基于806门中国大学MOOC以自动和人工相结合的方式构建中文慕课情感识别语料库,共计10340条评论,其中褒义5411条,贬义4929条,保证了语料库的平衡性和学科覆盖... 中文在线教育评论情感识别在很大程度上受到有标注数据不足的限制,针对此问题,基于806门中国大学MOOC以自动和人工相结合的方式构建中文慕课情感识别语料库,共计10340条评论,其中褒义5411条,贬义4929条,保证了语料库的平衡性和学科覆盖的广泛性。制定语料收集和预处理策略、标注规范、标注体系、一致性检测方法;提出了神经网络模型以及基于大规模预训练语言模型的情感识别方法;实现了情感识别结果面向教学管理部门、教师2种使用角色的应用。该语料库为面向在线教育评论的情感分析研究奠定数据基础,对赋能教学评价、助力智能教学系统具有重要意义。 展开更多
关键词 中文 慕课评论 情感识别 语料库 大规模训练语言模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部