-
题名基于Mega模型的文本分类与长文本生成研究
- 1
-
-
作者
许惠惠
-
机构
山西药科职业学院素质教育教学研究部
-
出处
《信息技术与信息化》
2025年第4期127-130,共4页
-
基金
教育部职业院校信息化教学指导委员会2024年度全国高等职业院校信息技术课程教学改革研究项目课题“医药类高职院校‘信息技术’课程数字化项目实践教学建设研究”的阶段性成果(KT2024176)
2021年度山西省高等学校哲学社会科学研究项目(思想政治教育专项)“新时代高职大学生群体画像构建研究”的阶段性成果(2021zsszsx207)
2021年度山西省教育科学规划课题“基于神经网络模型的校企协同顶岗实习的评价研究”的阶段性成果(PJ-21045)。
-
文摘
随着社交媒体、新闻平台和电商评论等领域中长文本数据的激增,传统模型如RNN和LSTM在建模长距离依赖方面存在局限,而Transformer在处理超长文本时计算开销巨大。为此,文章提出基于Mega(moving average equipped gated attention)模型的长文本分类与生成方法。通过引入指数移动平均(exponential moving average,EMA)和门控注意力机制,Mega模型增强了长距离依赖建模能力,并通过Mega-chunk机制提升计算效率。在文本分类任务中,Mega在AG News、IMDB和Amazon Reviews数据集上的表现优于RNN、LSTM、Tansformer和Longformer,尤其在长文本分类中展现了更高的准确率和计算效率。综上,Mega模型通过创新设计,在长文本处理任务中实现了性能与效率的平衡,适用于智能问答、新闻摘要等实际场景。
-
关键词
Mega模型
文本分类
长文本生成
门控注意力机制
指数移动平均
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-