期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Mega模型的文本分类与长文本生成研究
1
作者 许惠惠 《信息技术与信息化》 2025年第4期127-130,共4页
随着社交媒体、新闻平台和电商评论等领域中长文本数据的激增,传统模型如RNN和LSTM在建模长距离依赖方面存在局限,而Transformer在处理超长文本时计算开销巨大。为此,文章提出基于Mega(moving average equipped gated attention)模型的... 随着社交媒体、新闻平台和电商评论等领域中长文本数据的激增,传统模型如RNN和LSTM在建模长距离依赖方面存在局限,而Transformer在处理超长文本时计算开销巨大。为此,文章提出基于Mega(moving average equipped gated attention)模型的长文本分类与生成方法。通过引入指数移动平均(exponential moving average,EMA)和门控注意力机制,Mega模型增强了长距离依赖建模能力,并通过Mega-chunk机制提升计算效率。在文本分类任务中,Mega在AG News、IMDB和Amazon Reviews数据集上的表现优于RNN、LSTM、Tansformer和Longformer,尤其在长文本分类中展现了更高的准确率和计算效率。综上,Mega模型通过创新设计,在长文本处理任务中实现了性能与效率的平衡,适用于智能问答、新闻摘要等实际场景。 展开更多
关键词 Mega模型 文本分类 长文本生成 门控注意力机制 指数移动平均
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部