期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
Pipe-RLHF:计算模式感知的RLHF并行加速框架
1
作者 徐颖 王梦迪 +4 位作者 程龙 刘炼 赵世新 张磊 王颖 《计算机研究与发展》 北大核心 2025年第6期1513-1529,共17页
基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问... 基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问题.PPO由生成、推理、训练3个相互关联的阶段组成,各个阶段有着不同的计算特性.然而,现有的RLHF并行框架采用相同并行策略顺序执行PPO的所有阶段,这导致以下2个问题:其一,生成阶段不能充分利用计算资源,进而影响整体效率;其二,阶段间严格串行执行,未能充分利用潜在并行性.针对上述问题,提出了一个新型RLHF并行框架——Pipe-RLHF.该框架能够自适应地根据各阶段的计算特征确定最优并行策略,突破现有阶段串行范式,采用异步PPO算法发掘阶段间的并行性.具体而言,创新性地提出了适用于PPO生成阶段的延迟批间流水线并行方法,显著提升了该阶段的计算资源利用率;再次,使用异步PPO解放阶段间的依赖关系,将阶段间并行应用到PPO的加速上;最后,针对PPO算法的整体优化,构建了分层并行策略空间,并提出了一套优化算法以实现该空间中的最优解搜索.通过在多个大语言模型上的性能评估实验表明,相较于现有方法,Pipe-RLHF最高可实现3.7倍的加速比,充分验证了该框架的有效性和优越性. 展开更多
关键词 基于人类反馈强化学习 近端策略优化 大模型微调 分布式系统 并行计算
在线阅读 下载PDF
电力设备ChatGPT类模式与关键技术 被引量:17
2
作者 江秀臣 臧奕茗 +3 位作者 刘亚东 盛戈皞 许永鹏 钱庆林 《高电压技术》 EI CAS CSCD 北大核心 2023年第10期4033-4045,共13页
ChatGPT(chat generative pre-trained transformer)是近些年人工智能领域发展的新技术方向,其涵盖了设备数字孪生、设备管理、平台运行等数字化功能,更具备通用性、生成式人机对话的特点。文章首先介绍了ChatGPT的发展现状,以及电力设... ChatGPT(chat generative pre-trained transformer)是近些年人工智能领域发展的新技术方向,其涵盖了设备数字孪生、设备管理、平台运行等数字化功能,更具备通用性、生成式人机对话的特点。文章首先介绍了ChatGPT的发展现状,以及电力设备ChatGPT类模式和核心技术架构,说明大模型具有优异的泛化能力、逻辑推理能力、多模态数据分析生成能力等突出特点。然后,从高算力人工智能芯片、语料样本体系构建、基于Transformer的生成式预训练模型、嵌入大语言模型的多模态算法、基于人类反馈的强化学习技术这五个方面分析了电力设备ChatGPT类模式所涉及的关键技术。最后,提出了电力设备ChatGPT在电力行业开展的可行性和技术方案,总结出未来电力设备ChatGPT所面临的挑战和发展方向。 展开更多
关键词 电力设备ChatGPT Transformer模型 人类反馈强化学习 通用人工智能 数字孪生
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部