期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
Pipe-RLHF:计算模式感知的RLHF并行加速框架
1
作者 徐颖 王梦迪 +4 位作者 程龙 刘炼 赵世新 张磊 王颖 《计算机研究与发展》 北大核心 2025年第6期1513-1529,共17页
基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问... 基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问题.PPO由生成、推理、训练3个相互关联的阶段组成,各个阶段有着不同的计算特性.然而,现有的RLHF并行框架采用相同并行策略顺序执行PPO的所有阶段,这导致以下2个问题:其一,生成阶段不能充分利用计算资源,进而影响整体效率;其二,阶段间严格串行执行,未能充分利用潜在并行性.针对上述问题,提出了一个新型RLHF并行框架——Pipe-RLHF.该框架能够自适应地根据各阶段的计算特征确定最优并行策略,突破现有阶段串行范式,采用异步PPO算法发掘阶段间的并行性.具体而言,创新性地提出了适用于PPO生成阶段的延迟批间流水线并行方法,显著提升了该阶段的计算资源利用率;再次,使用异步PPO解放阶段间的依赖关系,将阶段间并行应用到PPO的加速上;最后,针对PPO算法的整体优化,构建了分层并行策略空间,并提出了一套优化算法以实现该空间中的最优解搜索.通过在多个大语言模型上的性能评估实验表明,相较于现有方法,Pipe-RLHF最高可实现3.7倍的加速比,充分验证了该框架的有效性和优越性. 展开更多
关键词 基于人类反馈的强化学习 近端策略优化 大模型微调 分布式系统 并行计算
在线阅读 下载PDF
电力设备ChatGPT类模式与关键技术 被引量:17
2
作者 江秀臣 臧奕茗 +3 位作者 刘亚东 盛戈皞 许永鹏 钱庆林 《高电压技术》 EI CAS CSCD 北大核心 2023年第10期4033-4045,共13页
ChatGPT(chat generative pre-trained transformer)是近些年人工智能领域发展的新技术方向,其涵盖了设备数字孪生、设备管理、平台运行等数字化功能,更具备通用性、生成式人机对话的特点。文章首先介绍了ChatGPT的发展现状,以及电力设... ChatGPT(chat generative pre-trained transformer)是近些年人工智能领域发展的新技术方向,其涵盖了设备数字孪生、设备管理、平台运行等数字化功能,更具备通用性、生成式人机对话的特点。文章首先介绍了ChatGPT的发展现状,以及电力设备ChatGPT类模式和核心技术架构,说明大模型具有优异的泛化能力、逻辑推理能力、多模态数据分析生成能力等突出特点。然后,从高算力人工智能芯片、语料样本体系构建、基于Transformer的生成式预训练模型、嵌入大语言模型的多模态算法、基于人类反馈的强化学习技术这五个方面分析了电力设备ChatGPT类模式所涉及的关键技术。最后,提出了电力设备ChatGPT在电力行业开展的可行性和技术方案,总结出未来电力设备ChatGPT所面临的挑战和发展方向。 展开更多
关键词 电力设备ChatGPT Transformer模型 人类反馈强化学习 通用人工智能 数字孪生
在线阅读 下载PDF
基于人类先验知识的强化学习综述 被引量:2
3
作者 国子婧 冯旸赫 +1 位作者 姚晨蝶 许乃夫 《计算机应用》 CSCD 北大核心 2021年第S02期1-4,共4页
强化学习通过智能体与环境互动以实现预期目标最大化,通常被用于解决关于连续决策的任务规划问题。当前任务规划主要使用规则或者运筹方法进行求解。这类方法的时间复杂度和空间复杂度随问题规模增长呈指数级增长,难以求解大规模问题;... 强化学习通过智能体与环境互动以实现预期目标最大化,通常被用于解决关于连续决策的任务规划问题。当前任务规划主要使用规则或者运筹方法进行求解。这类方法的时间复杂度和空间复杂度随问题规模增长呈指数级增长,难以求解大规模问题;并且对于动态任务规划问题也束手无策,只能求解静态的确定性问题。强化学习中的值函数近似等近似算法解决了这类方法的"维度灾难"问题,同时强化学习在智能体与环境的交互过程中加入随机因素,使其广泛应用于解决动态与随机性问题。然而强化学习需要智能体不断与环境交互来得到最优策略,当状态空间较大时,需要更多的采样和探索对策略进行梯度更新,收敛速度较慢,难以在实际中应用。人类在学习时利用先验知识保证了学习的快速开始,并减少了问题的探索时间,因此研究人类先验知识和强化学习的意义重大,可有效减少智能体对环境的采样和探索,帮助智能体更快地找到最优策略。基于人类先验知识与智能体交互的时间节点进行分类,对整合人类先验知识到强化学习的方法进行综述,最后对其发展方向进行展望。 展开更多
关键词 强化学习 人类先验知识 人类反馈 人类建议 人类示范
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部