期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于RISC-V Matrix指令集扩展的LLM矢量点积加速研究
1
作者 陈煦豪 胡思鹏 +3 位作者 刘洪超 刘伯然 唐丹 赵地 《计算机科学》 北大核心 2025年第5期83-90,共8页
鉴于边缘AI的高性能与低功耗需求,基于RISC-V指令集架构,针对边缘设备数字信号处理的实际问题,设计了一种边缘AI的专用指令集处理器,在有限的硬件开销下,提升了边缘AI的执行效率,降低了边缘AI的能量消耗,能够满足边缘AI应用中进行高效... 鉴于边缘AI的高性能与低功耗需求,基于RISC-V指令集架构,针对边缘设备数字信号处理的实际问题,设计了一种边缘AI的专用指令集处理器,在有限的硬件开销下,提升了边缘AI的执行效率,降低了边缘AI的能量消耗,能够满足边缘AI应用中进行高效大语言模型(LLM)推理计算的需求。针对大语言模型的特性,基于RISC-V指令集扩展了自定义指令完成矢量点积计算,在专用的矢量点积加速硬件上进行大语言模型的运算加速;基于开源高性能RISC-V处理器核“香山”nanhu版本架构,实现了矢量点积专用指令集处理器nanhu-vdot,其在高性能处理器“香山”(nanhu版本)的基础上增加了矢量点积计算单元以及流水线处理逻辑;对nanhu-vdot进行FPGA硬件测试,在几乎没有增加额外的硬件资源和功耗消耗的前提下,矢量点积运算速度相比标量方法提高4倍以上,使用软硬件协同方案进行第二代生成式预训练(Generative Pre-Trained-2,GPT-2)模型推理,相比纯软件实现,速度提高了约30%。 展开更多
关键词 指令集扩展 矢量点积 软硬件协同 大语言模型推理
在线阅读 下载PDF
GroupUCP:按需动态调节的细粒度缓存划分策略
2
作者 张传奇 王卅 +1 位作者 孙凝晖 包云岗 《计算机研究与发展》 北大核心 2025年第4期989-1002,共14页
随着现代计算机技术的进步,内存墙问题越发严重.在此背景下,多级缓存中的末级缓存成为了影响性能的关键资源.近年来各项研究通过拓展尺寸,以及动态资源管理的手段优化末级缓存.路划分技术是缓存资源管理的主要方法,通过将缓存按路为单... 随着现代计算机技术的进步,内存墙问题越发严重.在此背景下,多级缓存中的末级缓存成为了影响性能的关键资源.近年来各项研究通过拓展尺寸,以及动态资源管理的手段优化末级缓存.路划分技术是缓存资源管理的主要方法,通过将缓存按路为单位划分后分配给各个应用使用,实现系统性能优化.然而路划分粒度较粗,要求缓存的所有组(set)都遵循同样的路划分方案.实际上,应用在不同组可能会有不同的空间需求,路划分技术限制了缓存的空间利用,造成资源浪费.GroupUCP是一种按需调节的细粒度缓存资源管理技术,其设计思路是根据每个应用对各缓存组的不同需求,采用动态分组和实时评估的方式,将各个缓存组聚合成组,分组进行按需分配.这一设计允许各个组进行独立的路划分分配,从而提高缓存使用率和整体系统性能.实验证明,相较于传统的UCP方法,GroupUCP利用更少的硬件资源实现了更细粒度资源按需分配,在对缓存资源敏感且需求不均衡的应用组合下获得了更高的系统性能提升. 展开更多
关键词 多核处理器 共享缓存 动态划分 动态分组 元数据压缩
在线阅读 下载PDF
香山开源高性能RISC-V处理器设计与实现 被引量:9
3
作者 王凯帆 徐易难 +28 位作者 余子濠 唐丹 陈国凯 陈熙 勾凌睿 胡轩 金越 李乾若 李昕 蔺嘉炜 刘彤 刘志刚 王华强 王诲喆 张传奇 张发旺 张林隽 张紫飞 张梓悦 赵阳洋 周耀阳 邹江瑞 蔡晔 郇丹丹 李祖松 赵继业 何伟 孙凝晖 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2023年第3期476-493,共18页
近年来以RISC-V为代表的开源指令集引领了开源处理器的设计潮流.然而,目前国内外的开源处理器性能尚未满足学术界和工业界的需求.为填补空白,香山处理器项目启动.香山是一款开源高性能RISC-V处理器,采用6发射超标量乱序执行设计,目前在... 近年来以RISC-V为代表的开源指令集引领了开源处理器的设计潮流.然而,目前国内外的开源处理器性能尚未满足学术界和工业界的需求.为填补空白,香山处理器项目启动.香山是一款开源高性能RISC-V处理器,采用6发射超标量乱序执行设计,目前在著名开源项目托管平台GitHub上获得超过3200个星标(Star),形成超过400个分支(Fork),成为国际上最热门的开源硬件项目之一,得到国内外企业和研究者的积极支持.香山处理器在近两年时间中历经两代版本演进,第一代“雁栖湖”微架构已经成功流片,回片性能符合预期;第二代“南湖”微架构已进入最后的优化迭代阶段,即将投片,据已知消息,其仿真评估性能在当前开源处理器中排名第一.主要讨论香山前两代微架构的实现细节与设计演进,并系统介绍开发香山过程中的各类挑战与经验. 展开更多
关键词 RISC-V 高性能处理器 开源 芯片设计 敏捷开发
在线阅读 下载PDF
基于RISC-V的超标量处理器的ROB压缩方法 被引量:1
4
作者 王洁 付丹阳 《计算机工程与科学》 CSCD 北大核心 2024年第7期1185-1192,共8页
RISC-V指令集具有灵活可扩展的优势,向量扩展是其扩展指令集之一。在实现向量扩展时需要将向量指令拆分成多条微指令,如果每条微指令都占用一项重排序缓存(ROB),会存在一定的信息冗余,并且会减少CPU中并行执行的指令(in-flight指令)数量... RISC-V指令集具有灵活可扩展的优势,向量扩展是其扩展指令集之一。在实现向量扩展时需要将向量指令拆分成多条微指令,如果每条微指令都占用一项重排序缓存(ROB),会存在一定的信息冗余,并且会减少CPU中并行执行的指令(in-flight指令)数量,影响处理器性能。基于指令与微指令在ROB中的存储解耦方法,使用一个新的队列(RAB)存储每条微指令的目的寄存器的重命名映射关系等信息,每项ROB只存储其对应指令拆分的微指令的公共信息,ROB与RAB分别控制指令与微指令的提交与回滚,减少了存储信息冗余,缓解了由向量指令拆分的微指令过多导致的in-flight指令数量减少问题。在上述方法的基础上,同时实现了标量指令的ROB压缩,在ROB项数不变的情况下,增加了in-flight指令的最大数量。最终的仿真结果表明,此方法有效提高了处理器性能。 展开更多
关键词 RISC-V 超标量 处理器 ROB压缩
在线阅读 下载PDF
HyWarm:针对处理器RTL仿真的自适应混合预热方法
5
作者 周耀阳 韩博阳 +7 位作者 蔺嘉炜 王凯帆 张林隽 余子濠 唐丹 王卅 孙凝晖 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1246-1261,共16页
在高性能处理器开发中,准确而快速的性能估算是设计决策和参数选择的基础.现有工作通过采样算法和RTL的体系结构检查点加速了处理器RTL仿真,使得在数天内测算复杂高性能处理器的SPECCPU等基准测试的性能成为可能.但是数天的迭代周期仍... 在高性能处理器开发中,准确而快速的性能估算是设计决策和参数选择的基础.现有工作通过采样算法和RTL的体系结构检查点加速了处理器RTL仿真,使得在数天内测算复杂高性能处理器的SPECCPU等基准测试的性能成为可能.但是数天的迭代周期仍然过长,性能测算周期仍然有进一步缩短的空间.在处理器RTL仿真过程中,预热过程的时间占比很大.HyWarm框架的提出是为了加速性能测算过程中的预热过程.HyWarm通过微结构模拟器分析负载预热需求,为每个负载定制预热方案.对于缓存预热需求较大的负载,HyWarm通过总线协议进行RTL缓存的功能预热;对于RTL全细节仿真,HyWarm利用CPU分簇和LJF调度缩短最大完成时间.HyWarm相较于现有最好的RTL采样仿真方法,在与基准方法准确率相似的前提下,将仿真完成时间缩短了53%. 展开更多
关键词 高性能处理器 芯片设计 敏捷开发 负载采样 功能预热
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部