期刊文献+
共找到98篇文章
< 1 2 5 >
每页显示 20 50 100
面向昇腾处理器的高性能同步原语自动插入方法
1
作者 李帅江 张馨元 +4 位作者 赵家程 田行辉 石曦予 徐晓忻 崔慧敏 《计算机研究与发展》 北大核心 2025年第8期1962-1978,共17页
指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限... 指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限的,限制了ILP的提升.针对这一问题,提出一种面向昇腾处理器的高性能同步原语自动插入方法,通过引入“虚拟同步资源”的抽象将同步原语的插入和物理同步资源的选择进行解耦.首先提出了一种启发式算法在复杂的控制流图上进行虚拟同步原语的插入,随后通过虚拟同步原语合并等技术,将虚拟同步资源映射到有限数量的物理同步资源上,并同时在满足程序正确性与严苛硬件资源限制的前提下,根据指令间的偏序关系删除程序中冗余的同步原语.使用指令级与算子级基准测试程序在昇腾910A平台上的实验表明,该方法自动插入同步原语的程序在保证正确性的基础上,整体性能与专家程序员手动插入同步原语接近或持平. 展开更多
关键词 昇腾处理器 同步原语 异构编程 领域定制架构 自动插入
在线阅读 下载PDF
面向处理器微架构设计空间探索的加速方法综述
2
作者 王铎 刘景磊 +4 位作者 严明玉 滕亦涵 韩登科 叶笑春 范东睿 《计算机研究与发展》 北大核心 2025年第1期22-57,共36页
中央处理器是目前最重要的算力基础设施.为了最大化收益,架构师在设计处理器微架构时需要权衡性能、功耗、面积等多个目标.但处理器运行负载的指令多,单个微架构设计点的评估耗时从10 min到数十小时不等.加之微架构设计空间巨大,全设计... 中央处理器是目前最重要的算力基础设施.为了最大化收益,架构师在设计处理器微架构时需要权衡性能、功耗、面积等多个目标.但处理器运行负载的指令多,单个微架构设计点的评估耗时从10 min到数十小时不等.加之微架构设计空间巨大,全设计空间暴力搜索难以实现.近些年来许多机器学习辅助的设计空间探索加速方法被提出,以减少需要探索的设计空间或加速设计点的评估,但缺少对加速方法的全面调研和系统分类的综述.对处理器微架构设计空间探索的加速方法进行系统总结及分类,包含软件设计空间的负载选择、负载指令的部分模拟、设计点选择、模拟工具、性能模型5类加速方法.对比了各加速方法内文献的异同,覆盖了从软件选择到硬件设计的完整探索流程.最后对该领域的前沿研究方向进行了总结,并放眼于未来的发展趋势. 展开更多
关键词 处理器微架构设计 设计空间探索 性能模型 负载选择 软件模拟
在线阅读 下载PDF
SW39000处理器上顺序任务流多从核辅助并行构图算法
3
作者 傅游 贾淑慧 +3 位作者 陈莉 花嵘 杜云龙 高希然 《计算机研究与发展》 北大核心 2025年第6期1455-1468,共14页
顺序任务流(sequential task flow,STF)将对共享数据的访问表示为任务之间的依赖关系,STF运行时系统通过任务构造、依赖分析和任务依赖图(task dependence graph,TDG)生成、任务调度实现异步并行,这3个环节的开销直接影响并行程序的性能... 顺序任务流(sequential task flow,STF)将对共享数据的访问表示为任务之间的依赖关系,STF运行时系统通过任务构造、依赖分析和任务依赖图(task dependence graph,TDG)生成、任务调度实现异步并行,这3个环节的开销直接影响并行程序的性能.目前以STF为核心的AceMesh运行时系统,在SW39000处理器上仅使用单主核构图、多从核执行的方式.然而,SW39000处理器离散访存性能较弱,细粒度任务构图离散访存增多,构图更容易成为瓶颈.对此,提出了一种利用多从核辅助主核进行构图的算法.首先,分析在依赖分析和TDG生成过程中的并行性,在SW39000处理器上实现了一种基于胖任务依赖图(fatTDG)的多核辅助并行构图算法PFBH(parallelized fatTDG building algorithm with helpers)并进行优化.其次,针对线程间的主存资源竞争问题,提出构图与执行并行中从核资源调节方法及参数选择.最终,在5类典型应用下进行实验测试.与单核串行构图系统相比,在细粒度任务场景下最高加速为1.75倍;与SW39000处理器上的OpenACC模型相比,AceMesh最高可达2倍加速. 展开更多
关键词 顺序任务流 异构众核并行 任务调度 并行构图 多从核协同 SW39000
在线阅读 下载PDF
微处理器安全推测执行研究
4
作者 余发洪 唐志敏 《高技术通讯》 北大核心 2025年第8期824-836,共13页
幽灵、熔断等瞬态执行攻击打破了基于微处理器的软件逻辑隔离,给信息系统安全带来了巨大挑战。针对基于软件的防御策略有很高的性能开销且需要升级所有已经存在的软件,学术界提出了很多基于硬件或者软硬件结合的防御策略,但都存在不能... 幽灵、熔断等瞬态执行攻击打破了基于微处理器的软件逻辑隔离,给信息系统安全带来了巨大挑战。针对基于软件的防御策略有很高的性能开销且需要升级所有已经存在的软件,学术界提出了很多基于硬件或者软硬件结合的防御策略,但都存在不能覆盖所有已知攻击和高性能开销等问题。本文深入研究瞬态执行攻击,分析总结其行为模式,提出并建立了一种安全推测执行模型,在保留推测执行带来的微处理器性能增益的前提下,消除了其安全隐患。基于安全推测执行模型,设计并实现了一种安全缓存(Cache),能够抵御基于Cache侧信道的瞬态执行攻击。评估结果表明,安全Cache能够达到安全设计目标。与目前最先进的瞬态执行攻击防御研究GhostMinion相比,安全Cache将安全设计带来的单核性能开销降低了19.18%,多核性能开销基本可以忽略不计。 展开更多
关键词 微处理器 安全 缓存侧信道 幽灵攻击 熔断攻击 瞬态执行攻击
在线阅读 下载PDF
Neptune:一种通用网络处理器微结构模拟和性能仿真框架
5
作者 林涵越 吴婧雅 +2 位作者 卢文岩 钟浪辉 鄢贵海 《计算机研究与发展》 北大核心 2025年第5期1091-1107,共17页
网络包处理是网络设备的基本功能,涉及报文修改、校验和与哈希计算、数据包镜像或过滤、统计限速等多项任务.作为网络包处理的重要部件,网络处理器(network processor,NP)基于处理器结构,为网络设备提供线速的性能和充分的可编程能力,... 网络包处理是网络设备的基本功能,涉及报文修改、校验和与哈希计算、数据包镜像或过滤、统计限速等多项任务.作为网络包处理的重要部件,网络处理器(network processor,NP)基于处理器结构,为网络设备提供线速的性能和充分的可编程能力,但其架构多样,可分为单段式架构和多段式架构,现有模拟方法无法同时对二者性能进行模拟仿真.因此,提出一种通用网络处理器的结构模拟和性能仿真框架Neptune,采用多段式架构作为硬件抽象,使用事件链表、核间队列结构为数据通路和多段式架构模拟提供保障,同时满足单段式架构模拟需求.另外,借助同步图计算模式进行准确的并行模拟,并采用混合事件与时间驱动方法保障模拟高效性.实际测试中,Neptune以95%以上准确率支持2种架构的模拟,并以3.31MIPS的性能对网络处理器进行模拟,相较PFPSim取得1个数量级的性能提升.最后,展示了3个运用该框架进行网络处理器优化分析的应用案例. 展开更多
关键词 网络包处理 网络处理器 可编程数据面 专用处理器 模拟器
在线阅读 下载PDF
基于通用图形处理器的神经网络并行推理加速
6
作者 王重熙 章隆兵 《高技术通讯》 北大核心 2025年第3期250-261,共12页
通用图形处理器(general purpose graphics processing unit,GPGPU)是目前加速人工智能(artificial intelligence,AI)负载最主要的算力来源,其内存带宽和峰值算力随着AI模型的发展而迅速提高。然而,在神经网络的推理过程中,单样本或小... 通用图形处理器(general purpose graphics processing unit,GPGPU)是目前加速人工智能(artificial intelligence,AI)负载最主要的算力来源,其内存带宽和峰值算力随着AI模型的发展而迅速提高。然而,在神经网络的推理过程中,单样本或小批量的推理难以同时充分利用通用图形处理器中不同的计算、存储和访存资源,造成部分资源闲置。对此,本文提出了基于通用图形处理器的神经网络并行推理加速方法,在通用图形处理器上同时推理多个神经网络,通过同时执行互补的神经网络层充分利用通用图形处理器中的各类资源。首先,使用PyTorch中的统一计算设备架构(compute unified device architecture,CUDA)流以及直接在CUDA流中调用CUDA基础线性代数子程序库(CUDA basic linear algebra subprograms,cuBLAS)和CUDA深度神经网络库(CUDA deep neural network library,cuDNN)2种方式,在它们并行加速效果不及预期的情况下,根据性能分析结果确定了NVIDIA通用图形处理器负载调度机制中对多负载并行的限制因素。随后,基于特定的调度机制,提出了更适合多负载并行核函数的设计方法,并实现了主要的神经网络算子,基于此方法在真实的通用图形处理器平台上实现了神经网络并行推理加速。在RTX3080通用图形处理器上的测试结果表明,该神经网络并行推理加速方法对主流神经网络的并行推理达到了平均1.94倍的加速效果,相较于直接调用cuBLAS和cuDNN库平均1.34倍的加速效果提高了45%,不仅验证了在通用图形处理器上实现神经网络并行推理加速的可行性,同时也为其他各类负载在通用图形处理器上的多负载并行加速提供了道路。 展开更多
关键词 多负载并行加速 神经网络推理 通用图形处理器
在线阅读 下载PDF
新一代神威处理器上高效任务流并行系统 被引量:1
7
作者 傅游 杜雷明 +1 位作者 高希然 陈莉 《计算机科学》 CSCD 北大核心 2024年第12期137-146,共10页
我国自主研制的新一代神威超级计算机相比前一代的神威太湖之光,具有更强大的内存系统和更高的计算密度,其主力编程模型仍然是块同步(Bulk Synchronous Parallelism,BSP)模型。顺序任务流(Sequential Task Flow,STF)模型基于数据流信息... 我国自主研制的新一代神威超级计算机相比前一代的神威太湖之光,具有更强大的内存系统和更高的计算密度,其主力编程模型仍然是块同步(Bulk Synchronous Parallelism,BSP)模型。顺序任务流(Sequential Task Flow,STF)模型基于数据流信息实现对串行程序的自动任务并行,并通过任务间的细粒度同步实现异步并行,相比于BSP模型的全局同步,并行度更高,负载更均衡。STF模型为用户高效使用神威平台提供了一种新选择。但在众核系统上,STF模型的运行时开销会直接影响并行程序性能。首先,分析新一代神威处理器影响STF模型高效实现的两个特征;然后,利用处理器架构的独有特性,提出一种基于代理的数据流构图机制以实现模型的构图需求,以及一种无锁的集中式任务调度机制以优化调度开销。最后,基于以上技术,为AceMesh模型实现了高效的任务流并行系统。实验表明,实现的任务流并行系统相比传统运行时支持优势显著,在细粒度任务场景下最高加速2.37倍;AceMesh性能高于神威平台的OpenACC模型,对典型应用的加速最高达到2.07倍。 展开更多
关键词 顺序任务流模型 异构众核并行 任务调度 数据流并行 块同步模型
在线阅读 下载PDF
面向处理器功能验证的硬件化System Verilog断言设计 被引量:1
8
作者 张子卿 石侃 +2 位作者 徐烁翔 王梁辉 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1436-1449,共14页
功能验证在处理器芯片开发流程中所占用的时间超过70%,因此优化提升功能验证环节的效率非常必要.软件仿真等传统验证方法提供了包括断言等多种验证机制,以提升验证的细粒度可见性和自检查能力,但是软件仿真运行速度较慢,在高效性方面有... 功能验证在处理器芯片开发流程中所占用的时间超过70%,因此优化提升功能验证环节的效率非常必要.软件仿真等传统验证方法提供了包括断言等多种验证机制,以提升验证的细粒度可见性和自检查能力,但是软件仿真运行速度较慢,在高效性方面有明显不足.基于FPGA的硬件原型验证方法能极大地加速验证性能,但其调试能力较弱,虽能快速发现漏洞,但难以定位漏洞出现的具体位置和根本原因,存在有效性不足难题.为同时解决上述功能验证有效性与高效性的问题,提出一种将不可综合的断言语言SVA(SystemVerilog Assertion)自动转换成逻辑等效但可综合的RTL电路的方法,聚焦于断言这一类对设计进行非全局建模、纵向贯穿各抽象层级的验证方式,对基于全局指令集架构(instruction set architecture,ISA)模型的验证能力进行补足.同时,结合FPGA细粒度并行化、高度可扩展的优势,对处理器的验证过程进行硬件加速,提升了处理器的开发效率.实现了一个端到端的硬件断言平台,集成对SVA进行硬件化的完整工具链,并统计运行在FPGA上的硬件化断言的触发和覆盖率情况.实验表明,和软件仿真相比,所提方法能取得超过2万倍的验证效率提升. 展开更多
关键词 断言 处理器验证 硬件仿真 现场可编程逻辑门阵列 原型验证
在线阅读 下载PDF
基于无裁剪图形流水线的三维图形处理器 被引量:1
9
作者 赵皓宇 王重熙 +1 位作者 宋鹏皓 章隆兵 《高技术通讯》 CAS 北大核心 2024年第7期681-691,共11页
传统的三维图形处理器通过裁剪操作获取三角形的可见区域。然而,裁剪操作的延迟长且硬件开销高,大量的裁剪操作会降低图形处理器的性能。本文设计了一款基于OpenGL ES 2.0标准的三维图形处理器芯片,采用了统一渲染架构。该图形处理器采... 传统的三维图形处理器通过裁剪操作获取三角形的可见区域。然而,裁剪操作的延迟长且硬件开销高,大量的裁剪操作会降低图形处理器的性能。本文设计了一款基于OpenGL ES 2.0标准的三维图形处理器芯片,采用了统一渲染架构。该图形处理器采用高效的无裁剪图形流水线结构,消除了裁剪所带来的硬件开销和性能损耗。此外,本文为该图形处理器设计了一个符合IEEE-754标准的三维向量内积(DP3)计算单元,用于固定功能流水线,以提高图形处理器的性能,并消除图形渲染过程中浮点乘加操作的误差,增强了图形处理器的图形渲染鲁棒性。该三维图形处理器每秒能够处理500 M个顶点和8 G个纹素,功耗为1000 mW,采用了28 nm工艺,面积为7.92 mm^(2)。实现结果表明,与之前的工作相比,本文设计的图形处理器的性能-功耗比提高了27.8%。 展开更多
关键词 三维图形处理器 图形流水线 裁剪 向量内积
在线阅读 下载PDF
面向通用处理器芯粒架构探索和评估的系统级模拟器
10
作者 张聪武 刘澳 +2 位作者 张科 常轶松 包云岗 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第12期4575-4588,共14页
随着摩尔定律的逐步失效,芯片制造工艺的提升愈发困难,芯片性能的提升面临“面积墙”问题,chiplet(芯粒)技术开始被广泛采用来解决此问题。然而,面向chiplet引入的架构设计参数,目前的体系结构模拟器面临新的挑战。为了能够探索chiplet... 随着摩尔定律的逐步失效,芯片制造工艺的提升愈发困难,芯片性能的提升面临“面积墙”问题,chiplet(芯粒)技术开始被广泛采用来解决此问题。然而,面向chiplet引入的架构设计参数,目前的体系结构模拟器面临新的挑战。为了能够探索chiplet架构的特定设计参数,现有工作通常只会为模拟器增加单一的功能,导致其难以用于探索多个参数对chiplet芯片的整体影响。为了能够较为全面地探索和评估chiplet芯片架构,该文基于现有gem5模拟器实现了面向通用处理器芯粒架构探索和评估的系统级模拟器(SEEChiplet)模拟器框架。首先,总结了现在chiplet芯片设计关注的3类设计参数,包括:(1)芯片cache系统设计;(2)封装方式模拟;(3) chiplet间的互连网络。其次,针对上述3类参数:(1)设计并实现了私有末级缓存系统,扩大了cache系统设计空间;(2)修改了gem5已有的全局目录,以适配私有末级缓存(LLC)系统;(3)建模了两种常见的chiplet封装方式以及chiplet间互连网络。最后,该文在SEEChiplet框架中进行了系统级的模拟评估,在被测chiplet架构通用处理器上运行操作系统及PARSEC 3.0基准测试程序,验证了SEEChiplet的功能,证明SEEChiplet可以对chiplet设计空间进行探索和评估。 展开更多
关键词 芯粒 设计空间探索 体系结构模拟器 缓存系统
在线阅读 下载PDF
处理器时间侧信道攻防技术综述
11
作者 唐博文 武成岗 王喆 《高技术通讯》 CAS 北大核心 2024年第5期439-452,共14页
现代处理器优化机制众多,设计人员在追求性能提升时,往往忽略背后的安全风险。时间侧信道攻击因其影响面广且隐蔽性好已成为最主要的安全威胁之一。随着瞬态执行攻击的出现,时间侧信道攻击的能力被进一步扩展,计算系统的安全基础被动摇... 现代处理器优化机制众多,设计人员在追求性能提升时,往往忽略背后的安全风险。时间侧信道攻击因其影响面广且隐蔽性好已成为最主要的安全威胁之一。随着瞬态执行攻击的出现,时间侧信道攻击的能力被进一步扩展,计算系统的安全基础被动摇。为此,处理器厂商及安全人员提出了大量防御机制。这些机制具有不同的防护能力及性能开销。与此同时,新的瞬态执行漏洞和隐蔽信道也不断被发现,已提出的防御机制被不断突破。围绕处理器时间侧信道攻防技术的博弈日益激烈。本文从基本攻击原理出发,对现有时间侧信道攻击进行了归纳总结,并在此基础上进一步分析了相关防御机制的保护能力和性能瓶颈,从而梳理出时间侧信道攻防技术的发展趋势,为未来软硬件系统开发和安全技术探索提供参考。 展开更多
关键词 处理器微架构 时间侧信道攻击 隐蔽信道 瞬态执行攻击 投机执行 防御技术
在线阅读 下载PDF
香山开源高性能RISC-V处理器设计与实现 被引量:10
12
作者 王凯帆 徐易难 +28 位作者 余子濠 唐丹 陈国凯 陈熙 勾凌睿 胡轩 金越 李乾若 李昕 蔺嘉炜 刘彤 刘志刚 王华强 王诲喆 张传奇 张发旺 张林隽 张紫飞 张梓悦 赵阳洋 周耀阳 邹江瑞 蔡晔 郇丹丹 李祖松 赵继业 何伟 孙凝晖 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2023年第3期476-493,共18页
近年来以RISC-V为代表的开源指令集引领了开源处理器的设计潮流.然而,目前国内外的开源处理器性能尚未满足学术界和工业界的需求.为填补空白,香山处理器项目启动.香山是一款开源高性能RISC-V处理器,采用6发射超标量乱序执行设计,目前在... 近年来以RISC-V为代表的开源指令集引领了开源处理器的设计潮流.然而,目前国内外的开源处理器性能尚未满足学术界和工业界的需求.为填补空白,香山处理器项目启动.香山是一款开源高性能RISC-V处理器,采用6发射超标量乱序执行设计,目前在著名开源项目托管平台GitHub上获得超过3200个星标(Star),形成超过400个分支(Fork),成为国际上最热门的开源硬件项目之一,得到国内外企业和研究者的积极支持.香山处理器在近两年时间中历经两代版本演进,第一代“雁栖湖”微架构已经成功流片,回片性能符合预期;第二代“南湖”微架构已进入最后的优化迭代阶段,即将投片,据已知消息,其仿真评估性能在当前开源处理器中排名第一.主要讨论香山前两代微架构的实现细节与设计演进,并系统介绍开发香山过程中的各类挑战与经验. 展开更多
关键词 RISC-V 高性能处理器 开源 芯片设计 敏捷开发
在线阅读 下载PDF
基于SoC-FPGA的RISC-V处理器软硬件系统级平台 被引量:6
13
作者 齐乐 常轶松 +4 位作者 陈欲晓 张旭 陈明宇 包云岗 张科 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1204-1215,共12页
构建软硬件系统级原型平台是处理器设计硅前测试中必不可少的环节.为适应基于开放指令集RISC-V的开源处理器设计需求,简化现有基于FPGA的处理器系统级原型平台构建方法,提出了一套基于SoC-FPGA的处理器敏捷软硬件原型平台,以实现目标软... 构建软硬件系统级原型平台是处理器设计硅前测试中必不可少的环节.为适应基于开放指令集RISC-V的开源处理器设计需求,简化现有基于FPGA的处理器系统级原型平台构建方法,提出了一套基于SoC-FPGA的处理器敏捷软硬件原型平台,以实现目标软硬件设计的快速部署与系统级原型高效评测.针对上述目标,发掘紧耦合SoC-FPGA器件的潜力,构建了一套RISC-V软核与ARM硬核(SoC侧)之间的信息交互机制.通过共享内存和虚拟核间中断等方法,可使目标RISC-V处理器灵活使用平台丰富的I/O外设资源,并充分利用硬核ARM处理器算力协同运行复杂软件系统.此外,为提升软硬件系统级平台的敏捷性,构建了灵活可配置的云上自动化开发框架.通过对平台上目标RISC-V软核处理器各方面的分析评估,验证了该平台可有效缩短系统级测试的迭代周期,提升RISC-V处理器软硬件原型评测效率. 展开更多
关键词 硅前系统级平台 软硬件全系统评估 RISC-V指令集处理器 SoC-FPGA
在线阅读 下载PDF
基于ARMv8处理器的实数FFT实现与性能优化研究 被引量:2
14
作者 赵翔 贾海鹏 +3 位作者 张云泉 邓明森 张广婷 郭金鑫 《计算机学报》 EI CAS CSCD 北大核心 2023年第5期1003-1018,共16页
FFT(快速傅里叶变换)是离散傅里叶变换或其逆变换的一种常见快速算法,是高性能计算领域最重要的基础核心算法之一,在科学、工程和数学等领域的应用十分广泛.实数FFT算法,即输入或者输出为实数的FFT算法,其中包括R2C(Real-to-Complex)、C... FFT(快速傅里叶变换)是离散傅里叶变换或其逆变换的一种常见快速算法,是高性能计算领域最重要的基础核心算法之一,在科学、工程和数学等领域的应用十分广泛.实数FFT算法,即输入或者输出为实数的FFT算法,其中包括R2C(Real-to-Complex)、C2R(Complex-to-Real)等变换类型.相比复数FFT算法,实数FFT算法在图形图像处理、数据压缩等领域有着不可替代的作用.传统实数FFT实现针对的是输入规模为偶数,一般转变为复数FFT进行运算.然而当前鲜有针对输入规模为奇数的实数FFT高效实现.对此,本文提出了一种实数FFT高效算法(DRFFT),并采用蝶形网络优化、蝶形计算优化、访存优化、SIMD优化以及数据转置等方法进行优化,大幅提升了实数FFT算法性能,最终构建了一种针对实数FFT的高性能算法库.实验结果表明,本文实现的DRFFT R2C变换在单双精度浮点数处理方面较FFTW库性能分别平均提升了37.6%和4.6%,较ARMPL库性能分别平均提升了67.6%和28.1%.DRFFT C2R变换在单双精度浮点数处理方面则较FFTW库性能分别平均提升了58.6%和10.8%,较ARMPL库性能分别平均提升了121.8%和85.2%. 展开更多
关键词 ARMv8 FFT算法 R2C C2R FFTW
在线阅读 下载PDF
芯粒集成芯片架构-封装协同设计
15
作者 卢美璇 许浩博 +2 位作者 王颖 王梦迪 韩银和 《电子与信息学报》 北大核心 2025年第9期2994-3009,共16页
芯粒集成技术凭借封装集成的可扩展性,成为后摩尔时代算力拓展的有效途径。然而,芯粒集成芯片架构与封装的紧密耦合导致复杂的多目标权衡问题,同时体积集成密度的提高加剧了可靠性挑战,仅依靠封装层面设计难以解决,传统架构与封装分离... 芯粒集成技术凭借封装集成的可扩展性,成为后摩尔时代算力拓展的有效途径。然而,芯粒集成芯片架构与封装的紧密耦合导致复杂的多目标权衡问题,同时体积集成密度的提高加剧了可靠性挑战,仅依靠封装层面设计难以解决,传统架构与封装分离的设计范式失效,架构-封装协同设计成为保障芯粒集成芯片性能与可靠性的必要手段。该工作总结芯粒集成驱动的新兴架构特征,梳理芯粒集成芯片架构与封装的紧密耦合关系,阐明协同设计的必要性;理清架构层与封装层核心设计要素对系统关键指标的影响机制,在此基础上定义架构层和封装层协同界面;最后结合已有工作提出架构-封装协同设计的关键组成和协同方法。 展开更多
关键词 芯粒 协同设计 架构 封装
在线阅读 下载PDF
HyWarm:针对处理器RTL仿真的自适应混合预热方法
16
作者 周耀阳 韩博阳 +7 位作者 蔺嘉炜 王凯帆 张林隽 余子濠 唐丹 王卅 孙凝晖 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1246-1261,共16页
在高性能处理器开发中,准确而快速的性能估算是设计决策和参数选择的基础.现有工作通过采样算法和RTL的体系结构检查点加速了处理器RTL仿真,使得在数天内测算复杂高性能处理器的SPECCPU等基准测试的性能成为可能.但是数天的迭代周期仍... 在高性能处理器开发中,准确而快速的性能估算是设计决策和参数选择的基础.现有工作通过采样算法和RTL的体系结构检查点加速了处理器RTL仿真,使得在数天内测算复杂高性能处理器的SPECCPU等基准测试的性能成为可能.但是数天的迭代周期仍然过长,性能测算周期仍然有进一步缩短的空间.在处理器RTL仿真过程中,预热过程的时间占比很大.HyWarm框架的提出是为了加速性能测算过程中的预热过程.HyWarm通过微结构模拟器分析负载预热需求,为每个负载定制预热方案.对于缓存预热需求较大的负载,HyWarm通过总线协议进行RTL缓存的功能预热;对于RTL全细节仿真,HyWarm利用CPU分簇和LJF调度缩短最大完成时间.HyWarm相较于现有最好的RTL采样仿真方法,在与基准方法准确率相似的前提下,将仿真完成时间缩短了53%. 展开更多
关键词 高性能处理器 芯片设计 敏捷开发 负载采样 功能预热
在线阅读 下载PDF
一种软硬件协同的访存踪迹实时分析处理工具
17
作者 李作骏 卢天越 +1 位作者 朱晨光 陈明宇 《高技术通讯》 北大核心 2025年第8期813-823,共11页
本文提出一种软硬件协同的访存踪迹实时分析处理工具,通过硬件采集并实时回传访存踪迹、实时分析处理访存踪迹、提取语义信息即时指导访存系统调控,解决了当前基于访存踪迹信息进行访存调控的软硬件系统研究中缺乏有效的实时分析处理手... 本文提出一种软硬件协同的访存踪迹实时分析处理工具,通过硬件采集并实时回传访存踪迹、实时分析处理访存踪迹、提取语义信息即时指导访存系统调控,解决了当前基于访存踪迹信息进行访存调控的软硬件系统研究中缺乏有效的实时分析处理手段的问题。该工具通过定制现场可编程门阵列(field programmable gate array,FPGA)采集卡,在双路Intel E52680 v4服务器平台中实现同机访存踪迹回传和实时分析处理。基准测试表明该工具的最低传输延迟为1.5μs,能够实时处理DDR4-1600速率下的高带宽访存,在安全监测场景实验中的平均异常检测响应时间为28.0μs,基于该工具的实时远端内存预取方案性能在25.0%和50.0%本地内存负载下分别比Fastswap高24.9%和32.0%。 展开更多
关键词 内存访问 踪迹 实时分析 软硬件协同 安全监测
在线阅读 下载PDF
紧耦合异构线程处理器
18
作者 李文青 齐寒 +2 位作者 肖子原 朱威浦 王剑 《高技术通讯》 CAS 2023年第2期113-123,共11页
异构计算为系统达到更高的性能功耗比提供了新的思路和方向,但异构系统中中央处理器(CPU)和加速器协同执行任务的过程中大量的控制信号传输和数据搬运始终是系统性能的一个重要瓶颈。对此,本文提出了一种紧耦合异构线程处理器结构,包括... 异构计算为系统达到更高的性能功耗比提供了新的思路和方向,但异构系统中中央处理器(CPU)和加速器协同执行任务的过程中大量的控制信号传输和数据搬运始终是系统性能的一个重要瓶颈。对此,本文提出了一种紧耦合异构线程处理器结构,包括一个硬件CPU线程和一个硬件加速器线程,二者采用流水线紧耦合的硬件线程间通信接口和共享存储的方式降低了通信代价,大幅提高了系统性能。为验证该结构的优势,本文在开源BOOM核的基础上设计了硬件线程间通信接口,实现了一个具有高级加密标淮(AES)加速器的紧耦合异构线程处理器,并在现场可编程门阵列(FPGA)上进行了评估。结果显示,在加密任务中,该处理器吞吐量约是Intel Comet Lake使用AES指令集(AES-NI)的5.7倍,是BOOM平台上仅使用通用指令的4000倍。实验进一步验证了通过CPU和加速器快速通信实现的细粒度并行可以取得更多的性能收益。由此得出结论:该结构能敏捷地将加速器整合到CPU周围,有效降低了通信时间,实现CPU线程和加速器线程的细粒度并行,有效地发挥出异构计算的优势,取得可观的性能收益。 展开更多
关键词 异构计算 异构接口 紧耦合 通信 细粒度并行
在线阅读 下载PDF
基于位串行计算的动态精度神经网络处理器
19
作者 郝一帆 支天 杜子东 《高技术通讯》 CAS 2022年第9期881-893,共13页
针对当前神经网络动态精度计算系统在周期性的模型重训练和动态精度切换的过程中会引入大量的计算和访存开销问题,提出了基于串行位计算的动态精度神经网络处理器(DPNN),其可支持任意规模、任意精度的神经网络模型;支持以非重训练的方... 针对当前神经网络动态精度计算系统在周期性的模型重训练和动态精度切换的过程中会引入大量的计算和访存开销问题,提出了基于串行位计算的动态精度神经网络处理器(DPNN),其可支持任意规模、任意精度的神经网络模型;支持以非重训练的方式对模型数据精度进行细粒度调整,并消除了动态精度切换时因权值bit位重叠造成的重复计算与访存。实验结果表明,相较于自感知神经网络系统(SaNNs)的最新进展之一MinMaxNN,DPNN可使计算量平均降低1.34~2.52倍,访存量降低1.16~1.93倍;相较于代表性的bit串行计算神经网络处理器Stripes,DPNN使性能提升2.57倍、功耗节省2.87倍、面积减少1.95倍。 展开更多
关键词 神经网络处理器 动态精度计算 位串行计算
在线阅读 下载PDF
面向多核CPU与GPU平台的图处理系统关键技术综述 被引量:3
20
作者 张园 曹华伟 +5 位作者 张婕 申玥 孙一鸣 敦明 安学军 叶笑春 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1401-1428,共28页
图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处... 图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发. 展开更多
关键词 多核CPU与GPU平台 图处理系统 图数据表示 负载均衡 不规则访存 动态图处理
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部