期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
片间互连总线协议层关键技术研究
1
作者 邢世远 张见齐 +2 位作者 王焕东 吴学智 吴瑞阳 《高技术通讯》 北大核心 2025年第2期113-123,共11页
随着以数据分析、网络搜索和虚拟现实为核心的新数据中心和高性能计算应用程序的开发,高性能计算平台上需要传输的数据量不断增加,数据密集型应用对片间数据传输带宽需求的增长从未停止,片间互连总线被视为系统瓶颈的潜在来源。相比于... 随着以数据分析、网络搜索和虚拟现实为核心的新数据中心和高性能计算应用程序的开发,高性能计算平台上需要传输的数据量不断增加,数据密集型应用对片间数据传输带宽需求的增长从未停止,片间互连总线被视为系统瓶颈的潜在来源。相比于在物理层提高总线传输速率和增加信号数量提升带宽的传统做法,在总线协议层通过结构设计优化提高带宽利用率也是提升总带宽的重要解决思路。相比前者,后者不会引入额外成本开销,并且具有能耗友好的优势。本文在协议层提出了3个关键技术,分别是数据命令分离的片内语义到跨片语义转换方案、基于年龄(Age)策略的仲裁算法和片间数据压缩技术。数据命令分离的语义策略具有很强的跨架构通用性,是仲裁和压缩的前提。片间总线协议层仲裁和压缩技术通过结构的方法大幅提高了总线带宽利用率。在Synopsys Zebu仿真加速平台上的实验结果表明,本文方法的总线架构在关闭和开启数据压缩情形下带宽利用率分别为45.8%和69.7%,达到国际先进水平。 展开更多
关键词 片间互连 总线协议层 语义转换 仲裁 数据压缩 仿真加速器
在线阅读 下载PDF
龙芯指令系统架构技术 被引量:17
2
作者 胡伟武 汪文祥 +5 位作者 吴瑞阳 王焕东 曾露 徐成华 高翔 张福新 《计算机研究与发展》 EI CSCD 北大核心 2023年第1期2-16,共15页
介绍了统筹考虑先进性和兼容性要求的龙芯指令系统架构——龙架构(LoongArch).LoongArch吸纳了近年来指令系统设计领域诸多先进的技术发展成果,易于高性能低功耗的实现和编译优化;融合了各种国际主流指令系统的主要功能特性,不仅能够确... 介绍了统筹考虑先进性和兼容性要求的龙芯指令系统架构——龙架构(LoongArch).LoongArch吸纳了近年来指令系统设计领域诸多先进的技术发展成果,易于高性能低功耗的实现和编译优化;融合了各种国际主流指令系统的主要功能特性,不仅能够确保现有龙芯电脑上应用二进制的无损迁移,而且能够实现多种国际主流指令系统的高效二进制翻译.LoongArch已经被实现于龙芯中科技术股份有限公司研制的3A5000四核CPU.SPEC CPU2006的实验结果表明,在相同微结构下,LoongArch性能比龙芯CPU原指令系统MIPS平均提升超过7%.在硬件辅助支持下,SPEC CPU2000程序从MIPS翻译到LoongArch可以实现无损翻译,其定点程序子集和浮点程序子集从x86翻译到LoongArch的效率分布达QEMU二进制翻译器的3.6倍和47.0倍.LoongArch有望消除指令系统之间的壁垒,使得不同指令集的软件能够融合到统一的LoongArch平台上,不加区别地高效运行. 展开更多
关键词 龙芯CPU MIPS架构 龙架构 二进制翻译 兼容 软件生态系统
在线阅读 下载PDF
面向LoongArch边界检查访存指令的GCC优化
3
作者 舒燕君 郑翔宇 +5 位作者 徐成华 黄沛 王永琪 周凡 张展 左德承 《计算机研究与发展》 北大核心 2025年第5期1136-1150,共15页
为了减少内存安全检查的开销,LoongArch指令集架构引入了边界检查访存类指令.然而,作为一种新的内存访问指令,目前GCC(GNU compiler collection)编译器不支持该类指令,LoongArch硬件能力不能得到充分利用.针对此LoongArch边界检查访存... 为了减少内存安全检查的开销,LoongArch指令集架构引入了边界检查访存类指令.然而,作为一种新的内存访问指令,目前GCC(GNU compiler collection)编译器不支持该类指令,LoongArch硬件能力不能得到充分利用.针对此LoongArch边界检查访存指令改进了GCC编译器,实现利用该类指令优化程序的内存安全检查.具体而言,完成了3个方面的工作:1)设计实现了针对边界检查访存指令的内建函数;2)改进GCC RTL(register transfer language)阶段的优化器,使其能够识别无异常处理和带异常处理2种情况的边界检查访存语义,并自动优化;3)面向LoongArch边界检查访存指令触发的边界检查异常(bound check exception,BCE),设计了新的Linux内核异常信号SIGBCE和相应的运行时库glibc(GNU C library)的信号处理函数,实现了BCE处理.通过在GCC 12.2.0和龙芯3C5000L服务器进行实验,验证了改进后的编译器不仅能正确使用新引入的边界检查访存指令,而且在某些安全函数中带来接近20%的性能提升.完善了LoongArch生态,推进了LoongArch指令集发展,对此类特定指令编译器优化工作有一定的借鉴意义. 展开更多
关键词 编译器优化 LoongArch GCC 边界检查访存 龙芯CPU 异常处理 内存安全
在线阅读 下载PDF
基于国产处理器的智能大数据一体机架构及应用研究 被引量:2
4
作者 陈国良 汤晓宇 +8 位作者 尤帅 姚小良 梅超君 林时俊 刘尚东 吴少刚 孙雅薇 王汝传 季一木 《南京邮电大学学报(自然科学版)》 北大核心 2024年第4期1-16,共16页
分析比较国内外智能芯片产品现状,概述智能芯片的相关软硬件技术栈,针对国内大数据与人工智能产业支撑体系尚不完善、尚未建立国产化信息处理安全保障体系的问题,提出基于国产芯片自主研发的智能大数据一体机研究与设计。解决基础设施... 分析比较国内外智能芯片产品现状,概述智能芯片的相关软硬件技术栈,针对国内大数据与人工智能产业支撑体系尚不完善、尚未建立国产化信息处理安全保障体系的问题,提出基于国产芯片自主研发的智能大数据一体机研究与设计。解决基础设施的运维部署、海量数据存储以及时效性处理等问题,通过对比异构计算系统的分析研究,文中提出的基于国产CPU和NPU异构硬件加速的一体化计算平台具有信息安全、领域普适性强、运行效率高等特点。 展开更多
关键词 国产芯片 大数据一体机 大数据处理 智能计算 信息安全
在线阅读 下载PDF
面向设备直通的高效低延时的中断直通方法
5
作者 吕晨 张福新 +3 位作者 朱琛 毛碧波 邓平科 潘筱涵 《高技术通讯》 CAS 北大核心 2024年第8期842-853,共12页
针对对称多处理器(SMP)虚拟机(VM)的虚拟中央处理器(vCPU)调度延迟会降低虚拟机输入/输出(I/O)响应性的问题,本文基于设备直通提出了一种高效低延迟的中断直通方法。该方法基于硬件辅助技术,搭建了中断直通架构,并设计了中断重定向机制... 针对对称多处理器(SMP)虚拟机(VM)的虚拟中央处理器(vCPU)调度延迟会降低虚拟机输入/输出(I/O)响应性的问题,本文基于设备直通提出了一种高效低延迟的中断直通方法。该方法基于硬件辅助技术,搭建了中断直通架构,并设计了中断重定向机制,将直通设备中断从被抢占的vCPU重定向至正在运行的vCPU。实验结果表明,网络往返时延平均减少了34.1%,吞吐量最高提升7.9%,Apache测试每个服务器请求所需时间平均减少了13.6%,磁盘I/O操作时延平均减少了6.7%~8.4%。实验结果证明,该方法能有效减少虚拟机虚拟CPU调度对I/O延迟的影响,提高虚拟机I/O响应性。 展开更多
关键词 中断重映射 输入/输出(I/O)虚拟化 设备直通 基于内核的虚拟机(KVM) I/O响应性
在线阅读 下载PDF
基于行内局部性的内存控制器端预取
6
作者 周叔欣 张见齐 +1 位作者 王焕东 章隆兵 《高技术通讯》 CAS 北大核心 2024年第3期248-255,共8页
本文提出一种基于行内局部性的内存控制器端预取。采用位图的数据结构记录行内每个数据块的状态;并且对每一行进行区域划分,量化每个区域的访问局部性;根据区域内的局部性高低决定预取的激进程度。对于局部性较低的区域,预取区域内未被... 本文提出一种基于行内局部性的内存控制器端预取。采用位图的数据结构记录行内每个数据块的状态;并且对每一行进行区域划分,量化每个区域的访问局部性;根据区域内的局部性高低决定预取的激进程度。对于局部性较低的区域,预取区域内未被访问过的数据块;对于局部性较高的区域,同时采用跨区域的预取。通过动态调整区域规模的大小来适应局部性程度的变化。上述预取方法在龙芯3A6000处理器上实现并评测,评测程序采用SPEC CPU2006访存密集型应用。评测结果显示本文的预取方法将每周期指令数(IPC)平均提升6.51%,将单线程IPC最高提升46.80%(bwaves),将双核四线程IPC最高提升26.22%(lbm)。 展开更多
关键词 内存控制器 预取 局部性
在线阅读 下载PDF
基于OpenMP的硅晶体分子动力学模拟的空间分解着色及向量化研究
7
作者 傅游 韩昊 +3 位作者 孙月娇 梁建国 叶雨曦 花嵘 《计算机工程与科学》 CSCD 北大核心 2024年第9期1566-1575,共10页
作为材料领域虚拟过程工程研究的热点之一,硅晶体分子动力学采用Tersoff多体势进行模拟;多体势中粒子间相互作用计算量大,且数据之间存在依赖关系,在并行架构上高效、准确地进行大规模模拟面临写冲突和计算效率低2个挑战。为了解决以上... 作为材料领域虚拟过程工程研究的热点之一,硅晶体分子动力学采用Tersoff多体势进行模拟;多体势中粒子间相互作用计算量大,且数据之间存在依赖关系,在并行架构上高效、准确地进行大规模模拟面临写冲突和计算效率低2个挑战。为了解决以上问题,在OpenMP共享内存编程模型的基础上,结合硅晶体粒子特性实施了一系列面向硅晶体分子动力学应用的优化方法,以提高模拟效率:(1)在大规模线程级并行模拟过程中,利用空间分解图着色思想消除粒子之间的数据依赖,从而有效解决写冲突问题;(2)针对核心计算程序段,采用整体向量化的方式提高核心计算效率,并利用级数估计实现超越函数,以实现Tersoff多体势在多核处理器上的并行优化。实验结果表明,在X86平台上Tersoff多体势具有很好的优化潜力,空间分解图着色和向量化方法在硅晶体应用上具有可行性和可扩展性,能够有效地解决由数据交叉导致的写冲突以及计算密集型优化问题,最终加速比可达23.17。 展开更多
关键词 硅晶体 分子动力学模拟 空间分解着色 向量化 OPENMP
在线阅读 下载PDF
通用CPU性能基准测试研究综述 被引量:6
8
作者 史惠康 王泽胜 +2 位作者 张士宗 高翔 赵有健 《电子学报》 EI CAS CSCD 北大核心 2023年第1期246-256,共11页
CPU性能基准测试旨在给出可对比、定量的指标数据,为产品选型提供依据,它已成为引领计算产业发展的风向标之一. CPU技术发展迅速,性能基准测试也在不断演进.本文对包含SPEC CPU在内的主流基准测试进行了研究,从测试目标、测试方法等角度... CPU性能基准测试旨在给出可对比、定量的指标数据,为产品选型提供依据,它已成为引领计算产业发展的风向标之一. CPU技术发展迅速,性能基准测试也在不断演进.本文对包含SPEC CPU在内的主流基准测试进行了研究,从测试目标、测试方法等角度,综述主流CPU基准测试的演进过程、最新研究成果,以及通用CPU性能指标和基准测试需求,分析了通用CPU性能基准测试所面临的挑战,并对今后可能的研究趋势进行了展望. 展开更多
关键词 通用CPU 测试基准 性能测试 评价指标 基准测试程序集
在线阅读 下载PDF
基于解耦De-skew PLL的处理器低功耗同步间歇时钟系统设计 被引量:3
9
作者 杨丽琼 吴瑞阳 +1 位作者 杨梁 王焕东 《计算机学报》 EI CAS CSCD 北大核心 2022年第10期2207-2220,共14页
随着高性能处理器集成度、面积以及工作频率的不断增加,时钟动态功耗呈指数级增加,时钟分布不均导致跨时钟域的同步开销显著增大,这些问题逐渐成为制约处理器能效提升的瓶颈.通常处理器核的功耗占多核处理器整体功耗超过70%,而时钟功耗... 随着高性能处理器集成度、面积以及工作频率的不断增加,时钟动态功耗呈指数级增加,时钟分布不均导致跨时钟域的同步开销显著增大,这些问题逐渐成为制约处理器能效提升的瓶颈.通常处理器核的功耗占多核处理器整体功耗超过70%,而时钟功耗是处理器核功耗的主要组成部分.数字方式的系统动态调频DFS(Dynamic Frequency Scaling)降频的方法需要触发时钟中断例外重新配置时钟生成模块锁相环的相关寄存器,由此带来系统超过毫秒级等待时间开销;而模拟方式连续自适应调节AFS(Adaptive Frequency Scaling)频率变化过程中存在频率过冲响应会增加物理时序设计压力.与此同时功耗的调节降低要以高性能为前提.片上时钟分布长延时随PVT(Process Voltage Temperature)变化产生的不确定时钟相位偏差,为此物理设计增加时序冗余补偿会直接影响到处理器性能.本文提出了新的基于解耦去偏斜锁相环De-skew PLL(De-skew Phase Locked Loop)的同步间歇时钟系统,采用12 nm CMOS工艺实现了去偏斜锁相环的设计,并对整个系统进行了时序性能和时钟功耗的评估.该系统一方面可以利用去偏斜锁相环的远端时钟反馈技术实现不同时钟域之间的实时相位对齐,同时也可以抵抗反馈环内时钟分布延时随PVT的变化;另一方面可以利用新增加的解耦模块,无频率过冲地响应处理器核内产生的时钟间歇控制(时钟脉冲间断性停拍)信号降频,从而实现亚纳秒级时钟动态功耗控制.以12 nm工艺同步级联结构为例,每层时钟分布校准后同步偏差小于10 ps.使用16核LS3C5000处理器RTL在仿真加速平台上运行SPEC CPU 2000测试集来评估本方案对处理器核时钟功耗的影响,并进一步通过PTPX后仿真验证,结果表明,定点及浮点程序平均功耗节约分别大于4.5%和20.3%. 展开更多
关键词 多核处理器 同步间歇时钟系统 解耦去偏斜锁相环 低功耗设计
在线阅读 下载PDF
DTRC:针对变频时钟功耗优化片上谐振网络 被引量:2
10
作者 贾柯 陈烨波 +2 位作者 王成 杨梁 王剑 《高技术通讯》 CAS 2023年第5期447-458,共12页
针对片上谐振时钟网络在变频环境下功耗优化能力减弱问题,提出了一种基于可调数字延时控制单元的谐振时钟网络结构———关断调节式谐振时钟电路(DTRC),该结构可有效改善谐振电路在变频环境下的整体功耗优化情况。产生这一问题的根本原... 针对片上谐振时钟网络在变频环境下功耗优化能力减弱问题,提出了一种基于可调数字延时控制单元的谐振时钟网络结构———关断调节式谐振时钟电路(DTRC),该结构可有效改善谐振电路在变频环境下的整体功耗优化情况。产生这一问题的根本原因是在系统电感和电容值确定后,电路本征谐振频率固定,对于传统结构,当时钟工作频率偏移谐振频率,谐振电路功耗优化能力减弱,甚至恶化。本文在12 nm Fin-FET工艺下实现完整时钟分布网络(CDN),后仿结果表明,通过调整谐振电路驱动单元关断时间,在时钟1~5 GHz频率范围内,相比传统无谐振电路实现18%~46%功耗优化,相比已有谐振时钟电路实现13%~54%功耗优化。 展开更多
关键词 谐振时钟 低功耗电路 动态频率调整(DFS) MESH 时钟分布网络(CDN)
在线阅读 下载PDF
MRC:谐振时钟数字集成全局功耗优化方法
11
作者 贾柯 杨梁 王剑 《高技术通讯》 CAS 2023年第11期1146-1159,共14页
本研究针对谐振时钟网络在集成电路设计中的数字化实现,提出了一种全局时钟功耗优化(MRC)方法,简化了谐振时钟网络在数字化设计中的集成过程。当前,依赖传统仿真工具构建谐振网络的仿真周期较长,且现有谐振电路模型无法满足快速设计与... 本研究针对谐振时钟网络在集成电路设计中的数字化实现,提出了一种全局时钟功耗优化(MRC)方法,简化了谐振时钟网络在数字化设计中的集成过程。当前,依赖传统仿真工具构建谐振网络的仿真周期较长,且现有谐振电路模型无法满足快速设计与数字化建库要求。本文根据谐振电路三段式电路状态提出一种折线化模型降阶方法,可快速实现对当前各类谐振电路波形的准确刻画;本文同时基于此模型给出全局功耗优化目标函数,为电路选型提供指导。与12 nm Fin-FET工艺下实际电路的Spice后仿结果进行比较,本文模型精确度在90%以上,可以准确模拟实际功耗变化趋势,基于Matlab实现的优化方案相比Spice仿真提速10^(5)倍。 展开更多
关键词 谐振时钟 低功耗设计 功耗模型 设计方法学 大规模集成电路时钟设计
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部