期刊文献+
共找到63篇文章
< 1 2 4 >
每页显示 20 50 100
Godson-T众核体系结构上的Broadcast性能优化 被引量:3
1
作者 包尔固德 李伟生 +2 位作者 范东睿 杨扬 马啸宇 《计算机研究与发展》 EI CSCD 北大核心 2010年第3期524-531,共8页
Godson-T是中国科学院计算技术研究所计算机系统结构重点实验室先进微系统组正在研制开发的适合于超深亚微米工艺实现的大规模片上众核系统.Godson-T片上存储的单端口结构节省了芯片面积但制约了共享数据的读取效率.直接在Godson-T上实... Godson-T是中国科学院计算技术研究所计算机系统结构重点实验室先进微系统组正在研制开发的适合于超深亚微米工艺实现的大规模片上众核系统.Godson-T片上存储的单端口结构节省了芯片面积但制约了共享数据的读取效率.直接在Godson-T上实现传统的Broadcast算法需要大量的同步互斥开销,无法达到很好的性能提升.基于Godson-T体系结构,对数据共享的重要并行算法Broadcast进行优化,提高了Godson-T体系结构下的数据共读的效率.主要采取了以下3项技术:消除大规模的线程同步,建立源地址到目的地址的映射表和用汇编语言实现Broadcast的核心部分.优化后Broadcast在小核数为32时即可达到5.8倍加速比. 展开更多
关键词 godson-T 众核 BROADCAST 同步 互斥 共读 映射表 加速比
在线阅读 下载PDF
基于SimpleScalar的龙芯CPU模拟器Sim-Godson 被引量:25
2
作者 张福新 章隆兵 胡伟武 《计算机学报》 EI CSCD 北大核心 2007年第1期68-73,共6页
现代高性能通用处理器的设计越来越复杂,模拟器在处理器设计中所起的作用越来越大.龙芯2号是中国科学院计算技术研究所研制的高性能通用处理器.最早开发的龙芯2号的模拟器ICT-Godson是信号级模拟器,它模拟了处理器的所有细节,十分准确,... 现代高性能通用处理器的设计越来越复杂,模拟器在处理器设计中所起的作用越来越大.龙芯2号是中国科学院计算技术研究所研制的高性能通用处理器.最早开发的龙芯2号的模拟器ICT-Godson是信号级模拟器,它模拟了处理器的所有细节,十分准确,但速度和灵活性有较大限制.文章基于SimpleScalar工具集,设计并实现了龙芯2号的模拟器Sim-Godson.Sim-Godson具有高速度和高灵活性的优点,且准确性也很高.在3.0GHz的Pentium4微机上,Sim-Godson速度约为500K指令/s.大部份测试程序在Sim-Godson上的IPC(Instruction PerCycle)与ICT-Godson相差不到5%,达到了很高的准确性.Sim-Godson在龙芯2号的性能分析工作中发挥了重要作用. 展开更多
关键词 模拟器 龙芯2号处理器 SIMPLESCALAR 通用处理器 高性能处理器
在线阅读 下载PDF
基于改进窄谱带方法的类核巡航导弹尾焰红外光谱辐射特性研究
3
作者 杨杰 白璐 +1 位作者 李金录 刘睿曦 《光谱学与光谱分析》 北大核心 2025年第12期3324-3331,共8页
提出了一种基于修正函数的改进窄谱带计算模型,用于两类核巡航导弹尾焰红外辐射的计算。该模型将Curtis-Godson(CG)近似中窄谱带参数替换为路径等效的窄谱带参数,以解决处理非均匀燃烧系统时精度下降问题。与文献[1]中实验数据对比,基... 提出了一种基于修正函数的改进窄谱带计算模型,用于两类核巡航导弹尾焰红外辐射的计算。该模型将Curtis-Godson(CG)近似中窄谱带参数替换为路径等效的窄谱带参数,以解决处理非均匀燃烧系统时精度下降问题。与文献[1]中实验数据对比,基于修正函数的改进窄谱带模型比传统CG近似下窄谱带模型更符合实验数据,在2.7、4.3和3~5μm波段精度分别提升了13.29%、18.01%和8.4%。在此基础上,计算类AGM-86B型导弹和类AGM-158B型导弹沿弹道点变化的流场参数,采用“line of sight(LOS)”求解辐射传输方程,建立类核巡航导弹尾焰红外辐射计算模型,对两类导弹1~20 km飞行高度下尾焰的红外辐射特性进行计算与分析。研究结果表明,类AGM-86B型导弹在2.7和4.3μm波段的辐射强度随高度变化趋势基本一致,在飞行弹道后半段5 km时辐射信号达到峰值。类AGM-158B型导弹在20~1 km飞行弹道内,4.3μm波段的辐射强度均大于2.7μm波段。研究结果可为两类导弹发射初期型号识别与拦截提供理论支撑。 展开更多
关键词 改进的窄谱带模型 尾焰 红外辐射 Curtis-godson(CG)近似 数值模拟
在线阅读 下载PDF
嵌入式Linux交叉开发环境 被引量:10
4
作者 康涌泉 桑楠 +1 位作者 邹楚雄 邓竹莎 《计算机应用》 CSCD 北大核心 2006年第B06期261-263,共3页
对嵌入式软件交叉开发技术进行探讨和研究。利用开源软件在W indows操作系统下,构建了一个嵌入式Linux的交叉开发环境,开发了busybox等应用程序,为“龙芯gs32 i”开发板搭建了一个嵌入式Linux的运行平台。
关键词 嵌入式开发环境 龙芯gs32i CYGWIN godson—linux BUSYBOX
在线阅读 下载PDF
基于软硬件的协同支持在众核上对1-DFFT算法的优化研究 被引量:9
5
作者 周永彬 张军超 +1 位作者 张帅 张浩 《计算机学报》 EI CSCD 北大核心 2008年第11期2005-2014,共10页
随着高性能计算需求的日益增加,片上众核(many-core)处理器成为未来处理器架构的发展方向.快速傅立叶变换(FFT)作为高性能计算中的重要应用,对计算能力和通信带宽都有较高的要求.因此基于众核处理器平台,实现高效、可扩展的FFT算法是算... 随着高性能计算需求的日益增加,片上众核(many-core)处理器成为未来处理器架构的发展方向.快速傅立叶变换(FFT)作为高性能计算中的重要应用,对计算能力和通信带宽都有较高的要求.因此基于众核处理器平台,实现高效、可扩展的FFT算法是算法和体系结构设计者共同面临的挑战.文中在众核处理器Godson-T平台上对1-D FFT算法进行了优化和评估,在节省几乎三分之一L2 Cache存储开销的情况下,通过隐藏矩阵转置,计算与通信重叠等优化策略,使得优化后的1-D FFT算法达到3倍以上的性能提升.并通过片上网络拥塞状况的实验分析,发现对于像FFT这样访存带宽受限的应用,增加L2 Cache的访问带宽,可以缓解因为爆发式读写带给片上网络和L2 Cache的压力,进一步提高程序的性能和扩展性. 展开更多
关键词 众核 godson-T 快速傅立叶变换 计算与通信重叠
在线阅读 下载PDF
H.264去块滤波算法在众核结构上的并行优化 被引量:2
6
作者 范灵俊 颜成钢 +2 位作者 宋风龙 马宜科 范东睿 《小型微型计算机系统》 CSCD 北大核心 2011年第11期2263-2267,共5页
在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种... 在H.264视频解码中,去块滤波是运算量很大的一部分.由于去块滤波过程中,数据之间存在复杂的依赖性,现有的很多去块滤波并行方案存在着并行度小、同步互斥开销大的缺点.本文结合去块滤波算法及众核处理器Godson-T的结构特性,提出了一种可以减少数据依赖的去块滤波算法并行优化方案.相对于以前的很多方法,此并行方案首先在算法上增大了并行度,减少了同步开销,同时,我们通过片上众核处理器Godson-T的硬件支持,采用计算与通信重叠等优化策略,使得优化后的算法达到了数倍的性能提升. 展开更多
关键词 H.264 去块滤波 godson-T众核 并行优化
在线阅读 下载PDF
PartitionSim:一个面向众核结构的并行模拟器 被引量:2
7
作者 焦帅 徐卫志 +2 位作者 唐士斌 范东睿 孙凝晖 《计算机学报》 EI CSCD 北大核心 2011年第11期2084-2092,共9页
该文提出了一个面向众核处理器的并行模拟器:PartitionSim.PartitionSim采用了一种新颖的方法——时序分割来加速众核结构模拟.时序分割的提出基于这样的观察:在众核结构中,有些模块之间频繁交互而有的模块之间没有交互.有鉴于此,该方... 该文提出了一个面向众核处理器的并行模拟器:PartitionSim.PartitionSim采用了一种新颖的方法——时序分割来加速众核结构模拟.时序分割的提出基于这样的观察:在众核结构中,有些模块之间频繁交互而有的模块之间没有交互.有鉴于此,该方法将目标结构分割成两部分:交互部分和非交互部分.当模拟交互部分时,主机线程严格同步,维持时序精确.当模拟非交互部分时,主机线程通过异步运行,提高模拟速度,并且产生较小的时序损失.文中所述工作在一个16核的SMP机器上用PartitionSim模拟了千核规模的Godson-T众核结构.实验结果显示,PartitionSim展示出良好的加速比,达到最高25MIPS的模拟速度,时序损失平均值为0.92%. 展开更多
关键词 并行模拟 众核 godson-T 时序分割
在线阅读 下载PDF
龙芯3号互联系统的设计与实现 被引量:23
8
作者 王焕东 高翔 +1 位作者 陈云霁 胡伟武 《计算机研究与发展》 EI CSCD 北大核心 2008年第12期2001-2010,共10页
龙芯3号的互联结构设计采用了一种基于二维Mesh的可伸缩分布式多核结构,可为芯片级、主板级和系统级的互联提供统一的拓扑结构和逻辑设计.龙芯3号的对外接口采用扩展的HyperTransport协议,既可以用于连接IO,又可以实现多芯片的互联.在龙... 龙芯3号的互联结构设计采用了一种基于二维Mesh的可伸缩分布式多核结构,可为芯片级、主板级和系统级的互联提供统一的拓扑结构和逻辑设计.龙芯3号的对外接口采用扩展的HyperTransport协议,既可以用于连接IO,又可以实现多芯片的互联.在龙芯3号的互联结构中还设置了软件路由配置机制,可以在板级直接构筑中等规模的CC-NUMA系统和更大规模的NCC-NUMA系统,提供高效的通信机制.介绍了基于龙芯3号的多处理器系统互联架构.采用了双层可伸缩互联结构:片内由二维Mesh连接多个结点,结点内由交叉开关连接多个处理器核和二级缓存模块.片间无需额外硬件支持即可通过支持缓存一致性的HyperTransport接口实现16核的多处理器系统.利用层次化目录技术,龙芯3号还可以支持更大规模的多处理器系统.龙芯3号的互联架构为搭建简洁、高效、灵活、高度可扩展的共享存储多处理器系统提供了有力支持. 展开更多
关键词 龙芯3号 多核 多片 体系结构 互联 处理器
在线阅读 下载PDF
嵌入式处理器在片调试功能的设计与实现 被引量:9
9
作者 黄海林 范东睿 +4 位作者 许彤 朱鹏飞 郑保建 曹非 陈亮 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2006年第7期1005-1010,共6页
以龙芯1号处理器为研究对象,探讨了嵌入式处理器中在片调试功能的设计实现方法.通过扩充IEEEP1149.1协议的JTAG测试访问端口(TAP),并在处理器内部增加控制模块,实现了软件调试断点、调试中断、硬件断点以及单步执行等多种在片调试功能.... 以龙芯1号处理器为研究对象,探讨了嵌入式处理器中在片调试功能的设计实现方法.通过扩充IEEEP1149.1协议的JTAG测试访问端口(TAP),并在处理器内部增加控制模块,实现了软件调试断点、调试中断、硬件断点以及单步执行等多种在片调试功能.调试主机只需要通过一根JTAG调试电缆就可以访问目标处理器内部寄存器等各种资源,并控制目标处理器的运行过程,实现了处理器的在片调试功能,大大地方便了软件开发与系统调试. 展开更多
关键词 在片调试 IEEE P1149.1 JTAG 龙芯1号处理器
在线阅读 下载PDF
非均匀热气体红外辐射特性计算与仿真 被引量:19
10
作者 陈卫 汪中贤 +2 位作者 马东辉 樊祥 邓潘 《红外与激光工程》 EI CSCD 北大核心 2010年第1期17-21,共5页
非均匀热气体由于内部空间点的温度、密度、组分及压力各不相同,其红外辐射特性的计算十分困难。为了计算非均匀热气体的红外辐射特性,首先从分析非均匀热气体特点和均匀热气体的谱带模型出发,以原子分子辐射理论为基础,结合谱线的碰撞... 非均匀热气体由于内部空间点的温度、密度、组分及压力各不相同,其红外辐射特性的计算十分困难。为了计算非均匀热气体的红外辐射特性,首先从分析非均匀热气体特点和均匀热气体的谱带模型出发,以原子分子辐射理论为基础,结合谱线的碰撞展宽效应和多普勒展宽效应,利用单谱带模型Curtis-Godson(C-G)近似法对非均匀热气体谱带模型所用到的谱带模型参数进行了计算,提出一种计算非均匀热气体红外辐射特性的方法。最后,应用此方法计算了某单发动机喷气式飞机在非加力状态下尾焰3~5μm的红外辐射强度,计算结果与文献中给出的实际测量的尾焰红外辐射数据能较好地吻合,计算仿真结果验证了该方法的正确性。 展开更多
关键词 非均匀热气体 红外辐射特性 单谱带模型 C-G近似法
在线阅读 下载PDF
嵌入式处理器中访存部件的低功耗设计研究 被引量:11
11
作者 黄海林 范东睿 +1 位作者 许彤 唐志敏 《计算机学报》 EI CSCD 北大核心 2006年第5期815-821,共7页
以“龙芯1号”处理器为研究对象,探讨了嵌入式处理器中访存部件的低功耗设计方法.通过对访存部件的结构、功耗以及关键路径进行分析,利用局部性原理,提出一种根据虚拟地址历史记录进行判断的方法,可以显著减少TLB和Cache对RAM块的访问次... 以“龙芯1号”处理器为研究对象,探讨了嵌入式处理器中访存部件的低功耗设计方法.通过对访存部件的结构、功耗以及关键路径进行分析,利用局部性原理,提出一种根据虚拟地址历史记录进行判断的方法,可以显著减少TLB和Cache对RAM块的访问次数,使得TLB部件功耗平均降低了28.1%,Cache部件功耗平均降低了54.3%,处理器总功耗平均降低了23.2%,而关键路径延时反而减少,处理器性能略有提高. 展开更多
关键词 访存部件 TLB CACHE 低功耗 龙芯1号
在线阅读 下载PDF
龙芯3A多核处理器系统级性能优化与分析 被引量:12
12
作者 孟小甫 高翔 +1 位作者 从明 张爽爽 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期137-142,共6页
多核处理器的性能与系统软件有着密切的联系:操作系统是处理器与应用程序之间的接口,对于充分利用处理器特性和提高应用程序的性能起着极其重要的作用;编译器与处理器体系结构密切相关,一方面要产生处理器支持的二进制代码,另一方面还... 多核处理器的性能与系统软件有着密切的联系:操作系统是处理器与应用程序之间的接口,对于充分利用处理器特性和提高应用程序的性能起着极其重要的作用;编译器与处理器体系结构密切相关,一方面要产生处理器支持的二进制代码,另一方面还要结合处理器特性产生高效运行的代码,其性能好坏直接影响着系统的整体性能.为了提高龙芯3A系统的实际性能,从操作系统和编译器着手,结合龙芯3A微结构特征,进行了一系列有效的优化.这些措施包括CC-NUMA多核操作系统的实现、操作系统二级Cache锁机制、操作系统调度共享二级Cache分配、自动向量化编译和支持预取机制的编译等.实验结果表明,在系统软件中增加对处理器特性的支持,能够充分挖掘体系结构的优势,对系统性能有较大的好处.其性能优化技术对于其他处理器的优化也有一定的借鉴价值. 展开更多
关键词 龙芯3A 自动向量化 预取 锁Cache 性能分析
在线阅读 下载PDF
龙芯2号处理器的同时多线程设计 被引量:10
13
作者 李祖松 许先超 +1 位作者 胡伟武 唐志敏 《计算机学报》 EI CSCD 北大核心 2009年第11期2265-2273,共9页
提出了适合龙芯2号处理器的同时多线程处理器模型,并介绍了具体的微体系结构设计以及相应的Linux操作系统的实现方案.通过在设计的龙芯2号同时多线程处理器上启动Linux操作系统,并运行应用程序,例如SPEC CPU2000,进行性能评测.结果表明... 提出了适合龙芯2号处理器的同时多线程处理器模型,并介绍了具体的微体系结构设计以及相应的Linux操作系统的实现方案.通过在设计的龙芯2号同时多线程处理器上启动Linux操作系统,并运行应用程序,例如SPEC CPU2000,进行性能评测.结果表明,龙芯2号同时多线程处理器通过挖掘线程级并行性,将龙芯2号处理器的性能提高了31.1%. 展开更多
关键词 龙芯2 同时多线程 微体系结构 LINUX操作系统
在线阅读 下载PDF
龙芯3B的SIMD编译优化及分析 被引量:9
14
作者 彭飞 顾乃杰 +1 位作者 高翔 孙明明 《小型微型计算机系统》 CSCD 北大核心 2012年第12期2733-2737,共5页
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了B... 根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了Builtin函数的支持,用户可以根据标准函数接口调用SIMD运算函数,完成向量操作.通过对SPEC-CPU2000、DSPstone等大量benchmark的测试和分析,给出了龙芯3B SIMD运算的各项性能指数.对于性能表现不同的测试函数,均给出了详细分析数据和结论.测试表明,龙芯3B的SIMD运算在实际应用中有着良好的性能表现. 展开更多
关键词 编译优化 SIMD 自动向量化 Builtin 龙芯3B
在线阅读 下载PDF
KD-90普及型个人高性能计算机系统设计与性能优化 被引量:8
15
作者 蔡晔 刘刚 +2 位作者 毛睿 罗秋明 陈国良 《深圳大学学报(理工版)》 EI CAS 北大核心 2013年第2期138-143,共6页
报道中国首台采用自主设计研制的龙芯3B 8核处理器的万亿次高性能计算机系统KD-90.该系统具有高计算密度、低功耗、低成本、低占地的特点,其应用SMP→CC-NUMA→Cluster 3级并行体系结构,采用通用协议与专用协议结合的互连网络硬件设计,... 报道中国首台采用自主设计研制的龙芯3B 8核处理器的万亿次高性能计算机系统KD-90.该系统具有高计算密度、低功耗、低成本、低占地的特点,其应用SMP→CC-NUMA→Cluster 3级并行体系结构,采用通用协议与专用协议结合的互连网络硬件设计,实现了CC-NUMA机群架构关键技术的突破;应用矢量部件加速技术实现了一种通用处理器与向量协处理器相结合的编程模型.结合体系结构特点和操作系统内核对系统性能优化并进行了性能测试和分析. 展开更多
关键词 计算机工程 个人高性能计算机系统 龙芯 并行体系结构 高性能计算
在线阅读 下载PDF
一种分片式多核处理器的用户级模拟器 被引量:6
16
作者 黄琨 马可 +2 位作者 曾洪博 张戈 章隆兵 《软件学报》 EI CSCD 北大核心 2008年第4期1069-1080,共12页
随着片上晶体管资源的增多和互连线延迟的加大,分片式多核微处理器已成为多核处理器设计的新方向.为了对这种新型处理器进行体系结构的深入研究和设计空间的探索,设计并实现了针对分片式多核处理器的用户级多核性能模拟器.该多核模拟器... 随着片上晶体管资源的增多和互连线延迟的加大,分片式多核微处理器已成为多核处理器设计的新方向.为了对这种新型处理器进行体系结构的深入研究和设计空间的探索,设计并实现了针对分片式多核处理器的用户级多核性能模拟器.该多核模拟器在龙芯2号单处理器核的基础上,完整地模拟了基于目录的Cache一致性协议和存储转发式片上互联网络的结构模型,详细地刻画了由于系统乱序处理各种请求应答和请求之间的冲突而造成的时序特性,可以通过运行各种串行或并行的工作负载对多核处理器的各种重要性能指标加以评估,为多核处理器的结构设计提供了快速、灵活、高效的研究平台. 展开更多
关键词 分片式CMP(chip multiprocessor) 模拟器 片上网络 性能分析 龙芯2号微处理器
在线阅读 下载PDF
一种基于龙芯一号CPU的高效Flash控制器 被引量:4
17
作者 李翀 王沁 +1 位作者 王磊 张晓彤 《小型微型计算机系统》 CSCD 北大核心 2009年第9期1885-1889,共5页
为了提高Flash存储设备读写效率,满足CM数据存储的时效性需求,借鉴cache和queue技术,设计一款基于AHB具有Burst读和非阻塞写功能,可重构的Nor Flash控制器.在基于龙芯一号CPU的双向有线网络SoC平台上对其进行了仿真验证,实验表明,在cach... 为了提高Flash存储设备读写效率,满足CM数据存储的时效性需求,借鉴cache和queue技术,设计一款基于AHB具有Burst读和非阻塞写功能,可重构的Nor Flash控制器.在基于龙芯一号CPU的双向有线网络SoC平台上对其进行了仿真验证,实验表明,在cache和queue的大小为0.5K时,使用该技术Flash的读写速度分别提高了3.3倍和4倍.同时,非阻塞机制提高系统利用率,可重构机制节省了硬件资源. 展开更多
关键词 NOR FLASH SOC 龙芯一号CPU CM FPGA
在线阅读 下载PDF
基于龙芯SoC的嵌入式网络收音机设计 被引量:5
18
作者 尹秀文 曾碧 +1 位作者 徐以山 吴清泉 《计算机工程》 CAS CSCD 北大核心 2010年第16期281-282,285,共3页
针对嵌入式系统在高性能电子产品中的应用需求,研究并实现一个以龙芯SoC处理器HS3210为核心的嵌入式网络收音机的设计方案。以龙芯SoC处理器HS3210为核心,介绍Linux操作系统在龙芯SoC处理器上运行的实现,及外围部分电路芯片的选择与接... 针对嵌入式系统在高性能电子产品中的应用需求,研究并实现一个以龙芯SoC处理器HS3210为核心的嵌入式网络收音机的设计方案。以龙芯SoC处理器HS3210为核心,介绍Linux操作系统在龙芯SoC处理器上运行的实现,及外围部分电路芯片的选择与接口设计。实验结果表明,应用该方法设计的网络收音机成本低、性能高、功能易扩展。 展开更多
关键词 龙芯SoC 嵌入式系统 LINUX操作系统 网络收音机
在线阅读 下载PDF
嵌入式处理器TLB设计方法研究 被引量:4
19
作者 范东睿 黄海林 唐志敏 《计算机学报》 EI CSCD 北大核心 2006年第1期73-80,共8页
以处理器的TLB(Translation Look-aside Buffer)部件为研究对象,探讨嵌入式处理器TLB部件的高能效设计方法.用龙芯1号这款有代表性的真实处理器为设计模型,通过对功耗、面积、关键路径和性能等多方面的试验分析,提出了新颖的TLB低功耗... 以处理器的TLB(Translation Look-aside Buffer)部件为研究对象,探讨嵌入式处理器TLB部件的高能效设计方法.用龙芯1号这款有代表性的真实处理器为设计模型,通过对功耗、面积、关键路径和性能等多方面的试验分析,提出了新颖的TLB低功耗设计方法.在经过改进后的TLB设计中,TLB部件的RAM部分的面积减少了50%,功耗降低了92.7%,整个TLB部件的面积减少了23.7%,功耗降低了28.5%,而电路延迟几乎没有增加,处理器的性能也没有受到影响.这充分说明改进方案是非常实用而有效的. 展开更多
关键词 TLB 低功耗 龙芯 RAM 延迟 面积
在线阅读 下载PDF
一种基于龙芯CPU的结构级功耗评估新方法 被引量:4
20
作者 黄琨 章隆兵 +1 位作者 胡伟武 张戈 《计算机研究与发展》 EI CSCD 北大核心 2007年第5期782-789,共8页
如何有效地利用处理器消耗的能量而得到尽可能高的性能成为了目前体系结构研究的热点,在研究中,结构级的功耗评估工具无疑具有重要的作用.在现有的结构级功耗模拟器中,往往只考虑了动态电路以及全定制实现方法下的功耗刻画,而忽略了以... 如何有效地利用处理器消耗的能量而得到尽可能高的性能成为了目前体系结构研究的热点,在研究中,结构级的功耗评估工具无疑具有重要的作用.在现有的结构级功耗模拟器中,往往只考虑了动态电路以及全定制实现方法下的功耗刻画,而忽略了以静态电路和标准单元设计为主的ASIC设计方法对处理器功耗带来的影响.由此,结合一款高性能、低功耗通用处理器——龙芯2号的具体实现,对其设计特点和功耗特性进行分析,实现了以龙芯2号处理器为基本研究对象的结构级功耗评估方法.该评估方法充分考虑了CMOS静态电路的结构级功耗刻画方法,因此更加适合目前以ASIC设计方法为主的高性能处理器结构的功耗评估.该结构级功耗评估方法与RTL级的功耗评估方法相比,具有速度快和灵活性好的优点.在2.4GHz的IntelXeon上,该功耗评估方法的速度约为300K/s,是RTL级的评估方法的5000倍,而且误差很小. 展开更多
关键词 功耗 评估方法 龙芯2号微处理器 功耗建模 ASIC设计
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部