期刊文献+
共找到77篇文章
< 1 2 4 >
每页显示 20 50 100
计算机体系结构模拟器技术和发展 被引量:13
1
作者 许建卫 陈明宇 +4 位作者 杨伟 潘晓雷 郑规 赵健博 孙凝晖 《系统仿真学报》 CAS CSCD 北大核心 2009年第20期6325-6331,共7页
对计算机体系结构模拟器的技术和发展历程进行评述,从速度、精度和灵活性三个方面对领域需求和相关技术做了分类总结,分析了上述三个方面的难点并从模拟器实现和使用两个层面介绍了现有的解决方案;给出了模拟器目前面临的困境及下一步... 对计算机体系结构模拟器的技术和发展历程进行评述,从速度、精度和灵活性三个方面对领域需求和相关技术做了分类总结,分析了上述三个方面的难点并从模拟器实现和使用两个层面介绍了现有的解决方案;给出了模拟器目前面临的困境及下一步发展趋势;对体系结构模拟器的开发和使用给出几点建议。 展开更多
关键词 体系结构 模拟器 加速技术 大规模模拟
在线阅读 下载PDF
一种面向高性能计算机的超节点控制器的研究 被引量:4
2
作者 王凯 陈飞 +3 位作者 李强 李晓民 安学军 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2011年第1期1-8,共8页
传统高性能计算机的节点由一个处理单元和一个节点控制器组成.为了有效地维护高速缓存一致性,处理单元中的处理器个数会非常有限.因此一台具有千万亿次处理能力的高性能计算机将会有上万个节点,这对互连网络的延迟和带宽都提出了非常高... 传统高性能计算机的节点由一个处理单元和一个节点控制器组成.为了有效地维护高速缓存一致性,处理单元中的处理器个数会非常有限.因此一台具有千万亿次处理能力的高性能计算机将会有上万个节点,这对互连网络的延迟和带宽都提出了非常高的要求.超节点控制器能够同时连接多个处理单元构成一个超节点,这能够减小互连网络的规模,从而降低互连网络的设计难度,并保证互连网络的性能.用FPGA实现了超节点控制器的原型系统的测试结果表明,采用超节点设计的高性能计算机拥有非常低的通信延迟,同时其通信带宽也有非常好的扩展性. 展开更多
关键词 高性能计算机 超节点控制器 全局地址空间 直接内存访问 远程读写
在线阅读 下载PDF
用线程级推测技术在多核体系结构上并行化科学计算应用 被引量:2
3
作者 王耀彬 安虹 +2 位作者 郭锐 闫洁 路璐 《小型微型计算机系统》 CSCD 北大核心 2010年第2期264-270,共7页
线程级推测技术使在多核上加速传统上难以手工或自动并行化的串行程序成为可能,它不仅需要合理地选择线程的划分策略,而且需要合理地选择适合推测执行的应用.已有的大量研究主要集中在如SPEC CPU这样的桌面应用领域,为了全面地认识TLS... 线程级推测技术使在多核上加速传统上难以手工或自动并行化的串行程序成为可能,它不仅需要合理地选择线程的划分策略,而且需要合理地选择适合推测执行的应用.已有的大量研究主要集中在如SPEC CPU这样的桌面应用领域,为了全面地认识TLS技术的应用适用性,本文探讨TLS技术对科学计算应用的性能提升潜力,提出一套TLS适用性的基本判定准则,实验结果表明采用该技术加速SPLASH2中的多数应用可以有效利用16核及以上的计算资源. 展开更多
关键词 多核 线程级推测 线程划分 动态剖析
在线阅读 下载PDF
曙光5000高性能计算机多播网络的设计 被引量:1
4
作者 曹政 王达伟 +1 位作者 刘新春 孙凝晖 《电子学报》 EI CAS CSCD 北大核心 2011年第2期481-488,共8页
本文介绍了曙光5000高性能计算机多播网络设计的关键技术.减少多播与单播/多播与多播间的网络竞争是降低多播延迟的主要途径之一,而无死锁则是保障多播操作正确完成的前提.为了解决死锁问题,本文提出了一种基于全局资源公告的死锁避免方... 本文介绍了曙光5000高性能计算机多播网络设计的关键技术.减少多播与单播/多播与多播间的网络竞争是降低多播延迟的主要途径之一,而无死锁则是保障多播操作正确完成的前提.为了解决死锁问题,本文提出了一种基于全局资源公告的死锁避免方法;为了获得较低的多播延迟,本文充分利用胖树拓扑特点,提出了一种基于重载交换机去除的多播路径选择策略.测试结果表明,在网络重载情况下,相比于已有多播路径选择算法,本文的路径选择策略可以获得近三倍的性能提升.对于many-to-many多播通信,曙光5000多播网络可以获得90%以上的多播吞吐率. 展开更多
关键词 高性能计算机 多播 死锁 路由算法 胖树
在线阅读 下载PDF
HPP:一种支持高性能和效用计算的体系结构 被引量:8
5
作者 孙凝晖 李凯 陈明宇 《计算机学报》 EI CSCD 北大核心 2008年第9期1503-1508,共6页
为了同时做到应对千万亿次高性能计算的技术挑战和满足数据中心(data center)未来的主要应用模式效用计算(utility computing)的需求,提出了一种称为HPP(Hyper Parallel Processing)的高性能计算机体系结构.HPP的主要特征是全局地址空间... 为了同时做到应对千万亿次高性能计算的技术挑战和满足数据中心(data center)未来的主要应用模式效用计算(utility computing)的需求,提出了一种称为HPP(Hyper Parallel Processing)的高性能计算机体系结构.HPP的主要特征是全局地址空间(global address space)和单一操作系统映像的超节点(hyper node).HPP结合了MPP的可扩展性,DSM的高效通信和机群的普及化的优点,为高性能计算和效用计算都提供了许多创新研究的机会.基于HPP体系结构,实现了一个曙光5000高性能计算机的原型系统,初步验证了它的可行性. 展开更多
关键词 高性能计算 效用计算 体系结构 超并行 千万亿次
在线阅读 下载PDF
面向云计算的多核处理器存储和网络子系统优化设计 被引量:6
6
作者 苏文 王焕东 +1 位作者 台运方 王靖 《高技术通讯》 CAS CSCD 北大核心 2013年第4期360-367,共8页
针对传统多核处理器设计缺乏对虚拟机和典型云服务的支持的问题,分析了云计算数据中心和虚拟机的基本架构和特点,指出数据传输、网络性能、I/O虚拟化是一直未被关注的影响系统性能的关键因素,进而提出了一种改进的多核处理器设计方案。... 针对传统多核处理器设计缺乏对虚拟机和典型云服务的支持的问题,分析了云计算数据中心和虚拟机的基本架构和特点,指出数据传输、网络性能、I/O虚拟化是一直未被关注的影响系统性能的关键因素,进而提出了一种改进的多核处理器设计方案。该方案通过采用片上内存拷贝引擎、改进直接内存访问(DMA)设计、改进直接缓存访问(DCA)设计和采用快速地址转换和远程内存访问(RDMA)技术,来较大地提高存储系统、网络、I/O的性能和系统的并行性。实验表明,该方案实现的单核800MHz处理器千兆以太网络TCP传输带宽较传统方案提高48.2%并达到峰值800Mbps,内存拷贝操作加速比达到14倍以上,快速傅立叶变换(FFT)和矩阵乘法加速比达到2倍以上,同时系统高速缓存效率显著提高。 展开更多
关键词 云计算 多核处理器 网络优化 虚拟机 计算机体系结构
在线阅读 下载PDF
给定余度下可重构计算系统的可靠性最优化研究 被引量:1
7
作者 周密 尚利宏 胡瑜 《计算机科学》 CSCD 北大核心 2009年第4期293-295,298,共4页
研究在给定余度及给定配置版本数量的约束下,以可靠性及平均失效时间为优化目标,多个配置版本在可重构器件中所占据资源的面积分配问题。上述问题使用论域划分模型来建模,并转化为非线性规划问题进行求解。给出了可靠性一阶近似最优化... 研究在给定余度及给定配置版本数量的约束下,以可靠性及平均失效时间为优化目标,多个配置版本在可重构器件中所占据资源的面积分配问题。上述问题使用论域划分模型来建模,并转化为非线性规划问题进行求解。给出了可靠性一阶近似最优化的充分必要条件。提出了使用二阶近似规划求解上述问题的方法与流程。选择ITC99中的部分基准电路进行了仿真试验。理论计算和仿真试验均表明,大多数情况下采用现提出的二阶近似最优化方法的可重构系统在可靠性和平均失效时间等指标上优于以往的研究。 展开更多
关键词 可重构计算 容错 论域划分 故障恢复
在线阅读 下载PDF
一种面向虚拟化云计算平台的内存优化技术 被引量:60
8
作者 李亚琼 宋莹 黄永兵 《计算机学报》 EI CSCD 北大核心 2011年第4期684-693,共10页
虚拟化技术和云计算平台的结合带来了全新的资源整合和使用模式,基于虚拟化技术的资源按需分配与调度可以提高云平台资源的利用率,提升云服务的服务质量,并降低云用户的总体拥有成本.但是,物理服务器的资源边界限制了资源的全局优化能力... 虚拟化技术和云计算平台的结合带来了全新的资源整合和使用模式,基于虚拟化技术的资源按需分配与调度可以提高云平台资源的利用率,提升云服务的服务质量,并降低云用户的总体拥有成本.但是,物理服务器的资源边界限制了资源的全局优化能力.文中引入了一种面向虚拟化云平台的全局内存优化框架——通过引入由逻辑地址空间和全局扩展地址空间构成的双层地址空间映射机制来构建跨物理服务器资源边界的高效、可靠的内存资源抽象.同时,引入一种透明的页面交换机制来实现对于虚拟机透明的空闲页面回收,达到资源流动的目的.实验结果表明,该框架能够很好地优化云平台中内存资源配置,提升整个平台的资源利用率,并对关键任务的执行有显著的加速作用. 展开更多
关键词 云计算 虚拟化 内存优化 透明 内存流动
在线阅读 下载PDF
一种基于Android系统网络模块功耗的评估和分析 被引量:9
9
作者 张立 韩银和 袁小龙 《计算机科学》 CSCD 北大核心 2012年第6期289-292,共4页
嵌入式移动便携设备由电池供电,而电池容量却受体积和重量的制约,因此嵌入式移动设备的功耗问题成为研究的一个关键问题。分别采用WIFI和GPRS两种接入网络策略,研究手机系统功耗的变化。实验结果表明,小流量模式(10kb/min)下两种策略电... 嵌入式移动便携设备由电池供电,而电池容量却受体积和重量的制约,因此嵌入式移动设备的功耗问题成为研究的一个关键问题。分别采用WIFI和GPRS两种接入网络策略,研究手机系统功耗的变化。实验结果表明,小流量模式(10kb/min)下两种策略电池使用时间减少约50%,大流量模式(2Mbit/min)下能量消耗更快,减少约85%;在传输相等的数据量下,WIFI模式比GPRS模式省电。在两台基于Android系统平台的真机上进行了实验,结果表明,研究降低手机移动网络模块的功耗具有十分重要的意义。 展开更多
关键词 低功耗技术 ANDROID 移动互联网 系统功耗 功耗评估
在线阅读 下载PDF
多核平台共享内存操作系统性能瓶颈分析及解决 被引量:3
10
作者 袁清波 赵健博 +1 位作者 陈明宇 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2011年第12期2268-2276,共9页
共享内存操作系统使用精心设计的锁来保护各种共享数据,对这些数据的访问需要首先获得对应的锁,当内核中同时有多个流程(系统调用、内核线程或中断处理程序等)试图获得同一个锁时会产生竞争,相关流程越多竞争就越激烈.随着系统中处理单... 共享内存操作系统使用精心设计的锁来保护各种共享数据,对这些数据的访问需要首先获得对应的锁,当内核中同时有多个流程(系统调用、内核线程或中断处理程序等)试图获得同一个锁时会产生竞争,相关流程越多竞争就越激烈.随着系统中处理单元数目的增长,这些流程的数量也在不断增加,此时,对锁的竞争会影响系统的整体性能,甚至成为瓶颈.另一方面,操作系统与应用程序在同一处理器核上交替运行,因为硬件cache容量有限,导致操作系统的代码和数据经常替换掉应用程序的代码和数据.当应用程序重新被调度运行时,需从更慢速的cache,甚至从内存中读取这些代码和数据,从而降低了性能.通过在一台16核AMD节点上的相关测试,以上问题得到了量化验证,并针对这些问题提出了一种异构操作系统模型.在此模型下,应用程序和操作系统分别运行在不同的处理器核上,实验显示这种模式可以有效降低对锁的竞争和对cache的污染. 展开更多
关键词 多核 异构操作系统 锁竞争 CACHE 性能评测
在线阅读 下载PDF
跨平台系统级虚拟机的访存优化 被引量:2
11
作者 蔡嵩松 刘奇 +1 位作者 沈海华 章隆兵 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期131-136,共6页
跨平台系统级虚拟机软件模拟访存操作效率低,严重影响了虚拟机的性能.为提高跨平台虚拟机访存效率,提出了一种使用宿主系统TLB硬件、加速跨平台系统级虚拟机访存地址转换的软硬件协同优化方法.该方法相对于软件访存模拟方法,有效利用了... 跨平台系统级虚拟机软件模拟访存操作效率低,严重影响了虚拟机的性能.为提高跨平台虚拟机访存效率,提出了一种使用宿主系统TLB硬件、加速跨平台系统级虚拟机访存地址转换的软硬件协同优化方法.该方法相对于软件访存模拟方法,有效利用了宿主系统的硬件资源,提高了跨平台系统级虚拟机执行访存操作效率.实验结果表明该方法将虚拟机系统的整体性能提高了近15%.提出的方法已实际应用在龙芯系统级跨平台虚拟机中. 展开更多
关键词 跨平台系统级虚拟机 访存模拟 地址转换 页表 TLB
在线阅读 下载PDF
分片式流处理器上存储系统的设计与实现 被引量:1
12
作者 汪芳 安虹 +2 位作者 徐光 许牧 姚平 《计算机工程》 CAS CSCD 北大核心 2010年第11期217-220,共4页
针对"存储墙"问题,从提高片外带宽使用率的角度出发,为分片式流处理器设计实现数据并行存储系统。该存储系统通过多级调度能有效减少片外访存的次数,降低片外带宽的需求。软件模拟和仿真验证的结果表明,在不同工作负载特征下... 针对"存储墙"问题,从提高片外带宽使用率的角度出发,为分片式流处理器设计实现数据并行存储系统。该存储系统通过多级调度能有效减少片外访存的次数,降低片外带宽的需求。软件模拟和仿真验证的结果表明,在不同工作负载特征下,通过设计参数的优化选择,该设计能够充分挖掘存储访问的行局部性和体间并行性,从而提高带宽的使用效率。 展开更多
关键词 分片式流处理器 数据并行存储系统 片外带宽
在线阅读 下载PDF
曙光5000芯片组系统级功能验证平台 被引量:1
13
作者 刘涛 王凯 +1 位作者 李晓民 安学军 《计算机工程与科学》 CSCD 北大核心 2009年第11期37-39,44,共4页
曙光5000芯片组是曙光5000计算单元中的系统控制器,它通过HT接口连接两颗CPU并提供高速网络通信能力。为了确保曙光5000芯片组的功能正确性,我们为其设计了系统级功能验证平台SVP。SVP采用分层结构对系统进行建模,通过对本地计算单元的... 曙光5000芯片组是曙光5000计算单元中的系统控制器,它通过HT接口连接两颗CPU并提供高速网络通信能力。为了确保曙光5000芯片组的功能正确性,我们为其设计了系统级功能验证平台SVP。SVP采用分层结构对系统进行建模,通过对本地计算单元的系统软件行为、硬件平台功能以及远程计算单元的网络行为进行模拟,提供了接近真实系统的验证环境。在曙光5000芯片组的验证过程中,SVP发现并排除了逻辑设计中的大多数功能错误,通过并行验证加速了验证覆盖率的收敛过程。 展开更多
关键词 芯片组 功能验证 建模 模拟 覆盖率
在线阅读 下载PDF
面向应用的流存储系统评测与改进
14
作者 汪芳 安虹 +2 位作者 徐光 许牧 姚平 《小型微型计算机系统》 CSCD 北大核心 2010年第5期990-995,共6页
有限的片外存储带宽是制约流处理器性能提升的瓶颈之一,流存储系统已经采用了多种方式来缓解这个问题,但当前的设计并没有充分考虑应用具体的访存模式对有效带宽利用率的影响.通过分析和实验,评估流存储系统主要设计参数对不同访存模式... 有限的片外存储带宽是制约流处理器性能提升的瓶颈之一,流存储系统已经采用了多种方式来缓解这个问题,但当前的设计并没有充分考虑应用具体的访存模式对有效带宽利用率的影响.通过分析和实验,评估流存储系统主要设计参数对不同访存模式的优化效果;在此基础上针对不同的流访问并行度提出了相应的结构改进,加入宽发射和短作业优先调度支持,充分挖掘存储访问的局部性和并行性,改善了负载平衡,从而有效地提高了片外带宽的使用效率和流程序的整体性能. 展开更多
关键词 流存储系统 DRAM 存储带宽
在线阅读 下载PDF
系统虚拟化中指令去特权化的软硬件协同设计
15
作者 台运方 蔡万伟 +2 位作者 刘奇 张戈 章隆兵 《高技术通讯》 CAS CSCD 北大核心 2012年第11期1149-1154,共6页
提出了一种软硬件协同设计的去特权化方式,用来减少系统虚拟机中特权指令和敏感指令产生的额外开销。其主要思想是使用修改操作系统源代码的软件去特权化方式减少敏感指令的额外开销,使用修改硬件方式减少非敏感指令的特权指令的额外... 提出了一种软硬件协同设计的去特权化方式,用来减少系统虚拟机中特权指令和敏感指令产生的额外开销。其主要思想是使用修改操作系统源代码的软件去特权化方式减少敏感指令的额外开销,使用修改硬件方式减少非敏感指令的特权指令的额外开销。两者配合使用可最大限度减少虚拟机中这两类指令的额外开销,从而能提高系统虚拟机性能。在MIPS架构CPU的测试板上的实验显示,使用这种方法之后虚拟机的特权指令和敏感指令造成的异常数减少了近97%,同时SPECCINT2000测试集中大部分程序性能提升100%以上。 展开更多
关键词 虚拟化 去特权化 软硬件协同设计 特权指令 敏感指令
在线阅读 下载PDF
结合ATPG和SAT的无界模型检验前像计算方法 被引量:2
16
作者 刘领一 赵阳 +2 位作者 吕涛 李华伟 李晓维 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2007年第3期376-380,共5页
提出一种无界模型检验的前像计算方法,该方法有效地结合ATPG和SAT引擎,充分利用引擎各自的优点.SAT用来判断是否已经穷尽所有解;每次SAT枚举出一个前像解后,采用一个专门的ATPG过程减少状态变量上的赋值,从而减少前像解的总个数,加快后... 提出一种无界模型检验的前像计算方法,该方法有效地结合ATPG和SAT引擎,充分利用引擎各自的优点.SAT用来判断是否已经穷尽所有解;每次SAT枚举出一个前像解后,采用一个专门的ATPG过程减少状态变量上的赋值,从而减少前像解的总个数,加快后面的不动点迭代处理.最后通过在ISCAS89和ITC99电路上的实验证明了文中方法的有效性. 展开更多
关键词 形式验证 无界模型检验 前像计算 自动化测试激励生成 布尔可满足性问题
在线阅读 下载PDF
基于SAT的快速电路时延计算 被引量:2
17
作者 何子键 吕涛 +1 位作者 李华伟 李晓维 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2011年第3期480-487,共8页
针对现有的基于时间展开电路求解时延算法在电路规模较大或者时延模型精度较高时效率较低的问题,提出一种基于子电路抽取的电路时延计算方法.基于展开电路,通过分析输出端约束找到相关的输出端,利用回溯抽取与这些输出端相关的逻辑锥子... 针对现有的基于时间展开电路求解时延算法在电路规模较大或者时延模型精度较高时效率较低的问题,提出一种基于子电路抽取的电路时延计算方法.基于展开电路,通过分析输出端约束找到相关的输出端,利用回溯抽取与这些输出端相关的逻辑锥子电路,并在子电路而不是在展开电路上进行求解,由于抽取的子电路的规模远小于展开电路的规模,加速了求解过程;同时提出了抽象电路的概念,并分析了抽取子电路的同构特性,通过在抽象电路上进行预处理得到学习子句,从而可以利用学习子句加速每一次的SAT求解过程.在ISCAS85和ISCAS89电路上的实验结果表明,采用文中方法使得电路时延的求解效率平均提高了约8倍. 展开更多
关键词 可满足性 电路时延 电路展开
在线阅读 下载PDF
一种类数据流驱动的分片式流处理器体系结构及其编程模型 被引量:1
18
作者 徐光 安虹 +4 位作者 许牧 刘谷 姚平 任永青 汪芳 《计算机研究与发展》 EI CSCD 北大核心 2010年第9期1643-1653,共11页
考虑到半导体工艺发展带来的线延迟问题,分布式、分片式的处理器结构变得很有吸引力.在传统流处理器中,流控制器发射的控制信号在传递时存在长线延迟问题.传统流处理器的运算簇由众多的功能部件组成,由于运算簇间的通信是集中控制的,运... 考虑到半导体工艺发展带来的线延迟问题,分布式、分片式的处理器结构变得很有吸引力.在传统流处理器中,流控制器发射的控制信号在传递时存在长线延迟问题.传统流处理器的运算簇由众多的功能部件组成,由于运算簇间的通信是集中控制的,运算簇间通信网络的线延迟可扩展性差.提出了一种分片式流处理器(TPA-PD)体系结构,它采用分布式的网络连接分片式的部件,避免了控制信号在传递过程中出现的长线延迟问题.在kernel级,TPA-PD使用类数据流的执行模型即显式数据流图执行,将指令间的依赖关系在指令中静态编码,把传统流处理器中运算簇间的集中通信变为动态发射、分布式的通信,利于结构扩展.解释了新的执行模型、指令集以及将流编程模型映射到新结构上.在时钟精确的模拟器上,实验分析了影响kernel级执行时间的软硬件因素,TPA-PD比传统流处理器在8个benchmark中平均获得了20%的加速比. 展开更多
关键词 线延迟 流处理器 分片式 类数据流驱动 处理器结构
在线阅读 下载PDF
多微通道内存系统设计方法
19
作者 张广飞 王焕东 +2 位作者 陈新科 黄帅 陈李维 《高技术通讯》 CAS CSCD 北大核心 2013年第7期685-693,共9页
通过建立内存系统排队模型,分析了影响内存系统性能的原因——内存控制器的内存命令处理速度受访存请求页命中率、Bank级并行度和读写命令切换率的影响,进而提出了一种多微通道内存系统设计方法。用此方法多微通道内存控制器通过对内存... 通过建立内存系统排队模型,分析了影响内存系统性能的原因——内存控制器的内存命令处理速度受访存请求页命中率、Bank级并行度和读写命令切换率的影响,进而提出了一种多微通道内存系统设计方法。用此方法多微通道内存控制器通过对内存颗粒进行细粒度控制,可以提高访存请求页命中率和Bank级并行度,隐藏数据总线读写切换延迟。该结构在提高内存系统带宽利用率的同时,缩短访存请求延迟,并提高内存功耗有效性。将多微通道内存控制器设计应用于多核处理器平台,充分分析各种宽度访存通道对应用程序性能的影响。实验结果表明,相比传统内存控制器设计方法,多微通道内存控制器将内存系统带宽提高了21.8%,访存延迟和功耗分别降低14.4%和26.2%。 展开更多
关键词 DRAM系统 内存控制器 片上多核 多通道 访存特性
在线阅读 下载PDF
支持推测并行化的事务存储硬件模拟系统
20
作者 李颀 安虹 +1 位作者 李功明 邓博斌 《小型微型计算机系统》 CSCD 北大核心 2013年第5期1102-1107,共6页
多核处理器通过增加处理器核数提高计算能力,虽然可以通过同时运行多道程序的方式利用处理器资源,但是多核处理器真正的成功取决于解决并行应用开发中的难题.为此,处理器体系结构和编程模型的协同开发是必须的.而随着核数的增多,传统上... 多核处理器通过增加处理器核数提高计算能力,虽然可以通过同时运行多道程序的方式利用处理器资源,但是多核处理器真正的成功取决于解决并行应用开发中的难题.为此,处理器体系结构和编程模型的协同开发是必须的.而随着核数的增多,传统上使用的软件模拟器因为软件的串行性而性能越来越差,无法支持这种软硬件协同开发.FPGA天生的并行性使它在模拟多核处理器时具有较高的模拟性能和高度的可扩放性,成为处理器体系结构研究的理想工具.本文介绍了基于FPGA的多核模拟系统,RAMP-Pink.该系统基于HASim实现,同时支持事务存储和线程级推测,用于对事务存储和线程级推测的软硬件协同开发.该模拟系统可配置不同的FPGA开发平台,也可以以软件模拟方式运行. 展开更多
关键词 多核处理器 FPGA 模拟器 事务存储 线程级推测
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部