期刊文献+
共找到58篇文章
< 1 2 3 >
每页显示 20 50 100
面向FT1000微处理器的STREAM并行计算与优化 被引量:4
1
作者 迟利华 胡庆丰 +3 位作者 刘杰 甘新标 蒋杰 晏益慧 《计算机工程与科学》 CSCD 北大核心 2014年第12期2267-2271,共5页
STREAM是微处理器上内存性能的基准测试程序,在多核多线程FT1000微处理器上发挥高性能是具有挑战性的研究工作。基于多级Cache结构,优化STREAM四个程序的指令流水线,根据寄存器数,设计了多级循环展开方法,根据指令延迟和Cache行的大小... STREAM是微处理器上内存性能的基准测试程序,在多核多线程FT1000微处理器上发挥高性能是具有挑战性的研究工作。基于多级Cache结构,优化STREAM四个程序的指令流水线,根据寄存器数,设计了多级循环展开方法,根据指令延迟和Cache行的大小确定数据预取的数目,使用汇编语言编写了优化子程序。基于OpenMP并行环境,设计了STREAM并行程序,优化了局部化数据分配方式。数据测试结果表明,优化后的STREAM的性能比原始串行程序性能提高了19.2%-64.2%。优化后,并行程序的最高访存性能达到8.5GB/s,对比优化前的最高访存性能最大提高了22.7%。 展开更多
关键词 多线程微处理器 stream测试程序 性能优化
在线阅读 下载PDF
龙腾Stream流处理器验证 被引量:1
2
作者 白龙飞 樊晓桠 +1 位作者 张萌 孙立超 《计算机工程与应用》 CSCD 2013年第15期65-69,共5页
芯片设计复杂度的提高迫切地需要先进的方法学以应对巨大的验证工作量。通过开发基于System Verilog的覆盖率驱动的自动化验证平台,对龙腾Stream流处理器的指令集进行了功能验证。实验结果表明,该验证平台提高了验证效率和功能覆盖率,... 芯片设计复杂度的提高迫切地需要先进的方法学以应对巨大的验证工作量。通过开发基于System Verilog的覆盖率驱动的自动化验证平台,对龙腾Stream流处理器的指令集进行了功能验证。实验结果表明,该验证平台提高了验证效率和功能覆盖率,具有良好的重用性和可移植性。搭建FPGA原型验证系统对流处理器的功能和系统性能进行了评测,并提出了优化流处理器加速性能的方法。 展开更多
关键词 流处理器 指令集验证 System VERILOG 现场可编程门阵列(FPGA)原型验证
在线阅读 下载PDF
x86处理器向量条件访存指令安全脆弱性分析
3
作者 李丹萍 朱子元 +1 位作者 史岗 孟丹 《计算机学报》 EI CAS CSCD 北大核心 2024年第3期525-543,共19页
单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化... 单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化处理的需求不断提高,这使得SIMD技术愈发重要.为了支持SIMD技术,Intel和AMD等x86处理器厂商从1996年开始在其处理器中陆续引入了MMX(MultiMedia Extensions)、SSE(Streaming SIMD Extensions)、AVX(Advanced Vector eXtensions)等SIMD指令集扩展.通过调用SIMD指令,程序员能够无需理解SIMD技术的硬件层实现细节就方便地使用它的功能.然而,随着熔断、幽灵等处理器硬件漏洞的发现,人们逐渐认识到并行优化技术是一柄双刃剑,它在提高性能的同时也能带来安全风险.本文聚焦于x86 SIMD指令集扩展中的VMASKMOV指令,对它的安全脆弱性进行了分析.本文的主要贡献如下:(1)利用时间戳计数器等技术对VMASKMOV指令进行了微架构逆向工程,首次发现VMASKMOV指令与内存页管理和CPU Fill Buffer等安全风险的相关性;(2)披露了一个新的处理器漏洞EvilMask,它广泛存在于Intel和AMD处理器上,并提出了3个EvilMask攻击原语:VMASKMOVL+Time(MAP)、VMASKMOVS+Time(XD)和VMASKMOVL+MDS,可用于实施去地址空间布局随机化攻击和进程数据窃取攻击;(3)给出了2个EvilMask概念验证示例(Proof-of-Concept,PoC)验证了EvilMask对真实世界的信息安全危害;(4)讨论了针对EvilMask的防御方案,指出最根本的解决方法是在硬件层面上重新实现VMASKMOV指令,并给出了初步的实现方案. 展开更多
关键词 处理器安全 单指令多数据流(SIMD) 微体系结构侧信道攻击 VMASKMOV指令 地址空间布局随机化(ASLR)
在线阅读 下载PDF
Imagine流处理器上流的优化组织方法 被引量:4
4
作者 杨学军 曾丽芳 +1 位作者 邓宇 唐玉华 《计算机学报》 EI CSCD 北大核心 2008年第7期1092-1100,共9页
流应用的特点以及传统处理器在处理流应用上的不足,使得支持数据并行的流处理器的设计成为当前体系结构研究领域的一个热点.文中针对Imagine流处理器体系结构的特点,提出了流分割和流压缩两种流的优化组织方法.模拟结果表明,流分割和流... 流应用的特点以及传统处理器在处理流应用上的不足,使得支持数据并行的流处理器的设计成为当前体系结构研究领域的一个热点.文中针对Imagine流处理器体系结构的特点,提出了流分割和流压缩两种流的优化组织方法.模拟结果表明,流分割和流压缩使得流应用程序能充分利用Imagine的并行结构、流水结构和多级带宽存储结构,从而减少流程序的执行时间. 展开更多
关键词 Imagine流处理器 流应用 流优化 流分割 流压缩
在线阅读 下载PDF
流体系结构技术发展探讨 被引量:3
5
作者 张春元 文梅 +3 位作者 伍楠 任巨 管茂林 何义 《国防科技大学学报》 EI CAS CSCD 北大核心 2009年第5期1-5,11,共6页
以流计算模型为基础的流体系结构,是面向未来的单片上集成超10亿只晶体管和上千ALU时代的新型体系结构,正成为微处理器体系结构研究关注的前沿焦点之一。首先分析流计算的背景;总结现有的具有代表性的流体系结构,并对它们的结构、执行... 以流计算模型为基础的流体系结构,是面向未来的单片上集成超10亿只晶体管和上千ALU时代的新型体系结构,正成为微处理器体系结构研究关注的前沿焦点之一。首先分析流计算的背景;总结现有的具有代表性的流体系结构,并对它们的结构、执行模式、并行性、片上存储使用方式和应用目标等方面进行了比较;然后归纳流程序设计及其环境,讨论当前流编译研究的热点方向;最后探讨流处理器设计的发展趋势。 展开更多
关键词 流处理器 体系结构 流编程 流编译
在线阅读 下载PDF
一种流处理器体系结构MASA及其在流体力学计算中的评测 被引量:3
6
作者 伍楠 文梅 +4 位作者 何义 荀长庆 任巨 柴俊 张春元 《计算机学报》 EI CSCD 北大核心 2008年第1期133-141,共9页
提出了面向科学计算的64位流体系结构——MASA,它具有强局域性、并行性、解耦合访存操作和计算操作等特征,特别适合于计算密集型的并行应用.作者使用时钟精确的模拟器评测了流体力学中的典型应用在MASA上的运行性能,结果表明MASA在500MH... 提出了面向科学计算的64位流体系结构——MASA,它具有强局域性、并行性、解耦合访存操作和计算操作等特征,特别适合于计算密集型的并行应用.作者使用时钟精确的模拟器评测了流体力学中的典型应用在MASA上的运行性能,结果表明MASA在500MHz的情况下能够获得比1.6GHz的Iantium2近4倍的加速,证实了流体系结构在高性能计算领域的极大潜力. 展开更多
关键词 流处理器 体系结构 科学计算 Ygx2 MASA
在线阅读 下载PDF
利用CUDA技术实现锥束CT图像快速重建 被引量:10
7
作者 王珏 曹思远 邹永宁 《核电子学与探测技术》 CAS CSCD 北大核心 2010年第3期315-320,共6页
锥束CT三维重建算法的计算量和传输量巨大,仅利用CPU来计算,无法满足实时、快速、准确重建的要求,根据图形处理器运算能力强、存储带宽大的特点,研究了一种不需要学习图形API,就可以在图形处理器上实现三维重建算法的快速运算的方法。... 锥束CT三维重建算法的计算量和传输量巨大,仅利用CPU来计算,无法满足实时、快速、准确重建的要求,根据图形处理器运算能力强、存储带宽大的特点,研究了一种不需要学习图形API,就可以在图形处理器上实现三维重建算法的快速运算的方法。该方法采用基于统一计算设备架构的图形处理器,通过这种新架构的编程模式,利用图形处理器中的流处理器来加快滤波和反投影计算,实现了FDK算法的重建加速,与利用图形API的重建方法相比,开发门槛较低。对于尺寸为5123的单精度浮点数据格式的图像,重建时间可以缩短到一分钟以内,并且GPU与计算机的传输时间小于1秒。实验结果表明与仅利用CPU的重建方法相比,本文提出的图像加速方法得到了较高的时间加速比。 展开更多
关键词 锥束CT 图形处理器 统一计算设备架构 流处理器FDK算法 重建加速
在线阅读 下载PDF
CPU/GPU异构混合并行的栅格数据空间分析研究——以地形因子计算为例 被引量:9
8
作者 卢敏 王金茵 +2 位作者 卢刚 陶伟东 王结臣 《计算机工程与应用》 CSCD 北大核心 2017年第1期172-177,共6页
海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的... 海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的设备间任务划分,进行CPU与GPU异构混合的并行技术改良研究。实验结果表明,基于相同的单机硬件环境,与多核共享内存模型或众核流处理器的单一计算平台并行方案相比,CPU/GPU异构混合并行计算方法对于栅格数据分析具有更好的加速效果。 展开更多
关键词 GIS栅格数据分析 共享内存模型 流处理器模型 CPU/GPU异构混合并行
在线阅读 下载PDF
基于多核流处理器的BLAST并行化算法研究 被引量:4
9
作者 裴颂文 王心怡 +1 位作者 韦刚 吴百锋 《系统仿真学报》 CAS CSCD 北大核心 2011年第10期2065-2069,共5页
序列比对是生物信息学中最基本、最重要的操作,通过序列比对可以发现生物序列中的功能、结构和进化的信息。BLAST算法是序列比对中应用广泛的算法之一。基于多核流处理器GPU和CPU的异构平台,提出了BLAST算法构造单词表和单词匹配扩展的... 序列比对是生物信息学中最基本、最重要的操作,通过序列比对可以发现生物序列中的功能、结构和进化的信息。BLAST算法是序列比对中应用广泛的算法之一。基于多核流处理器GPU和CPU的异构平台,提出了BLAST算法构造单词表和单词匹配扩展的并行化实现方法。实验证明构造单词表的计算性能获得3倍以上的加速比;单词匹配扩展采用的混合并行方式可以获得7倍左右的加速比,内部并行方式可取得3~4倍的加速比。 展开更多
关键词 序列比对 BLAST算法 生物信息学 多核流处理器
在线阅读 下载PDF
可配置流处理器核心级指令设计及相关编译技术研究 被引量:4
10
作者 何义 任巨 +3 位作者 杨乾明 管茂林 文梅 张春元 《计算机工程与科学》 CSCD 北大核心 2009年第11期40-44,共5页
针对目前微处理器面对通用性、高性能、功耗效率的矛盾,我们提出了可配置流处理器的解决方案。本文重点研究了可配置流处理器中核心级指令设计及相关的编译技术,其核心设计思想是根据应用的计算特征设计流处理器中的核心级指令集,从而... 针对目前微处理器面对通用性、高性能、功耗效率的矛盾,我们提出了可配置流处理器的解决方案。本文重点研究了可配置流处理器中核心级指令设计及相关的编译技术,其核心设计思想是根据应用的计算特征设计流处理器中的核心级指令集,从而降低指令集硬件资源的需求。 展开更多
关键词 可配置 指令集 流处理器 编译
在线阅读 下载PDF
多维可扩展流体系结构研究与评测 被引量:2
11
作者 吴伟 文梅 +7 位作者 伍楠 何义 杨乾明 管茂林 荀长庆 任巨 柴俊 张春元 《电子学报》 EI CAS CSCD 北大核心 2008年第5期899-905,共7页
MASA(Multiple-dimension scalable Stream Architecture)是一种可在多个维度扩展的流体系结构.本文对该体系结构的扩展性进行了深入探讨,分析了簇内、簇间和多核扩展的VLSI资源开销,并通过一组测试程序评测了MASA的性能.结果表明,三个... MASA(Multiple-dimension scalable Stream Architecture)是一种可在多个维度扩展的流体系结构.本文对该体系结构的扩展性进行了深入探讨,分析了簇内、簇间和多核扩展的VLSI资源开销,并通过一组测试程序评测了MASA的性能.结果表明,三个扩展维度形成有利互补,使得MASA流体系结构可支持扩展到单片内集成上千个ALU. 展开更多
关键词 流处理器 流体系结构 扩展性 并行处理
在线阅读 下载PDF
基于流体系架构的分组密码处理器设计 被引量:2
12
作者 李功丽 戴紫彬 +3 位作者 徐进辉 王寿成 朱玉飞 冯晓 《计算机研究与发展》 EI CSCD 北大核心 2017年第12期2824-2833,共10页
为提升密码处理器性能,构建了密码处理器性能模型.基于该模型,提出多级资源共享、绑定前/后异或操作、最大化算法并行度等处理器性能提升技术,并根据性能提升技术确定了功能单元的种类和数量.然而功能单元不仅数量较多,而且在操作位宽... 为提升密码处理器性能,构建了密码处理器性能模型.基于该模型,提出多级资源共享、绑定前/后异或操作、最大化算法并行度等处理器性能提升技术,并根据性能提升技术确定了功能单元的种类和数量.然而功能单元不仅数量较多,而且在操作位宽和操作延迟方面均有较大差异,如何有效组织这些功能单元成为了一个关键问题.利用流体系结构可以高效集成大量功能单元的特点,设计并实现了基于流体系结构的可重构分组密码处理器原型,并通过把功能单元划分为基本处理单元,bank间共享单元和簇间共享单元3个层次来解决功能单元处理位宽和操作延迟的差异.在65nm CMOS工艺下对处理器原型进行综合,并在该结构上映射了典型的分组密码算法.实验结果证明:该处理器以较小的面积获得了较高的性能,对典型分组密码算法的处理速度,不仅超越了国际上的密码专用指令处理器,而且高于国内可重构阵列结构密码处理器. 展开更多
关键词 分组密码 流处理器 性能模型 可重构 密码处理器
在线阅读 下载PDF
一种流体系结构中软硬结合的异构核协同方法 被引量:2
13
作者 任巨 何义 +4 位作者 荀长庆 杨乾明 文梅 伍楠 张春元 《计算机学报》 EI CSCD 北大核心 2008年第11期2038-2046,共9页
在流体系结构中,标量核同流处理核是异构核,它们之间的协同是流处理器能够正确、高效运转的基础.文中针对异构核间所采用的软件协同方法性能低的问题,提出了一种软件和硬件相结合的异构核协同方法,并基于MASA-I流处理SOPC系统进行了实现... 在流体系结构中,标量核同流处理核是异构核,它们之间的协同是流处理器能够正确、高效运转的基础.文中针对异构核间所采用的软件协同方法性能低的问题,提出了一种软件和硬件相结合的异构核协同方法,并基于MASA-I流处理SOPC系统进行了实现.使用媒体和数字信号处理领域核心算法进行测试的结果表明,与软件协同方法相比,使用文中方法的协同性能有2个量级的提升,程序整体性能提高一倍. 展开更多
关键词 异构核 核间协同 软硬结合 流处理器 体系结构
在线阅读 下载PDF
流处理器MASA-I在FPGA上的实现 被引量:3
14
作者 杨乾明 伍楠 +2 位作者 何义 荀长庆 张春元 《计算机工程与科学》 CSCD 2008年第3期114-118,共5页
流处理器与传统微处理器相比具有更高的性能和效率,已广泛应用于图像处理、媒体处理等领域。本文基于Altera EP2S180 FPGA芯片设计并实现了一款32位异构多核流处理器MASA-I,并对其硬件开销及性能进行了评估。结果表明,基于流处理的异构... 流处理器与传统微处理器相比具有更高的性能和效率,已广泛应用于图像处理、媒体处理等领域。本文基于Altera EP2S180 FPGA芯片设计并实现了一款32位异构多核流处理器MASA-I,并对其硬件开销及性能进行了评估。结果表明,基于流处理的异构多核系统能够在FPGA上较好地实现,满足了流应用的需求。 展开更多
关键词 流处理器 MASA—I FPGA MPEG
在线阅读 下载PDF
基于流体系结构的VLIW二维压缩及并行解压 被引量:2
15
作者 李功丽 戴紫彬 +3 位作者 徐进辉 王寿成 朱玉飞 李丹 《电子学报》 EI CAS CSCD 北大核心 2017年第9期2256-2262,共7页
VLIW(Very Long Instruction Word)指令因为含有较多的空操作导致严重的代码体积膨胀问题,代码压缩是解决这一问题的有效措施.VLIW代码压缩需要解决三个关键问题,一是提高压缩率;二是降低解压操作对性能的影响;三是分支目标重定位.针对... VLIW(Very Long Instruction Word)指令因为含有较多的空操作导致严重的代码体积膨胀问题,代码压缩是解决这一问题的有效措施.VLIW代码压缩需要解决三个关键问题,一是提高压缩率;二是降低解压操作对性能的影响;三是分支目标重定位.针对流体系结构上的VLIW指令特点,提出了二维压缩,对VLIW进行垂直与水平两个方向上的压缩,且水平解压可以与代码执行并行,并通过设置堆栈寄存器缓存循环入口地址.实验结果表明二维压缩有效解决了VLIW代码体积膨胀问题,可以使指令存储器的面积减少36.48%,并使得整个CISP系统面积减少了7.85%. 展开更多
关键词 流处理器 VLIW 二维压缩 并行解压
在线阅读 下载PDF
基于图形处理器的数据流快速聚类 被引量:24
16
作者 曹锋 周傲英 《软件学报》 EI CSCD 北大核心 2007年第2期291-302,共12页
在数据流环境下,聚类算法不仅需要有较高的聚类质量,同时需要有实时处理速度.因而,提出了一类基于图形处理器(graphics processing unit,简称GPU)的快速聚类方法,包括基于K-means的基本聚类方法、基于GPU的数据流聚类以及数据流簇进化... 在数据流环境下,聚类算法不仅需要有较高的聚类质量,同时需要有实时处理速度.因而,提出了一类基于图形处理器(graphics processing unit,简称GPU)的快速聚类方法,包括基于K-means的基本聚类方法、基于GPU的数据流聚类以及数据流簇进化分析方法.这些方法的共同特点是充分利用了GPU强大的处理能力和流水线特性.与以往具有独立框架的数据流聚类算法不同,这些基于GPU的聚类算法具有同一框架和多种聚类分析功能,为数据流聚类分析提供了统一的平台.从分析可知,数据流聚类分析的核心操作实际上就是距离计算和比较.基于这一认识,利用GPU的子素向量处理功能进行距离计算.性能验证实验是在配有Pentium IV3.4G CPU和NVIDIA GeForce 6800 GT显卡的PC上进行的.综合分析和实验结果表明,基于GPU的数据流聚类算法比传统的CPU算法平均快7倍,从而为高速数据流应用提供了良好的支持. 展开更多
关键词 数据流 聚类 图形处理器 进化 窗口
在线阅读 下载PDF
基于流体系结构的高效能分组密码处理器研究 被引量:3
17
作者 王寿成 严迎建 徐进辉 《电子学报》 EI CAS CSCD 北大核心 2017年第4期937-943,共7页
针对现有密码处理器存在的问题,借鉴流处理器架构,提出了高效能的可重构分组密码流处理器架构.该架构采用层次化设计思想,通过分块式本地寄存器组的数据组织方式和共享拼接使用运算单元机制,实现了软件流水和硬件流水的协同工作,能够挖... 针对现有密码处理器存在的问题,借鉴流处理器架构,提出了高效能的可重构分组密码流处理器架构.该架构采用层次化设计思想,通过分块式本地寄存器组的数据组织方式和共享拼接使用运算单元机制,实现了软件流水和硬件流水的协同工作,能够挖掘分组内和分组间的指令级并行性并提高功能单元的利用率.在65nm CMOS工艺下对架构进行了综合仿真,并经过了大量算法映射.实验结果证明,该架构在CBC和ECB加密模式下均具有良好的加密性能.与其他密码处理器相比,该架构具有小面积、高效能的特点. 展开更多
关键词 分组密码 流处理器 可重构 软件流水 面积能效比
在线阅读 下载PDF
面向密码流体系结构的超长指令字可重构研究 被引量:2
18
作者 严迎建 王寿成 +1 位作者 徐进辉 陈韬 《电子与信息学报》 EI CSCD 北大核心 2017年第1期206-212,共7页
可重构密码流体系结构是一种面向密码运算的新型体系结构,但存在着超长指令字(VLIW)代码稀疏和Kernel体积过大的问题。该文以可重构密码流处理架构S-RCCPA为研究平台,通过大量密码算法在S-RCCPA架构上的适配分析,提出了VLIW可重构技术,... 可重构密码流体系结构是一种面向密码运算的新型体系结构,但存在着超长指令字(VLIW)代码稀疏和Kernel体积过大的问题。该文以可重构密码流处理架构S-RCCPA为研究平台,通过大量密码算法在S-RCCPA架构上的适配分析,提出了VLIW可重构技术,并设计了Kernel级指令集、VLIW可重构算法及指令可重构单元。实验证明,该技术能够有效提高VLIW的指令密度,同时降低了VLIW的指令宽度,使得整个Kernel体积减小了约33.3%,并将微码存储器的容量由96 k B降为64 k B,有效降低芯片整体面积和系统功耗。 展开更多
关键词 密码流处理器 Kernel级指令 超长指令字 可重构 指令密度
在线阅读 下载PDF
基于CUDA技术的卷积神经网络识别算法 被引量:9
19
作者 张佳康 陈庆奎 《计算机工程》 CAS CSCD 北大核心 2010年第15期179-181,共3页
针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GP... 针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。 展开更多
关键词 流处理器 单指令多线程 GTX200硬件架构 CUDA技术 卷积神经网络
在线阅读 下载PDF
适用于SIMD体系结构的FPGA分页仿真模型研究 被引量:1
20
作者 何义 任巨 +4 位作者 文梅 杨乾明 伍楠 张春元 郭敏 《计算机研究与发展》 EI CSCD 北大核心 2011年第1期9-18,共10页
SIMD结构能有效地开发多媒体和复杂科学计算的并行性,成为产业应用和研究的热点.在大规模SIMD体系结构研究中,为缓解FPGA芯片容量对仿真系统规模的限制,提出了适用于SIMD体系结构的FPGA分页仿真模型,有效降低了SIMD结构对FPGA计算资源... SIMD结构能有效地开发多媒体和复杂科学计算的并行性,成为产业应用和研究的热点.在大规模SIMD体系结构研究中,为缓解FPGA芯片容量对仿真系统规模的限制,提出了适用于SIMD体系结构的FPGA分页仿真模型,有效降低了SIMD结构对FPGA计算资源和存储资源的需求,提高了SIMD结构的可验证规模.对MASA流处理器的仿真实验结果表明,不采用任何仿真优化技术,FPGA芯片EP2S180可支持的最大仿真规模为8个cluster的MASA,采用分页仿真模型,EP2S180的最大仿真规模可增加至256个cluster的MASA,而且仿真时间的增量是可接受的. 展开更多
关键词 FPGA 仿真 SIMD 体系结构 流处理器
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部