期刊文献+
共找到56篇文章
< 1 2 3 >
每页显示 20 50 100
面向杂凑密码算法的专用指令加速器的设计与实现
1
作者 王轩 刘勤让 +3 位作者 陈磊 魏帅 范旺 杨恒 《计算机工程与应用》 北大核心 2025年第2期363-371,共9页
物联网的快速发展对嵌入式设备的系统性能和数据安全性的要求越来越高,传统的通用嵌入式处理器对密码算法的实现效率不高,不能很好满足性能需要,此外嵌入式设备还有着低功耗的场景需求。为解决以上问题,在Xilinx ZYNQ ZC706嵌入式开发... 物联网的快速发展对嵌入式设备的系统性能和数据安全性的要求越来越高,传统的通用嵌入式处理器对密码算法的实现效率不高,不能很好满足性能需要,此外嵌入式设备还有着低功耗的场景需求。为解决以上问题,在Xilinx ZYNQ ZC706嵌入式开发平台上设计了一个低功耗的面向杂凑密码算法的专用指令加速器,该加速器包含有取指译码单元、执行单元和数据访存单元,通过多任务数据并行和专用指令实现计算加速;并设计令牌机制解决指令执行时的数据冲突问题;在高层次综合(high-level synthesis,HLS)工具的基础上通过存储优化改进访存机制,有效提高带宽利用率。实验结果表明,加速器的工作频率为100 MHz,该ARM+FPGA方案相较于单ARM方案可达3倍以上的加速效果,而且运行功耗仅为2.23 W,该加速器也可定制化拓展,有较好的灵活性。 展开更多
关键词 嵌入式应用 加速器设计 专用指令 高层次综合 数据并行
在线阅读 下载PDF
面向国产高性能加速器的LLVM编译器设计及优化
2
作者 宋强 唐俊龙 +4 位作者 陈照云 时洋 谭期轩 肖紫阳 邹望辉 《计算机工程》 CAS CSCD 北大核心 2024年第4期321-331,共11页
国防科技大学自主研制的高性能加速器采用中央处理器(CPU)+通用数字信号处理器(GPDSP)的片上异构融合架构,使用超长指令集(VLIW)+单指令多数据流(SIMD)的向量化结构的GPDSP是峰值性能主要支撑的加速核。主流编译器在密集的数据计算指令... 国防科技大学自主研制的高性能加速器采用中央处理器(CPU)+通用数字信号处理器(GPDSP)的片上异构融合架构,使用超长指令集(VLIW)+单指令多数据流(SIMD)的向量化结构的GPDSP是峰值性能主要支撑的加速核。主流编译器在密集的数据计算指令排布、为指令静态分配硬件执行单元、GPDSP特有的向量指令等方面不能很好地支持高性能加速器。基于低级虚拟器(LLVM)编译框架,在前寄存器分配调度阶段,结合峰值寄存器压力感知方法(PERP)、蚁群优化(ACO)算法与GPDSP结构特点,优化代价模型,设计支持寄存器压力感知的指令调度模块;在后寄存器分配阶段提出支持静态功能单元分配的指令调度策略,通过冲突检测机制保证功能单元分配的正确性,为指令并行执行提供软件基础;在后端封装一系列丰富且规整的向量指令接口,实现对GPDSP向量指令的支持。实验结果表明,所提出的LLVM编译架构优化方法从功能和性能上实现了对GPDSP的良好支撑,GCC testsuite测试整体性能平均加速比为4.539,SPEC CPU 2017浮点测试整体性能平均加速比为4.49,SPEC CPU 2017整型测试整体性能平均加速比为3.24,使用向量接口的向量程序实现了平均97.1%的性能提升率。 展开更多
关键词 通用数字信号处理器 低级虚拟器 编译器 指令调度 向量指令接口
在线阅读 下载PDF
萤火虫2:一种多态并行机的硬件体系结构 被引量:16
3
作者 李涛 杨婷 +5 位作者 易学渊 蒲林 钱博文 黄光新 黄虎才 韩俊刚 《计算机工程与科学》 CSCD 北大核心 2014年第2期191-200,共10页
提出了一种新型的多态高效并行阵列机结构——萤火虫2号阵列机。该结构的处理单元可以在SIMD和MIMD两种模式下运行,兼有异步执行机制,还可以实现分布式指令级并行处理。采用了硬件的多线程管理器和高效通信机制,这些机制使得此种阵列机... 提出了一种新型的多态高效并行阵列机结构——萤火虫2号阵列机。该结构的处理单元可以在SIMD和MIMD两种模式下运行,兼有异步执行机制,还可以实现分布式指令级并行处理。采用了硬件的多线程管理器和高效通信机制,这些机制使得此种阵列机能够实现效率很高的线程级并行运算、数据级并行运算和分布式指令级并行运算。尤其值得指出的是,此种阵列机的流处理性能堪与专用集成电路匹敌。该结构还能有效实现静态与动态数据流计算,可以高效实现图形、图像和数字信号处理任务。 展开更多
关键词 阵列机 多态处理器 计算机图形 图像处理 信号处理 数据级并行 线程级并行
在线阅读 下载PDF
DSP体系结构发展的新趋势 被引量:5
4
作者 黄 峰 李胜平 +2 位作者 朱全庆 熊召新 邹雪城 《计算机工程》 CAS CSCD 北大核心 2002年第4期1-2,218,共3页
CISC→RISC设计思想对DSP体系结构设计中数据和指令级并行性开发产生了深刻影响,融合RISC和SIMD技术的单核处理器已经成为DSP体系结构设计的新趋势。
关键词 超长指令字 单指令多数据流 数据级并行性 指令级并行性 DSP 数字信号处理器 体系结构 单核处理器
在线阅读 下载PDF
协作式全局指令调度与寄存器分配 被引量:3
5
作者 吴承勇 连瑞琦 +1 位作者 张兆庆 乔如良 《计算机学报》 EI CSCD 北大核心 2000年第5期493-499,共7页
指令级并行是现代高性能处理器的重要特征 .对于发挥这类处理器所具有的并行处理能力来说 ,编译器有至关重要的影响 .文中讨论指令级并行编译中的核心问题——全局指令调度与寄存器分配 ,并以作者为一种新型的显式并行体系结构微处理器... 指令级并行是现代高性能处理器的重要特征 .对于发挥这类处理器所具有的并行处理能力来说 ,编译器有至关重要的影响 .文中讨论指令级并行编译中的核心问题——全局指令调度与寄存器分配 ,并以作者为一种新型的显式并行体系结构微处理器研制的编译系统为背景 ,介绍了此类编译器后端设计中面临的指令调度与寄存器分配的时序问题 。 展开更多
关键词 指令级并行 全局指令调度 寄存器分配 编译系统
在线阅读 下载PDF
VLIW处理器ISA建模与辅助软件优化技术 被引量:3
6
作者 严迎建 叶建森 +1 位作者 刘军伟 徐劲松 《计算机工程与设计》 CSCD 北大核心 2009年第11期2727-2729,2752,共4页
在基于VLIW结构的分组密码专用处理器设计过程中,研究了VLIW处理器的指令集体系结构建模技术。设计了一个指令精确的指令集模拟器,通过附加一个流水线相关及停顿统计模块,实现了周期精确的程序运行统计和流水线停顿统计。结合指令集模... 在基于VLIW结构的分组密码专用处理器设计过程中,研究了VLIW处理器的指令集体系结构建模技术。设计了一个指令精确的指令集模拟器,通过附加一个流水线相关及停顿统计模块,实现了周期精确的程序运行统计和流水线停顿统计。结合指令集模拟器、汇编器以及调试器,设计了一个面向VLIW处理器的辅助程序优化环境。利用模拟器和调试器来评估程序的指令级并行度以及资源占用情况,辅助程序开发者优化VLIW处理器程序,从而达到软硬件协作开发VLIW处理器指令级并行性的最终目的。 展开更多
关键词 超长指令字(VLIW) 处理器建模 指令集体系结构 指令集模拟器 指令级并行
在线阅读 下载PDF
LU分解在众核结构仿真器上的指令级调度研究 被引量:5
7
作者 余磊 刘志勇 +1 位作者 宋风龙 叶笑春 《系统仿真学报》 CAS CSCD 北大核心 2011年第12期2603-2610,共8页
随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了... 随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了形式化描述,验证了进行指令级调度的必要性。对处理器核内流水线进行详细分析,指出了指令级调度的一般性问题。提出了在众核结构上使用指令级调度和软件流水的方法。针对Splash2程序集里的LU分解算法,使用众核结构的硬件支持,在Scratched Pad Memory(SPM)上给出了调度指令的方案。在众核仿真器Godson-T上仿真了经过指令级调度后的算法,当使用64个线程处理512×512的矩阵时,程序性能达到调度前性能的4倍。 展开更多
关键词 计算机体系结构 众核 加速比 指令级并行 LU分解
在线阅读 下载PDF
面向SLP的多重循环向量化 被引量:13
8
作者 魏帅 赵荣彩 姚远 《软件学报》 EI CSCD 北大核心 2012年第7期1717-1728,共12页
如今,越来越多的处理器集成了SIMD(single instruction multiple data)扩展,现有的编译器大多也实现了自动向量化的功能,但是一般都只针对最内层循环进行向量化,对于多重循环缺少一种通用、易行的向量化方法.为此,提出了一种面向SLP(sup... 如今,越来越多的处理器集成了SIMD(single instruction multiple data)扩展,现有的编译器大多也实现了自动向量化的功能,但是一般都只针对最内层循环进行向量化,对于多重循环缺少一种通用、易行的向量化方法.为此,提出了一种面向SLP(superword level parallelism)的多重循环向量化方法,从外至内依次对各个循环层次进行分析,收集各层循环对应的一些影响向量化效果的属性值,主要包括能否对该循环进行直接循环展开和压紧、有多少数组引用相对于该循环索引连续以及该循环所包含的区域等,然后根据这些属性值决定在哪些循环层次进行直接循环展开和压紧,最后通过SLP对循环中的语句进行向量化.实验结果表明,该算法相对于内层循环向量化和简单的外层循环向量化平均加速比提升了2.13和1.41,对于一些常用的核心循环可以得到高达5.3的加速比. 展开更多
关键词 SIMD 向量化 依赖关系分析 多重循环 超字并行
在线阅读 下载PDF
推断与推测技术在现代高性能微处理器设计中的应用研究 被引量:5
9
作者 单睿 洪缨 侯朝焕 《计算机学报》 EI CSCD 北大核心 2003年第11期1575-1580,共6页
在现代高性能微处理器设计中 ,推断和推测成为开发指令级并行性ILP(InstructionLevelPara llelism)的两种重要技术途径 .推断的目的是打破程序间固有的控制流程 ,将控制相关转变为数据相关 ,使指令级并行性识别从一个基本块扩大为一个超... 在现代高性能微处理器设计中 ,推断和推测成为开发指令级并行性ILP(InstructionLevelPara llelism)的两种重要技术途径 .推断的目的是打破程序间固有的控制流程 ,将控制相关转变为数据相关 ,使指令级并行性识别从一个基本块扩大为一个超块 .推测执行是为打破分支或访存引起的相关问题而进行的操作 ,进一步分为控制推测和数据推测 .控制推测的目的是打破分支和其他操作间的相关性 ,进而由编译器在一个超块内识别并行性 ,减小控制相关的高度 .数据推测则是消去访存相关 ,提高指令级并行度 .该文首先对推断和推测本身进行分析 ,然后在此基础上进一步将推断、推测技术相结合 ,并应用于高性能媒体处理器的设计中 .性能评价和比较结果显示 ,两种技术相结合将比任何一种技术都更加行之有效 . 展开更多
关键词 微处理器 设计 推断技术 推测技术 超标量处理器
在线阅读 下载PDF
密码协处理器指令级并行编译研究 被引量:2
10
作者 高飞 李红燕 张永福 《计算机应用研究》 CSCD 北大核心 2010年第5期1633-1637,共5页
立足于处理器体系结构的研究,结合可重构设计技术以确保密码处理的灵活性是密码协处理器研究的重要方法,其中如何提升密码协处理器的性能是至关重要的问题。基于VLIW体系结构以及可重构设计技术,设计专用指令密码协处理器。编译器作为... 立足于处理器体系结构的研究,结合可重构设计技术以确保密码处理的灵活性是密码协处理器研究的重要方法,其中如何提升密码协处理器的性能是至关重要的问题。基于VLIW体系结构以及可重构设计技术,设计专用指令密码协处理器。编译器作为密码协处理器的重要组成部分,重点研究了密码协处理器指令级并行编译技术,通过提高指令级并行度来提升密码协处理器的性能。 展开更多
关键词 密码协处理器 超长指令字 可重构计算 指令级并行 指令调度
在线阅读 下载PDF
一种超椭圆曲线密码处理器并行结构设计 被引量:2
11
作者 方跃坚 沈晴霓 吴中海 《计算机研究与发展》 EI CSCD 北大核心 2013年第11期2383-2388,共6页
提出了一种超椭圆曲线密码处理器并行结构设计.处理器由多个具有相同结构的核组成,每个核由一个控制器、一个寄存器文件、一个运算单元组成.多个独立的核之间通过寄存器共享进行通信来协作完成复杂运算.每个运算单元执行自定义多操作数... 提出了一种超椭圆曲线密码处理器并行结构设计.处理器由多个具有相同结构的核组成,每个核由一个控制器、一个寄存器文件、一个运算单元组成.多个独立的核之间通过寄存器共享进行通信来协作完成复杂运算.每个运算单元执行自定义多操作数指令A(B+C)+D,并在指令产生过程和执行时对指令进行灵活配置.该设计可以实现核之间的指令级并行处理和不同指令执行阶段的流水线处理.在FPGA上的实验结果表明,与以往研究相比,该设计可以实现对超椭圆曲线密码点乘运算更高的加速. 展开更多
关键词 超椭圆曲线密码系统 并行结构 自定义指令 指令级并行 流水线技术 FPGA
在线阅读 下载PDF
新型体系结构概念──虚拟寄存器与并行的指令处理部件 被引量:3
12
作者 李三立 廖恒 《小型微型计算机系统》 CSCD 北大核心 1995年第6期6-11,共6页
随着程序对地址空间的需求日益提高,研究者提出了虚拟存储器概念,使程序访问的地址空间免受物理存储器的限制、随着面向寄存器的RISC技术发展以及多发射结构中指令调度的日益重要,我们提出了虚拟寄存器的新概念,使寄存器空间不... 随着程序对地址空间的需求日益提高,研究者提出了虚拟存储器概念,使程序访问的地址空间免受物理存储器的限制、随着面向寄存器的RISC技术发展以及多发射结构中指令调度的日益重要,我们提出了虚拟寄存器的新概念,使寄存器空间不受物理寄存器堆大小的束缚,有利于指令调度和寄存器重新命名技术,提高指令级并行性ILP。此外,现代新型RISC处理机都着重于加强数据处理部件中的执行并行度,忽略了放在存储器中指令的处理。我们提出了与数据处理部件能并行工作的指令处理部件设计;经过预处理的指令流提供给处理数据的多执行部件,从而可以进一步显著提高指令级并行性ILP。 展开更多
关键词 虚拟寄存器 指令处理部件 微处理机 体系结构
在线阅读 下载PDF
高性能科学计算的并行程序设计方法研究 被引量:2
13
作者 王文义 董绍静 《计算机工程》 CAS CSCD 北大核心 2002年第12期83-85,95,共4页
由不同高性能RISC处理器及其构成的超级计算机系统,其基准性能和体系结构是不尽相同的,而且一种计算机体系结构的寿命也就只有3~5年时间,这将使得大多数付出巨大代价且在特定平台上开发成功的高性能科学计算程序往往会因为机型的改... 由不同高性能RISC处理器及其构成的超级计算机系统,其基准性能和体系结构是不尽相同的,而且一种计算机体系结构的寿命也就只有3~5年时间,这将使得大多数付出巨大代价且在特定平台上开发成功的高性能科学计算程序往往会因为机型的改变而不能运行或不能很好运行,因此,人们迫切需要通用化程序,文中通过对在几种主流超级计算机上大量的测试数据的分析,指出了消息传递模式与指令级并行性对提高并行程序通用化程度的重要影响,同时也对利用网络化虚拟集群计算机资源从事高性能科学计算的可行性进行了讨论。 展开更多
关键词 高性能科学计算 并行程序设计方法 通用化 消息传递模式 消息传递模式 指令级并行性 RISC处理器 计算机
在线阅读 下载PDF
超标量、超流水处理机的性能分析 被引量:2
14
作者 齐广玉 张功萱 《小型微型计算机系统》 CSCD 北大核心 1996年第9期25-30,共6页
本文介绍了超标量处理机、超级流水线处理机、超级流水线超标量处理机的基本原理和流水处理过程;列举了三种处理机典型机器的基本结构;重点分析了三种处理机的设计参数和相对于基本标量流水处理机的相对性能,并对超标量、超级流水线... 本文介绍了超标量处理机、超级流水线处理机、超级流水线超标量处理机的基本原理和流水处理过程;列举了三种处理机典型机器的基本结构;重点分析了三种处理机的设计参数和相对于基本标量流水处理机的相对性能,并对超标量、超级流水线级数的确定,进行了讨论。 展开更多
关键词 超标量 超级流水线 性能分析 微处理机
在线阅读 下载PDF
一种运行时消除指针别名歧义的新方法 被引量:2
15
作者 汤志忠 乔林 +1 位作者 张赤红 苏伯珙 《软件学报》 EI CSCD 北大核心 1999年第7期685-689,共5页
提出一种采用软硬件结合的运行时消除指针别名歧义的新方法SHRTD(softw are/hardw arerun-tim e disam biguation).为延迟运行时不正确的内存访问及其后继操作,SHRTD的功能单元... 提出一种采用软硬件结合的运行时消除指针别名歧义的新方法SHRTD(softw are/hardw arerun-tim e disam biguation).为延迟运行时不正确的内存访问及其后继操作,SHRTD的功能单元执行NOP操作.为保证所有延迟操作执行顺序的一致性,编译时就确定执行NOP操作的所有功能单元的顺序和NOP操作的数目.SHRTD方法适用于不可逆代码,同时它的代码空间受限,也不存在严重的代码可重入性问题.新方法有效地解决了指针别名问题。 展开更多
关键词 指令级并行性 指针别名 运行时补偿 并行计算机
在线阅读 下载PDF
流水安全法─—一个面向软件流水技术的新的数据相关性分析方法 被引量:2
16
作者 汤志忠 张赤红 乔林 《计算机学报》 EI CSCD 北大核心 1998年第S1期201-206,共6页
软件流水是一种很有效的指令级并行优化技术,而能否进行尽可能精确的数据相关性分析是决定软件流水优化效果的一个非常重要的因素.本文通过分析软件流水技术本身的特点,从保障软件流水安全为出发点,导出了一组更严洛有效的相关方程... 软件流水是一种很有效的指令级并行优化技术,而能否进行尽可能精确的数据相关性分析是决定软件流水优化效果的一个非常重要的因素.本文通过分析软件流水技术本身的特点,从保障软件流水安全为出发点,导出了一组更严洛有效的相关方程和限制不等式,大大提高了相关性判别的能力,最后与现有工作进行了比较,并用一个例子加以验证. 展开更多
关键词 数据相关性分析 指令级并行 软件流水 并行优化编译
在线阅读 下载PDF
高性能微处理器设计技术 被引量:2
17
作者 康宝祥 栾贵兴 《小型微型计算机系统》 CSCD 北大核心 1994年第10期1-10,共10页
最近几年,微处理器设计技术迅速发展,高性能微处理器已经成为当代各类计算机系统的主要支柱。本文首先简要回顾微处理器的发展过程,然后着重介绍微处理器的设计技术,接着概述微处理器的应用,最后介绍国内情况并提出几点看法。
关键词 体系结构 微处理器 设计
在线阅读 下载PDF
指令级并行程序执行模型 被引量:1
18
作者 乔林 汤志忠 +1 位作者 容红波 张赤红 《计算机学报》 EI CSCD 北大核心 1999年第5期476-480,共5页
提出了一种形式化的指令级并行程序执行模型(Instruction-LevelParalelProgramExecutionModel,ILPPEM).ILPPEM不仅可以描述程序实际执行过程的行为,也可以描述编译和执... 提出了一种形式化的指令级并行程序执行模型(Instruction-LevelParalelProgramExecutionModel,ILPPEM).ILPPEM不仅可以描述程序实际执行过程的行为,也可以描述编译和执行时不确定的时间变化所造成的可行执行过程的行为;同时提出了程序执行的同构概念,并证明了可行程序执行必与一个实际程序执行同构,从而为并行程序编译和验证提供了理论依据. 展开更多
关键词 指令级并行性 程序执行 并行程序 编译程序
在线阅读 下载PDF
基于谓词代码的编译优化技术研究 被引量:1
19
作者 田祖伟 孙光 《计算机科学》 CSCD 北大核心 2010年第5期130-133,138,共5页
程序中大量分支指令的存在,严重制约了体系结构和编译器开发并行性的能力。有效发掘指令级并行性的一个主要挑战是要克服分支指令带来的限制。利用谓词执行可有效地删除分支,将分支指令转换为谓词代码,从而扩大了指令调度的范围并且删... 程序中大量分支指令的存在,严重制约了体系结构和编译器开发并行性的能力。有效发掘指令级并行性的一个主要挑战是要克服分支指令带来的限制。利用谓词执行可有效地删除分支,将分支指令转换为谓词代码,从而扩大了指令调度的范围并且删除了分支误测带来的性能损失。阐述了基于谓词代码的指令调度、软件流水、寄存器分配、指令归并等编译优化技术。设计并实现了一个基于谓词代码的指令调度算法。实验表明,对谓词代码进行编译优化,能有效提高指令并行度,缩短代码执行时间,提高程序性能。 展开更多
关键词 编译优化 指令级并行 谓词代码 指令调度
在线阅读 下载PDF
基于GCC的IF转换算法的分析与改进 被引量:1
20
作者 田祖伟 赵克佳 《计算机科学》 CSCD 北大核心 2005年第7期242-244,共3页
分支指令是发掘指令级并行(ILP)的一个主要障碍。IF转换能够有效地删除指令流中的分支,通过删除程序中的某些分支,将控制依赖转换为数据依赖,能够获得更好的调度效果。本文详细分析了GCC中基于IA-64谓词执行的IF转换算法,并改进了其算法... 分支指令是发掘指令级并行(ILP)的一个主要障碍。IF转换能够有效地删除指令流中的分支,通过删除程序中的某些分支,将控制依赖转换为数据依赖,能够获得更好的调度效果。本文详细分析了GCC中基于IA-64谓词执行的IF转换算法,并改进了其算法,实验数据表明,优化效果明显。 展开更多
关键词 转换算法 GCC 指令级并行 IA-64 删除程序 数据依赖 控制依赖 谓词执行 指令流 数据表
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部