期刊文献+
共找到55篇文章
< 1 2 3 >
每页显示 20 50 100
SIMD计算机的面向对象仿真方法 被引量:1
1
作者 王馨梅 张发存 崔杜武 《计算机工程》 EI CAS CSCD 北大核心 2005年第17期90-91,94,共3页
以网格互联型SIMD计算机为例,提出一个数据并行计算的面向对象仿真方法:首先对网格互联型SIMD计算机系统结构进行研究,抽象出其数学模型。然后在数学模型基础上,结合3个辅助表,设计出一个高度兼容的仿真机类,该类可实例化为不同结构参... 以网格互联型SIMD计算机为例,提出一个数据并行计算的面向对象仿真方法:首先对网格互联型SIMD计算机系统结构进行研究,抽象出其数学模型。然后在数学模型基础上,结合3个辅助表,设计出一个高度兼容的仿真机类,该类可实例化为不同结构参数及指令集的网格互联型SIMD计算机的仿真机对象。这种方法能大大提高计算机仿真软件的开发效率。 展开更多
关键词 仿真 面向对象设计 simd
在线阅读 下载PDF
SIMD代码中的向量访存优化研究 被引量:1
2
作者 徐金龙 赵荣彩 徐晓燕 《计算机科学》 CSCD 北大核心 2015年第12期18-22,共5页
向量程序来源于手工编写或由编译器自动生成。受限于编程人员和并行编译器的能力,得到的向量程序都存在一定的优化空间。优化编译器通常关注如何将串行程序向量化,但很少对向量程序进行优化。因此,提出了一种针对SIMD代码的向量访存优... 向量程序来源于手工编写或由编译器自动生成。受限于编程人员和并行编译器的能力,得到的向量程序都存在一定的优化空间。优化编译器通常关注如何将串行程序向量化,但很少对向量程序进行优化。因此,提出了一种针对SIMD代码的向量访存优化方法。该方法首先分析程序是否需要优化,若存在需求,则对程序同时进行深度冗余优化和对齐优化。实验数据显示,提出的方法可以明显提高程序的运行效率,达到了目标。 展开更多
关键词 向量化 simd 访存冗余 对齐优化
在线阅读 下载PDF
基于MMX技术的SIMD并行运算优化算法 被引量:1
3
作者 张剑 《传感技术学报》 CAS CSCD 北大核心 2005年第4期897-900,共4页
将面向对象思想引入到SAD值计算的并行操作过程中,并从SIMD并行运算的角度出发,给出了改进的图像组织优化算法,通过对MMX优化后的编码器速度的测试结果知,在目前H.264/AVC的视频编码上,该编码器的编码速度有明显地提高,为实现窄带中的... 将面向对象思想引入到SAD值计算的并行操作过程中,并从SIMD并行运算的角度出发,给出了改进的图像组织优化算法,通过对MMX优化后的编码器速度的测试结果知,在目前H.264/AVC的视频编码上,该编码器的编码速度有明显地提高,为实现窄带中的实时视频通信提供了保障。 展开更多
关键词 编码器 矢量 并行运算 单指令多数据
在线阅读 下载PDF
使用SIMD协处理器的高性能声码器
4
作者 高路 郭立 +1 位作者 韩琼磊 杨帆 《计算机工程与应用》 CSCD 北大核心 2009年第36期66-70,共5页
近年来,传统的SOC设计方法已无法跟上数据密集型应用的需求。采用了一种面向应用的设计思路,通过添加定制的协处理器和扩展指令集的方式来加速语音编解码算法。选用可配置的LEON-2RISC软核,并嵌入特别定制的向量乘累加单元来减少运算密... 近年来,传统的SOC设计方法已无法跟上数据密集型应用的需求。采用了一种面向应用的设计思路,通过添加定制的协处理器和扩展指令集的方式来加速语音编解码算法。选用可配置的LEON-2RISC软核,并嵌入特别定制的向量乘累加单元来减少运算密集型模块的计算时间,采用不添加新的IP模块的方法改善性能。实验结果表明,对于大量使用乘累加运算的编解码算法,其加速效果最为明显,运算时间平均减少了45%。目前,整个系统已经在Stratix2 EP2S60C5 FPGA上得到了验证,频率50MHz。 展开更多
关键词 单指令多数据 指令集 协处理器 并行
在线阅读 下载PDF
基于SIMD架构的相干累加运算优化方法
5
作者 陈源 王元钦 董绪荣 《计算机工程》 CAS CSCD 北大核心 2011年第20期268-270,共3页
针对软件GPS接收机在处理高数据流时存在的实时性问题,提出一种基于单指令多数据流(SIMD)架构的相干运算优化方法。分析跟踪环路结构、SIMD指令与相干积分累加运算量,使用多媒体扩展指令集对流水线进行优化。实验结果表明,完成1 s数据... 针对软件GPS接收机在处理高数据流时存在的实时性问题,提出一种基于单指令多数据流(SIMD)架构的相干运算优化方法。分析跟踪环路结构、SIMD指令与相干积分累加运算量,使用多媒体扩展指令集对流水线进行优化。实验结果表明,完成1 s数据的相干积分累加计算时间为0.7 s,该运算量仅为使用普通单指令多数据流指令的6.5%,具有较高的实时性。 展开更多
关键词 单指令多数据流技术 GPS软件 相干积分 流水线优化
在线阅读 下载PDF
基于Floyd-Steinberg误差扩散的数字半调高效计算
6
作者 廉凯成 杨晨 +1 位作者 朱佳伟 柴志雷 《计算机工程与科学》 北大核心 2025年第5期875-884,共10页
针对工业界采用的主流数字半调算法——Floyd-Steinberg误差扩散算法在处理日益增大的图像数据时存在的数据依赖严重、可并行性低和实时性差等问题,提出高效计算方法。首先,通过预生成像素-误差扩散值查找表避免了频繁的误差和扩散过程... 针对工业界采用的主流数字半调算法——Floyd-Steinberg误差扩散算法在处理日益增大的图像数据时存在的数据依赖严重、可并行性低和实时性差等问题,提出高效计算方法。首先,通过预生成像素-误差扩散值查找表避免了频繁的误差和扩散过程计算;其次,通过基于行缓冲的高效数据结构实现访存优化;再次,提出误差累加单指令多数据SIMD并行方法,使用AVX-512指令集并行累加多个像素同向误差,增强CPU中矢量寄存器的作用;最后,通过边缘误差限制的列分块方法实现多核数据并行,同时消除由于数据并行处理时边界部分数据依赖导致的误差问题。实验结果表明:本文提出的优化算法具有良好的规模伸缩性,计算性能随最佳并行核心数量线性提升;与传统的Floyd-Steinberg误差扩散算法相比,在16核Intel Core TM i7-11700 CPU平台上处理5120×5120灰度图时,获得15倍性能提升,仅需23 ms即可完成处理,更好地满足大规模、超大幅面、超高分辨率和多变内容的工业高速印刷的需求。 展开更多
关键词 数字半调 Floyd-Steinberg误差扩散 单指令多数据 并行计算
在线阅读 下载PDF
用SIMD计算机执行MIMD
7
作者 曾国荪 《江西师范大学学报(自然科学版)》 CAS 1993年第2期133-136,165,共5页
SIMD计算机不能直接执行MIMD语言,但通过SIMD解释程序器能够执行,这个解释程序器克服了只允许单指令流的SIMD限制,将MIMD的进程当做解释程序器的数据(SIMD中的MD),而解释程序器本身是一个单指令流.应用于MIMD程序的SIMD解释程序器运行,... SIMD计算机不能直接执行MIMD语言,但通过SIMD解释程序器能够执行,这个解释程序器克服了只允许单指令流的SIMD限制,将MIMD的进程当做解释程序器的数据(SIMD中的MD),而解释程序器本身是一个单指令流.应用于MIMD程序的SIMD解释程序器运行,速度取决于解释程序器中Loop的组织,并且组织的优化又取决于MIMD程序的执行.本文通过引入Markov链模型,给出一个自适应算法,对在解释程序器Loop中的原始指令进行动态优比排序,即重新组织,使代码执行效率提高. 展开更多
关键词 单指令多数据 计算机 多指令多数据
在线阅读 下载PDF
基于SIMD的并行傅里叶空间图像相似度计算 被引量:5
8
作者 郭渝洛 边浩东 +3 位作者 董润婷 唐嘉豪 王晓英 黄建强 《计算机工程》 CAS CSCD 北大核心 2021年第11期247-253,共7页
在冷冻电镜三维重建计算模型中,傅里叶空间图像相似度算法被频繁调用,大量的计算开销导致模型整体运行速度变慢。针对该问题,提出一种基于SIMD的并行傅里叶空间图像相似度算法。通过手动负载均衡方式最大化CPU的线程使用率,添加AVX-512... 在冷冻电镜三维重建计算模型中,傅里叶空间图像相似度算法被频繁调用,大量的计算开销导致模型整体运行速度变慢。针对该问题,提出一种基于SIMD的并行傅里叶空间图像相似度算法。通过手动负载均衡方式最大化CPU的线程使用率,添加AVX-512指令集增强CPU矢量寄存器的作用,同时设计高效的数据结构提升内存访问效率。在Intel Xeon Platinum 9242平台上的实验结果表明,与原始的OpenMP并行模型相比,经该算法优化后的程序可获得平均5.132倍的加速比,并且具有较强的鲁棒性。 展开更多
关键词 冷冻电镜 负载均衡 缓存 单指令多数据流矢量化 傅里叶空间 图像相似度计算 并行计算
在线阅读 下载PDF
SIMD非对齐访存结构设计与实现 被引量:3
9
作者 余成龙 王永文 《计算机工程》 CAS CSCD 北大核心 2016年第9期1-4,共4页
单指令流多数据流(SIMD)是实现数据级并行的有效方法,但访问地址非对齐的数据严重影响程序的向量化,造成处理器性能下降。为降低非对齐访存延时,对高性能应用程序的访存结构进行建模,设计并实现SIMD分离缓冲行非对齐访存结构与双体cach... 单指令流多数据流(SIMD)是实现数据级并行的有效方法,但访问地址非对齐的数据严重影响程序的向量化,造成处理器性能下降。为降低非对齐访存延时,对高性能应用程序的访存结构进行建模,设计并实现SIMD分离缓冲行非对齐访存结构与双体cache非对齐访存结构。实验结果表明,在双体cache非对齐访存结构下,通过两数组相加与SIMD向量化实现的非对齐访存代码可达到对齐访存代码性能的99%,提高了SIMD向量化的访存效率。 展开更多
关键词 高性能计算 数据级并行 向量化 单指令流多数据流扩展 非对齐访存 Gem5模拟器
在线阅读 下载PDF
SIMD计算机的优化编译器设计 被引量:2
10
作者 赵辉 黄石 《计算机工程》 CAS CSCD 北大核心 2009年第1期201-203,206,共4页
利用处理器的相关资源,提高编译器优化性能和增强代码可适应性是SIMD处理器优化编译的关键。该文基于M语言和LSSIMD体系结构,结合现代编译器的编译技术,提出针对SIMD协处理器编译器的优化和实现方法,包括寄存器分配、单值合并、代码压... 利用处理器的相关资源,提高编译器优化性能和增强代码可适应性是SIMD处理器优化编译的关键。该文基于M语言和LSSIMD体系结构,结合现代编译器的编译技术,提出针对SIMD协处理器编译器的优化和实现方法,包括寄存器分配、单值合并、代码压缩等。实验结果表明,编译生成的目标代码准确、高效。 展开更多
关键词 M语言 LS simd协处理器 编译器
在线阅读 下载PDF
分簇VLIW DSP上支持单双字模式选择的SIMD编译优化 被引量:2
11
作者 黄胜兵 郑启龙 郭连伟 《计算机应用》 CSCD 北大核心 2015年第8期2371-2374,共4页
BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIM... BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIMD指令提供支持。由于BWDSP100拥有丰富的SIMD向量化资源,且其所运用的雷达数字信号处理领域对程序的性能要求极高,因此针对BWDSP100结构的特点,在传统Open64编译器中SIMD编译优化框架的基础上提出并实现了一种支持单双字模式选择的SIMD编译优化算法,通过该算法可以显著提高一些在DSP上有着广泛运用计算密集型程序的性能。实验结果表明,与优化前相比,该算法方案在BWDSP编译器上的实现能够平均取得5.66的加速比。 展开更多
关键词 编译优化 指令级并行 分簇体系数字信号处理器 超长指令字 单指令多数据流 Open64编译器
在线阅读 下载PDF
软件SIMD的研究及应用 被引量:1
12
作者 卜士喜 竺红卫 《计算机工程》 CAS CSCD 北大核心 2010年第19期53-55,共3页
介绍软件SIMD技术,在不支持SIMD架构的处理器上使用该技术实现寄存器高低字节的并行运算,提高处理器的速度。软件SIMD包括基本的加减法运算、乘法运算和点积运算。在现有研究的基础上,解决包含负数的点积运算、复数运算中应用软件SIMD... 介绍软件SIMD技术,在不支持SIMD架构的处理器上使用该技术实现寄存器高低字节的并行运算,提高处理器的速度。软件SIMD包括基本的加减法运算、乘法运算和点积运算。在现有研究的基础上,解决包含负数的点积运算、复数运算中应用软件SIMD技术的问题,使其能广泛应用于数字信号处理等领域。 展开更多
关键词 单指令多数据流 软件simd 并行运算 数字信号处理
在线阅读 下载PDF
EDO-SIMD:内嵌数据组织的SIMD多媒体扩展指令集
13
作者 刘坤杰 秦兴 +2 位作者 严晓浪 李德贤 彭剑英 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2008年第4期565-570,共6页
针对单指令多数据(SIMD)并行多媒体扩展在图像和视频等媒体应用中数据组织和存取等非有效计算开销过大的问题,采用嵌入式处理器面向应用定制指令集的设计思路,通过将数据组织与计算或存取相融合,设计了内嵌数据组织和可变长向量存取两... 针对单指令多数据(SIMD)并行多媒体扩展在图像和视频等媒体应用中数据组织和存取等非有效计算开销过大的问题,采用嵌入式处理器面向应用定制指令集的设计思路,通过将数据组织与计算或存取相融合,设计了内嵌数据组织和可变长向量存取两类特殊扩展指令,并与其他基本指令构成了EDO-SIMD(embedded data organi-zation SIMD)多媒体扩展指令集.性能测试结果表明,EDO-SIMD指令体系可显著降低典型媒体应用核心的非有效计算开销,并提高数据级并行效率. 展开更多
关键词 多媒体处理 单指令多数据 内嵌数据组织
在线阅读 下载PDF
基于SIMD结构的矩形行列式并行算法研究
14
作者 王艾昕 《计算机工程与应用》 CSCD 2012年第25期48-51,56,共5页
在运用行列式Schur余子式算法的理论基础上,提出了对SIMD结构的并行机,可适用于对行列式按行分块并行处理算法,把一个n阶行列式的求值过程分解成相对独立的若干个二阶行列式的求值过程,而且它们的求值过程是相对独立的,具有并行性,从而... 在运用行列式Schur余子式算法的理论基础上,提出了对SIMD结构的并行机,可适用于对行列式按行分块并行处理算法,把一个n阶行列式的求值过程分解成相对独立的若干个二阶行列式的求值过程,而且它们的求值过程是相对独立的,具有并行性,从而设计出n阶行列式求值的并行算法。给出了该算法的实现步骤,分析了算法的加速比;对算法进行了模拟实验,结果说明了其性能。 展开更多
关键词 单指令多数据流 并行计算机 并行算法 加速比
在线阅读 下载PDF
SIMD并行运算的参考图像组织方法 被引量:1
15
作者 李学渊 《传感技术学报》 EI CAS CSCD 北大核心 2006年第1期183-186,共4页
从单指令多数据并行运算的角度出发,将面向对象的思想引入到SAD值计算的并行操作过程中,给出了一种改进的图像组织优化算法,通过对多个标准测试序列进行运动预测的测试结果知,在当前最复杂的视频编码H.264/AVC上,该算法的实施可以明显... 从单指令多数据并行运算的角度出发,将面向对象的思想引入到SAD值计算的并行操作过程中,给出了一种改进的图像组织优化算法,通过对多个标准测试序列进行运动预测的测试结果知,在当前最复杂的视频编码H.264/AVC上,该算法的实施可以明显地提高编码器的编码速度,为实现窄带中的实时视频通信提供了保障。 展开更多
关键词 单指令多数据 帧问编码 并行运算 运动预测
在线阅读 下载PDF
x86处理器向量条件访存指令安全脆弱性分析
16
作者 李丹萍 朱子元 +1 位作者 史岗 孟丹 《计算机学报》 EI CAS CSCD 北大核心 2024年第3期525-543,共19页
单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化... 单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化处理的需求不断提高,这使得SIMD技术愈发重要.为了支持SIMD技术,Intel和AMD等x86处理器厂商从1996年开始在其处理器中陆续引入了MMX(MultiMedia Extensions)、SSE(Streaming SIMD Extensions)、AVX(Advanced Vector eXtensions)等SIMD指令集扩展.通过调用SIMD指令,程序员能够无需理解SIMD技术的硬件层实现细节就方便地使用它的功能.然而,随着熔断、幽灵等处理器硬件漏洞的发现,人们逐渐认识到并行优化技术是一柄双刃剑,它在提高性能的同时也能带来安全风险.本文聚焦于x86 SIMD指令集扩展中的VMASKMOV指令,对它的安全脆弱性进行了分析.本文的主要贡献如下:(1)利用时间戳计数器等技术对VMASKMOV指令进行了微架构逆向工程,首次发现VMASKMOV指令与内存页管理和CPU Fill Buffer等安全风险的相关性;(2)披露了一个新的处理器漏洞EvilMask,它广泛存在于Intel和AMD处理器上,并提出了3个EvilMask攻击原语:VMASKMOVL+Time(MAP)、VMASKMOVS+Time(XD)和VMASKMOVL+MDS,可用于实施去地址空间布局随机化攻击和进程数据窃取攻击;(3)给出了2个EvilMask概念验证示例(Proof-of-Concept,PoC)验证了EvilMask对真实世界的信息安全危害;(4)讨论了针对EvilMask的防御方案,指出最根本的解决方法是在硬件层面上重新实现VMASKMOV指令,并给出了初步的实现方案. 展开更多
关键词 处理器安全 单指令多数据流(simd) 微体系结构侧信道攻击 VMASKMOV指令 地址空间布局随机化(ASLR)
在线阅读 下载PDF
便笺式存储器中一种新颖的交错映射数据布局
17
作者 曾灵灵 张敦博 +1 位作者 沈立 窦强 《计算机工程》 CAS CSCD 北大核心 2024年第5期33-40,共8页
现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案... 现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案是对原始矩阵进行预先转置操作,将列优先访问的复杂性集中在一次矩阵转置运算中,然而矩阵转置不仅会引入额外的数据传输操作,而且会消耗额外的存储空间用于存储转置后的矩阵。为了在不引入额外开销的情况下使行优先与列优先数据访问具有同样高效的访存效率,提出一种新颖的交错映射(IM)数据布局,同时在不改变便笺式存储器(SPM)内部结构的基础上,在SPM的输入和输出(I/O)接口处添加循环移位单元和译码单元2个新组件,实现交错映射数据布局并定制访存指令,使程序员可通过定制的访存指令充分利用该数据布局。实验结果表明,应用交错映射数据布局的SPM在仅额外增加了1.73%面积开销的情况下获得了1.4倍的加速。 展开更多
关键词 矩阵转置 单指令多数据 便笺式存储器 数据布局 静态随机存储器
在线阅读 下载PDF
基于指令级并行的倒排索引压缩算法 被引量:7
18
作者 闫宏飞 张旭东 +2 位作者 单栋栋 毛先领 赵鑫 《计算机研究与发展》 EI CSCD 北大核心 2015年第5期995-1004,共10页
文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在... 文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在已有倒排链压缩算法PackedBinary和PForDelta的基础上,利用CPU的超标量特性和SIMD向量指令集,将其压缩和解压缩中的关键步骤并行化,提出了2种指令级并行压缩算法SIMD-PB和SIMD-PFD.基于GOV2和ClueWeb09B两个公开数据集的实验表明,SIMD-PB和SIMD-PFD算法在压缩率不变的情况下,压缩和解压缩速度比现有的压缩算法均有非常明显的提升.其中解压缩速度比起目前最好的倒排链压缩算法,最高能提升17%.此外,实验表明算法在较长的倒排链、较大的压缩块单位上有更好的解压缩性能. 展开更多
关键词 单指令多数据流 倒排索引 压缩 整数编码 信息检索
在线阅读 下载PDF
面向SLP的多重循环向量化 被引量:13
19
作者 魏帅 赵荣彩 姚远 《软件学报》 EI CSCD 北大核心 2012年第7期1717-1728,共12页
如今,越来越多的处理器集成了SIMD(single instruction multiple data)扩展,现有的编译器大多也实现了自动向量化的功能,但是一般都只针对最内层循环进行向量化,对于多重循环缺少一种通用、易行的向量化方法.为此,提出了一种面向SLP(sup... 如今,越来越多的处理器集成了SIMD(single instruction multiple data)扩展,现有的编译器大多也实现了自动向量化的功能,但是一般都只针对最内层循环进行向量化,对于多重循环缺少一种通用、易行的向量化方法.为此,提出了一种面向SLP(superword level parallelism)的多重循环向量化方法,从外至内依次对各个循环层次进行分析,收集各层循环对应的一些影响向量化效果的属性值,主要包括能否对该循环进行直接循环展开和压紧、有多少数组引用相对于该循环索引连续以及该循环所包含的区域等,然后根据这些属性值决定在哪些循环层次进行直接循环展开和压紧,最后通过SLP对循环中的语句进行向量化.实验结果表明,该算法相对于内层循环向量化和简单的外层循环向量化平均加速比提升了2.13和1.41,对于一些常用的核心循环可以得到高达5.3的加速比. 展开更多
关键词 simd 向量化 依赖关系分析 多重循环 超字并行
在线阅读 下载PDF
基于编译指示的向量化方法 被引量:3
20
作者 姚远 赵荣彩 《计算机工程》 CAS CSCD 2012年第12期272-275,共4页
编译器由于程序分析能力不足,无法自动实现循环向量化或者会造成盲目自动向量化。为此,提出一种基于编译指示的向量化方法。通过在代码中插入向量化编译指示语句,指导自动向量化编译工具的处理过程,自动生成高效的向量化代码。测试结果... 编译器由于程序分析能力不足,无法自动实现循环向量化或者会造成盲目自动向量化。为此,提出一种基于编译指示的向量化方法。通过在代码中插入向量化编译指示语句,指导自动向量化编译工具的处理过程,自动生成高效的向量化代码。测试结果表明,该方法能够有效提高目标代码的运行性能。 展开更多
关键词 单指令多数据流 自动向量化 数据依赖关系 编译指示 循环不变量 向量寄存器
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部