期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
x86处理器向量条件访存指令安全脆弱性分析
1
作者 李丹萍 朱子元 +1 位作者 史岗 孟丹 《计算机学报》 EI CAS CSCD 北大核心 2024年第3期525-543,共19页
单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化... 单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化处理的需求不断提高,这使得SIMD技术愈发重要.为了支持SIMD技术,Intel和AMD等x86处理器厂商从1996年开始在其处理器中陆续引入了MMX(MultiMedia Extensions)、SSE(Streaming SIMD Extensions)、AVX(Advanced Vector eXtensions)等SIMD指令集扩展.通过调用SIMD指令,程序员能够无需理解SIMD技术的硬件层实现细节就方便地使用它的功能.然而,随着熔断、幽灵等处理器硬件漏洞的发现,人们逐渐认识到并行优化技术是一柄双刃剑,它在提高性能的同时也能带来安全风险.本文聚焦于x86 SIMD指令集扩展中的VMASKMOV指令,对它的安全脆弱性进行了分析.本文的主要贡献如下:(1)利用时间戳计数器等技术对VMASKMOV指令进行了微架构逆向工程,首次发现VMASKMOV指令与内存页管理和CPU Fill Buffer等安全风险的相关性;(2)披露了一个新的处理器漏洞EvilMask,它广泛存在于Intel和AMD处理器上,并提出了3个EvilMask攻击原语:VMASKMOVL+Time(MAP)、VMASKMOVS+Time(XD)和VMASKMOVL+MDS,可用于实施去地址空间布局随机化攻击和进程数据窃取攻击;(3)给出了2个EvilMask概念验证示例(Proof-of-Concept,PoC)验证了EvilMask对真实世界的信息安全危害;(4)讨论了针对EvilMask的防御方案,指出最根本的解决方法是在硬件层面上重新实现VMASKMOV指令,并给出了初步的实现方案. 展开更多
关键词 处理器安全 单指令多数据流(SIMD) 微体系结构侧信道攻击 VMASKMOV指令 地址空间布局随机化(ASLR)
在线阅读 下载PDF
基于申威SIMD指令的H.264编码优化 被引量:2
2
作者 黄朴 刘世巍 +1 位作者 张昊 王聪 《现代电子技术》 北大核心 2024年第6期49-54,共6页
国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIM... 国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIMD指令系统,提出一种基于申威架构的SIMD指令集H.264编码优化方法。结合申威处理器的并行结构特点,利用申威适配的Perf、Top指令等系统性能分析工具,采集两种主流视频分辨率下与编码性能强相关的高频热点函数,详细分析其程序并行化可行性,采用手工嵌入申威SIMD和访存扩展等汇编指令进行细粒度优化。实验结果表明,该方法在申威架构下的H.264平均编码性能提升了约30%。相应工作成果已推送到申威社区,增强了基于申威处理器的国产计算机在桌面多媒体应用领域的工作体验。 展开更多
关键词 单指令多数据流 H.264标准 申威处理器 热点函数 程序并行化 细粒度
在线阅读 下载PDF
基于指令级并行的倒排索引压缩算法 被引量:7
3
作者 闫宏飞 张旭东 +2 位作者 单栋栋 毛先领 赵鑫 《计算机研究与发展》 EI CSCD 北大核心 2015年第5期995-1004,共10页
文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在... 文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在已有倒排链压缩算法PackedBinary和PForDelta的基础上,利用CPU的超标量特性和SIMD向量指令集,将其压缩和解压缩中的关键步骤并行化,提出了2种指令级并行压缩算法SIMD-PB和SIMD-PFD.基于GOV2和ClueWeb09B两个公开数据集的实验表明,SIMD-PB和SIMD-PFD算法在压缩率不变的情况下,压缩和解压缩速度比现有的压缩算法均有非常明显的提升.其中解压缩速度比起目前最好的倒排链压缩算法,最高能提升17%.此外,实验表明算法在较长的倒排链、较大的压缩块单位上有更好的解压缩性能. 展开更多
关键词 单指令多数据流 倒排索引 压缩 整数编码 信息检索
在线阅读 下载PDF
使用游程编码和SIMD指令集的快速图像融合 被引量:1
4
作者 赵毅力 徐丹 +1 位作者 钱文华 张雁 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2016年第4期624-632,共9页
图像融合是图像拼接中的一个重要步骤,用于生成无缝的融合图像.针对当前高分辨率图像融合算法速度较慢的问题,提出一种基于多频带的快速图像融合方法.首先通过进行2遍距离变换生成一幅接缝图像,并根据这幅接缝图像生成每一幅输入图像的... 图像融合是图像拼接中的一个重要步骤,用于生成无缝的融合图像.针对当前高分辨率图像融合算法速度较慢的问题,提出一种基于多频带的快速图像融合方法.首先通过进行2遍距离变换生成一幅接缝图像,并根据这幅接缝图像生成每一幅输入图像的蒙版图像,这个过程与输入图像的次序无关,并且具有良好的可扩展性;其次使用游程编码对蒙版图像进行压缩编码,生成每一幅蒙版图像的高斯金字塔,并利用SIMD指令集生成输入图像的拉普拉斯金字塔;最后使用SIMD指令集完成拉普拉斯金字塔重构,得到一幅无缝的融合图像.在实验中对2组数据集进行测试,结果表明该方法能够高效地合成高质量的融合图像.与已有的图像融合方法相比,文中方法运行速度更快、内存使用较少、具有更好的并行性,更适合于目前的多核处理器架构. 展开更多
关键词 图像拼接 接缝处理 多频带融合 游程编码 单指令多数据流
在线阅读 下载PDF
基于SSE指令的大内存快速拷贝 被引量:1
5
作者 钱昌松 刘志刚 刘代志 《计算机应用研究》 CSCD 北大核心 2005年第2期113-114,120,共3页
在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各... 在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各内存拷贝函数拷贝速度与拷贝内存量之间的对应关系。 展开更多
关键词 单指令多数据流扩展指令 内存拷贝 MMX 代码优化
在线阅读 下载PDF
海量STAP数据的脉冲压缩快速实现
6
作者 任磊 王永良 +1 位作者 母其勇 陈辉 《数据采集与处理》 CSCD 北大核心 2008年第3期342-346,共5页
在空时二维自适应处理系统中对海量数据作脉压处理耗时颇大。本文基于单片数字信号处理器(DSP)从数据级和指令级两个方面进行优化,通过合理调度处理器资源并利用片内并行技术,快速实现了对海量数据的脉冲压缩优化处理。以空时二维自适... 在空时二维自适应处理系统中对海量数据作脉压处理耗时颇大。本文基于单片数字信号处理器(DSP)从数据级和指令级两个方面进行优化,通过合理调度处理器资源并利用片内并行技术,快速实现了对海量数据的脉冲压缩优化处理。以空时二维自适应处理(STAP)系统中单景四重频数据为分析对象,比较了采用商业库优化方法和本文方法优化后的两种情况。实验结果证明,在处理时间上取得了1.801的加速比,误差控制在10-5量级,1 024点脉压处理时间为50.456μs,验证了本文方法的有效性。 展开更多
关键词 脉冲压缩 海量数据 单指令多数据流(SIMD) 超长指令字(VLIW) TS201
在线阅读 下载PDF
多核架构下的数据处理算法优化策略综述 被引量:7
7
作者 陈伟 杜凌霞 陈红 《计算机科学与探索》 CSCD 2011年第12期1057-1075,共19页
多核处理器,尤其是单芯片多处理器(chip multi-processor,CMP)能够提供强大的共享内存的并行资源,然而单核处理器上的程序和算法并不能充分利用多核架构提供的并行计算资源,因此必须针对多核体系架构特点,对算法进行改进优化,提高算法... 多核处理器,尤其是单芯片多处理器(chip multi-processor,CMP)能够提供强大的共享内存的并行资源,然而单核处理器上的程序和算法并不能充分利用多核架构提供的并行计算资源,因此必须针对多核体系架构特点,对算法进行改进优化,提高算法的执行性能。以优化程序局部性、减少cache访问冲突、提高线程并行度、充分利用单指令多数据流(single instruction multipledata,SIMD)并行和带宽优化等几方面为出发点,归纳和分析了多核处理器上数据处理算法的相关优化策略,并对多核算法进行了总结评述。最后阐述了该领域亟待解决的诸多问题,展望了未来的研究发展方向。 展开更多
关键词 多核 单芯片多处理器(CMP) 数据级别并行(DLP) 线程级别并行(TLP) 单指令多数据流(SIMD)
在线阅读 下载PDF
面向DSP的超字并行指令分析和冗余优化算法 被引量:1
8
作者 索维毅 赵荣彩 +1 位作者 姚远 刘鹏 《计算机应用》 CSCD 北大核心 2012年第12期3303-3307,共5页
如今单指令多数据流(SIMD)技术在数字信号处理器(DSP)上得到了广泛的应用,现有的向量化编译器大多都实现了自动向量化的功能,但是编译器并不适合支持DSP为特征的SIMD自动向量化,主要由于DSP复杂的指令集、特有的寻址模型,以及依赖关系... 如今单指令多数据流(SIMD)技术在数字信号处理器(DSP)上得到了广泛的应用,现有的向量化编译器大多都实现了自动向量化的功能,但是编译器并不适合支持DSP为特征的SIMD自动向量化,主要由于DSP复杂的指令集、特有的寻址模型,以及依赖关系或者数据非对齐等原因而导致向量化效率不高。为了解决此问题,在基于Open64的超字并行(SLP)自动向量化编译系统后端,对SLP自动向量化中的指令分析和冗余优化算法进行了添加和改进,生成更加高效的向量化源程序。实验结果表明,该优化方法能有效提高DSP性能并降低功耗。 展开更多
关键词 单指令多数据流 数字信号处理器 自动向量化 冗余优化 Open64
在线阅读 下载PDF
基于媒体指令的二维DCT快速计算 被引量:2
9
作者 于倩 邵洋 +2 位作者 张铁军 王东辉 李伟 《计算机工程》 CAS CSCD 北大核心 2007年第12期25-27,共3页
二维DCT变换是视频编码协议H.264和MPEG系列标准的主要运算之一。传统的处理器中的运算无法满足视频编/解码的实时性要求。针对二维DCT变换,该文提出了和媒体指令相适应的数据结构和计算方法,最大限度地利用媒体指令的运算能力,在软件... 二维DCT变换是视频编码协议H.264和MPEG系列标准的主要运算之一。传统的处理器中的运算无法满足视频编/解码的实时性要求。针对二维DCT变换,该文提出了和媒体指令相适应的数据结构和计算方法,最大限度地利用媒体指令的运算能力,在软件设计时避免了数据相关带来的性能下降。实验证明这种快速计算的实现方法能够满足视频应用的实时要求,为编译器设计提供了具有实用性的参考。 展开更多
关键词 媒体指令 单指令多数据流 DCT
在线阅读 下载PDF
高性能可重构DSP处理器的数据通路设计 被引量:1
10
作者 韩亮 李莺 +1 位作者 张馨 陈杰 《电子科技大学学报》 EI CAS CSCD 北大核心 2005年第2期194-197,共4页
介绍了高性能定点可重构DSP处理器的数据通路设计。该数据通路以功能强大的16位定点计算单元为基础,搭建起高速16位数据处理平台;并能以单指令流多数据流的方式灵活支持多维向量运算;通过重构的方法有效地支持了32位数据处理。
关键词 数字信号处理 数据通路 可重构 单指令多数据流 并行处理
在线阅读 下载PDF
AES算法的SIMD指令集扩展方法与实现
11
作者 卢仕听 王帅 +1 位作者 韩军 曾晓洋 《计算机工程》 CAS CSCD 北大核心 2011年第6期121-123,共3页
基于MIPS32 4k系列的处理器架构,提出一种AES算法的SIMD指令集扩展方法,利用处理器流水线对齐级和AES数据访问单元,实现64 bit数据位宽的并行处理操作。对不同实现方式的性能进行比较,结果表明,该方法的加解密运算性能有较大提高,硬件... 基于MIPS32 4k系列的处理器架构,提出一种AES算法的SIMD指令集扩展方法,利用处理器流水线对齐级和AES数据访问单元,实现64 bit数据位宽的并行处理操作。对不同实现方式的性能进行比较,结果表明,该方法的加解密运算性能有较大提高,硬件代价相对较小,且具有编程灵活性。 展开更多
关键词 单指令多数据流 高等加密标准 指令集扩展
在线阅读 下载PDF
面向申威众核处理器的规则处理优化技术
12
作者 张振东 王彤 刘鹏 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期66-85,共20页
高性能口令恢复系统是申威众核处理器的重要应用场景之一,规则处理是主流口令恢复工具中被广泛应用的一种口令生成方式.现有相关研究工作缺少对规则处理算法的优化,导致申威处理器上基于规则的口令生成速度成为口令恢复系统的性能瓶颈.... 高性能口令恢复系统是申威众核处理器的重要应用场景之一,规则处理是主流口令恢复工具中被广泛应用的一种口令生成方式.现有相关研究工作缺少对规则处理算法的优化,导致申威处理器上基于规则的口令生成速度成为口令恢复系统的性能瓶颈.通过分析规则处理算法的多层次可并行性,提出了面向申威众核处理器的线程级、数据级优化方案.在线程级优化方案中,探索了规则处理算法的最优任务映射方式,设计了主从核任务分配机制、从核缓冲区配比优化机制、负载均衡机制、变长规则存储机制等技术以提高并行效率;在数据级优化方案中,分析了规则处理算法中规则函数的计算模式,并通过申威SIMD指令集对规则函数进行向量优化以提高执行效率.在SW26010处理器上的实验结果表明,上述优化方案有效解除了规则处理的性能瓶颈,使规则模式下的口令恢复速度提升了30~101倍. 展开更多
关键词 申威众核处理器 口令恢复 规则处理 异构计算 单指令多数据流
在线阅读 下载PDF
一种高效的面向基2 FFT算法的SIMD并行存储结构 被引量:7
13
作者 陈海燕 杨超 +1 位作者 刘胜 刘仲 《电子学报》 EI CAS CSCD 北大核心 2016年第2期241-246,共6页
随着SIMD(Single Instruction Multiple Data stream)结构DSP(Digital Signal Processor)片上集成了越来越多的处理单元,并行访存的灵活性及带宽效率对实际运算性能的影响越来越大.本文详细分析了一般SIMD结构DSP中基2 FFT(Fast Fo... 随着SIMD(Single Instruction Multiple Data stream)结构DSP(Digital Signal Processor)片上集成了越来越多的处理单元,并行访存的灵活性及带宽效率对实际运算性能的影响越来越大.本文详细分析了一般SIMD结构DSP中基2 FFT(Fast Fourier Transform)并行算法面临的访存问题,采用简单的部分地址异或逻辑完成SIMD并行访存地址转换,实现了FFT运算的无冲突SIMD并行访存;提出了几种带特殊混洗模式的向量访存指令,可完全消除SIMD结构下基2FFT运算时需要的额外混洗指令操作.最后将其应用于某16路SIMD数字信号处理器YHFT-Matrix2中向量存储器VM的优化设计.测试结果表明,采用该SIMD并行存储结构优化的VM以增加18%的硬件开销实现了FFT运算全流水无冲突并行访存和100%并行访存带宽利用率;相比优化前的设计,不同点数FFT运算可获得1.32~2.66的加速比. 展开更多
关键词 快速傅里叶变换 单指令多数据流 低位交叉 并行存储 访问冲突 数据混洗
在线阅读 下载PDF
DSP体系结构发展的新趋势 被引量:5
14
作者 黄 峰 李胜平 +2 位作者 朱全庆 熊召新 邹雪城 《计算机工程》 CAS CSCD 北大核心 2002年第4期1-2,218,共3页
CISC→RISC设计思想对DSP体系结构设计中数据和指令级并行性开发产生了深刻影响,融合RISC和SIMD技术的单核处理器已经成为DSP体系结构设计的新趋势。
关键词 超长指令 单指令多数据流 数据级并行性 指令级并行性 DSP 数字信号处理器 体系结构 单核处理器
在线阅读 下载PDF
阵列众核处理器上的高效归并排序算法 被引量:6
15
作者 石嵩 李宏亮 朱巍 《计算机研究与发展》 EI CSCD 北大核心 2016年第2期362-373,共12页
排序是计算机科学中最基本的问题之一,随着众核处理器结构的不断发展,设计众核结构上的高效排序算法具有重要意义.众核处理器的一个重要方向是阵列众核处理器,根据阵列众核处理器的结构特点,提出了2种面向阵列众核结构的高效归并排序算... 排序是计算机科学中最基本的问题之一,随着众核处理器结构的不断发展,设计众核结构上的高效排序算法具有重要意义.众核处理器的一个重要方向是阵列众核处理器,根据阵列众核处理器的结构特点,提出了2种面向阵列众核结构的高效归并排序算法,通过利用DMA(direct memory access)多缓冲机制提高访存效率、深度平衡归并策略保持众多核心之间的负载均衡、SIMD(single instruction multiple data)归并方法提高归并计算效率以及片上交换归并策略提高片上数据重用率,大幅度提高了阵列众核处理器的排序性能.在异构融合阵列众核处理器DFMC(deeply-fused many-core)原型系统的实验结果表明,算法排序速度达647MKeys/s(million keys per second),其排序效率(排序速度/峰值性能)是NVIDIA GPU上最快的归并排序算法(GTX580平台)的3.3倍,是Intel Xeon Phi上最快的归并排序算法的2.7倍.最后,建立了阵列众核处理器上归并排序算法的性能分析模型,利用该模型分析了主要结构参数与算法性能的关系,对阵列众核处理器的研究有一定的指导意义. 展开更多
关键词 阵列众核 归并排序 排序网络 单指令多数据流 单程序多数据流 片上通信
在线阅读 下载PDF
基于华睿1号的高性能数字脉压设计和实现 被引量:4
16
作者 周海斌 刘刚 李明 《现代雷达》 CSCD 北大核心 2012年第4期28-31,35,共5页
华睿1号是我国自主研制的一款4核微处理器,该处理器内部集成了矢量处理部件,扩展了包含快速傅里叶变换(FFT)蝶形运算指令在内的矢量指令集,具有很强的FFT运算和数字脉压处理能力。在嵌入式实时操作系统下的实测表明华睿1号单核处理1 02... 华睿1号是我国自主研制的一款4核微处理器,该处理器内部集成了矢量处理部件,扩展了包含快速傅里叶变换(FFT)蝶形运算指令在内的矢量指令集,具有很强的FFT运算和数字脉压处理能力。在嵌入式实时操作系统下的实测表明华睿1号单核处理1 024个单精度浮点复数FFT和数字脉压的运算时间分别为6.12μs和15.36μs,采用多线程FFT并行处理技术后,4核加速比可达3倍以上,满负荷功耗仅10 W,总体性能优于国内外同类处理器,适用于对实时性要求较高的雷达信号处理和电子对抗等领域。 展开更多
关键词 华睿1号 快速傅里叶变换 数字脉压 单指令多数据流 多线程 并行处理
在线阅读 下载PDF
基于软件无线电的并行多输入多输出均衡技术 被引量:3
17
作者 张拥军 陈艇 《计算机应用》 CSCD 北大核心 2015年第4期1179-1184,共6页
针对3GPP-LTE协议中多输入多输出(MIMO)均衡算法的高复杂度和高吞吐率问题,提出了一种面向软件无线电的并行MIMO均衡处理器,该处理器采用单指令流多数据流(SIMD)和超长指令字(VLIW)技术同时开发子载波间MIMO均衡和子载波内矩阵运算的并... 针对3GPP-LTE协议中多输入多输出(MIMO)均衡算法的高复杂度和高吞吐率问题,提出了一种面向软件无线电的并行MIMO均衡处理器,该处理器采用单指令流多数据流(SIMD)和超长指令字(VLIW)技术同时开发子载波间MIMO均衡和子载波内矩阵运算的并行性,并且每一个SIMD功能单元能够支持16 bit定点和20 bit伪浮点复数向量运算和矩阵运算,满足不同天线配置的MIMO均衡算法对处理精度、延迟和功耗的要求。实验结果表明,MIMO均衡处理器的4×4矩阵逆运算吞吐率达到了95 MInversion/s,满足3GPP-LTE协议的要求,并且其灵活可编程性和可配置性能够支持不同的均衡算法。 展开更多
关键词 多输入多输出均衡 软件无线电 单指令多数据流 矩阵逆运算 3GPP-LTE
在线阅读 下载PDF
基于编译指示的向量化方法 被引量:3
18
作者 姚远 赵荣彩 《计算机工程》 CAS CSCD 2012年第12期272-275,共4页
编译器由于程序分析能力不足,无法自动实现循环向量化或者会造成盲目自动向量化。为此,提出一种基于编译指示的向量化方法。通过在代码中插入向量化编译指示语句,指导自动向量化编译工具的处理过程,自动生成高效的向量化代码。测试结果... 编译器由于程序分析能力不足,无法自动实现循环向量化或者会造成盲目自动向量化。为此,提出一种基于编译指示的向量化方法。通过在代码中插入向量化编译指示语句,指导自动向量化编译工具的处理过程,自动生成高效的向量化代码。测试结果表明,该方法能够有效提高目标代码的运行性能。 展开更多
关键词 单指令多数据流 自动向量化 数据依赖关系 编译指示 循环不变量 向量寄存器
在线阅读 下载PDF
一种全同态加密的安全内积计算方案 被引量:1
19
作者 邓江 许春香 杨浩淼 《电子科技大学学报》 EI CAS CSCD 北大核心 2016年第5期808-811,共4页
在云计算环境下密文top-k检索的众多方法中,该文聚焦于同态加密方法,该公钥加密方法具有不解密就能对密文进行操作的优点。在密文top-k查询中,内积相似性是度量索引向量和查询向量的相似性的最常用的一个指标。该文提出一个安全计算两... 在云计算环境下密文top-k检索的众多方法中,该文聚焦于同态加密方法,该公钥加密方法具有不解密就能对密文进行操作的优点。在密文top-k查询中,内积相似性是度量索引向量和查询向量的相似性的最常用的一个指标。该文提出一个安全计算两向量内积相似性的方案,该方案使用基于环上错误学习问题的批处理和打包的同态加密来保护隐私。与其他方法相比,该方案具有通信代价低和计算代价低的优点。 展开更多
关键词 中国剩余定理 全同态加密 环上错误学习问题 单指令多数据流
在线阅读 下载PDF
一种基于HXDSP的移位器查找表技术 被引量:1
20
作者 叶鸿 顾乃杰 +2 位作者 林传文 张孝慈 陈瑞 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2019年第10期2044-2050,共7页
高性能信号处理应用的快速发展,对相应处理器的运算速度及吞吐效率提出了巨大挑战。移位器是数字信号处理器(DSP)上的重要部件,通过为移位器设计额外专用随机存取存储器(RAM)和查找表(LUT),并对其指令集及架构进行优化调整,从而达到提... 高性能信号处理应用的快速发展,对相应处理器的运算速度及吞吐效率提出了巨大挑战。移位器是数字信号处理器(DSP)上的重要部件,通过为移位器设计额外专用随机存取存储器(RAM)和查找表(LUT),并对其指令集及架构进行优化调整,从而达到提高处理器使用效率和传输速率的目的。此外,基于移位器与相应查找表指令,可在数据暂存的同时进行移位、提取、算术与逻辑运算处理,将部分数据运算的过程直接合并在对移位器RAM的数据存读取过程中,显著地提高了运算部件的使用效率。结果表明:基于移位器查找表的暂存技术可以达到与传输总线接近的吞吐率,对信号处理算法快速傅里叶变换(FFT)可以达到加速比约为1. 15~1. 20的性能提升效果。 展开更多
关键词 数字信号处理器(DSP) 移位器 查找表(LUT) 单指令多数据流(SIMD) 超长指令字(VLIW)
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部