期刊文献+
共找到158篇文章
< 1 2 8 >
每页显示 20 50 100
SIMD-to-RVV动态二进制翻译中的跨架构编程模型适配优化
1
作者 赖远明 李亚龙 +3 位作者 胡瀚之 谢梦瑶 王喆 武成岗 《计算机研究与发展》 北大核心 2025年第6期1469-1491,共23页
RISC-V因其开源和模块化设计等特性,已在嵌入式领域取得显著成功,并逐步向高性能计算(HPC)领域拓展.面向HPC的RISC-V硬件(如Sophon SG2042多核处理器)已展现出与x86/ARM同类型产品相当的性能水平,但不完善的软件生态是阻碍其发展的最大... RISC-V因其开源和模块化设计等特性,已在嵌入式领域取得显著成功,并逐步向高性能计算(HPC)领域拓展.面向HPC的RISC-V硬件(如Sophon SG2042多核处理器)已展现出与x86/ARM同类型产品相当的性能水平,但不完善的软件生态是阻碍其发展的最大障碍之一.开发了面向RISC-V的进程级动态二进制翻译(DBT)器RVBT,用于将成熟的x86软件生态移植到RISC-V平台,加速RISC-V在HPC领域的应用进程.针对HPC程序广泛依赖SIMD指令的特性,聚焦于解决SIMD与RVV间显著的编程模型差异导致的翻译性能瓶颈问题,提出了3项创新的优化方案.x86SIMD将数据类型硬编码于操作码,而RVV需动态配置vtype和掩码寄存器,这导致直接翻译产生了大量冗余操作,严重拉低了翻译运行的效率.通过充分利用程序数据类型的局部性,优化方案可删除跨架构适配编程模型导致的冗余设置,混合使用浮点扩展和向量扩展翻译SIMD指令并按需同步数据,大幅提升了SIMD指令的翻译运行效率.3项优化方案具备通用性,也适用于ARM平台的SIMD到RVV的翻译.实验表明,以SPECCPU2006作为测试集,优化方案对csrr,vsetvl,vsetvli指令的平均动态消除率分别达到了100%,100%和56.31%,在浮点测试集上,掩码设置操作的平均动态消除率达到了74.66%,数据的平均动态同步率为67.35%.优化后的RVBT在整点和浮点测试集上的平均运行效率达到了本地执行的47.39%和40.06%,相比优化前的加速比分别为1.21和8.31,并远超QEMU18.84%和4.81%,展现出了应用于部分HPC场景的潜力. 展开更多
关键词 二进制翻译 RISC-V向量扩展 x86simd 跨架构编程模型适配 浮点计算 冗余设置消除 混合翻译
在线阅读 下载PDF
面向申威平台的SIMD编程接口设计与研究
2
作者 姜军 顾晓阳 +2 位作者 徐坤坤 吕勇帅 黄亮明 《计算机科学》 北大核心 2025年第6期66-73,共8页
在国产申威处理器中,申威GCC编译器在对程序进行向量化时,使用自动向量化和内嵌汇编的方式很难对某些复杂的程序进行向量化,阻碍了国产申威处理器的性能发挥。针对部分程序不能向量化的问题,在申威GCC编译器中进行SIMD编程接口的设计与... 在国产申威处理器中,申威GCC编译器在对程序进行向量化时,使用自动向量化和内嵌汇编的方式很难对某些复杂的程序进行向量化,阻碍了国产申威处理器的性能发挥。针对部分程序不能向量化的问题,在申威GCC编译器中进行SIMD编程接口的设计与研究。在申威向量指令的基础上,通过在申威GCC编译器中添加向量机器模式和向量数据类型,编译器可以对向量参数类型进行识别。根据向量指令的类型和复杂度,分别使用内建函数扩展、操作符扩展和高级语言扩展3种方式实现SIMD编程接口函数。在后端添加不同的指令模板,使接口函数可以匹配相应的指令模板,生成对应向量指令的汇编代码。通过对FFTW库和Hyperscan库进行测试和分析,相比优化前的程序,使用SIMD编程接口进行向量化后,FFTW中Double类和Float类型程序的平均加速比分别为1.97和2.13,Hyperscan的平均加速比为2.94。 展开更多
关键词 向量化 simd编程接口 向量指令 内建函数 指令模板
在线阅读 下载PDF
面向SIMD指令集的SM4算法比特切片优化 被引量:3
3
作者 王闯 丁滟 +1 位作者 黄辰林 宋连涛 《计算机研究与发展》 EI CSCD 北大核心 2024年第8期2097-2109,共13页
SM4算法是中国自主设计的商用分组密码算法,其加解密计算性能成为影响信息系统数据机密性保障的重要因素之一.现有SM4算法优化主要面向硬件设计和软件查表等方向展开研究,分别存在依赖特定硬件环境、效率低下且易遭受侧信道攻击等问题.... SM4算法是中国自主设计的商用分组密码算法,其加解密计算性能成为影响信息系统数据机密性保障的重要因素之一.现有SM4算法优化主要面向硬件设计和软件查表等方向展开研究,分别存在依赖特定硬件环境、效率低下且易遭受侧信道攻击等问题.比特切片技术通过对输入数据重组实现了并行化高效分组密码处理,可以抵御针对缓存的侧信道攻击.然而现有切片分组密码研究对硬件平台相关性强、处理器架构支持单一,并且并行化处理流水启动较慢,面向小规模数据的加解密操作难以充分发挥单指令多数据(single instruction multiple data,SIMD)等先进指令集的优势.针对上述问题,首先提出了一种跨平台的通用切片分组密码算法模型,支持面向不同的处理器指令字长提供一致化的通用数据切片方法.在此基础上,提出了一种面向SIMD指令集的细粒度切片并行处理SM4优化算法,通过细粒度明文切片重组与线性处理优化有效缩短算法启动时间.实验结果表明,相比通用SM4算法,优化的SM4比特切片算法加密速率最高可达438.0 MBps,加密每字节所需的时钟周期最快高达7.0 CPB(cycle/B),加密性能平均提升80.4%~430.3%. 展开更多
关键词 SM4算法 性能优化 比特切片 侧信道攻击 simd指令集
在线阅读 下载PDF
基于QEMU的SIMD指令替换浮点指令框架
4
作者 刘登峰 李东亚 +2 位作者 柴志雷 周浩杰 丁海峰 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第8期70-77,共8页
现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是... 现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是以软件语言实现来模拟浮点计算.本文提出了一种基于QEMU翻译系统的FP-QEMU框架,FP-QEMU框架采用SIMD指令来优化替换浮点计算指令,并在X86和ARM平台上完成了完整的浮点实现.该框架可以识别动态二进制翻译系统中的浮点计算优化机会并利用SIMD指令来提升系统翻译的性能.采用SPEC 2006作为测试基准,实验表明相比QEMU,FP-QEMU跨平台的ARM应用在X86计算机上运行的最高加速比可达51.5%,平均加速比达到37.42%. 展开更多
关键词 simd QEMU 动态二进制翻译 浮点计算
在线阅读 下载PDF
SIMD自动向量化编译优化概述 被引量:36
5
作者 高伟 赵荣彩 +2 位作者 韩林 庞建民 丁锐 《软件学报》 EI CSCD 北大核心 2015年第6期1265-1284,共20页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研... SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向. 展开更多
关键词 simd扩展部件 自动向量化 数据级并行 编译优化
在线阅读 下载PDF
SIMD技术与向量数学库研究 被引量:10
6
作者 解庆春 张云泉 +2 位作者 王可 李焱 许亚武 《计算机科学》 CSCD 北大核心 2011年第7期298-301,共4页
首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell ... 首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10。最后,通过测试结果的对比,发现不同数学库中的向量函数之间在性能方面也存在着差异,并对差异原因进行了分析,得出性能差异主要是处理器架构和向量计算单元个数和访存等因素造成的。 展开更多
关键词 向量化 SSE MMX 3DNow! simd
在线阅读 下载PDF
龙芯3B的SIMD编译优化及分析 被引量:9
7
作者 彭飞 顾乃杰 +1 位作者 高翔 孙明明 《小型微型计算机系统》 CSCD 北大核心 2012年第12期2733-2737,共5页
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了B... 根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了Builtin函数的支持,用户可以根据标准函数接口调用SIMD运算函数,完成向量操作.通过对SPEC-CPU2000、DSPstone等大量benchmark的测试和分析,给出了龙芯3B SIMD运算的各项性能指数.对于性能表现不同的测试函数,均给出了详细分析数据和结论.测试表明,龙芯3B的SIMD运算在实际应用中有着良好的性能表现. 展开更多
关键词 编译优化 simd 自动向量化 Builtin 龙芯3B
在线阅读 下载PDF
基于SIMD技术的锥束ART算法快速并行图像重建 被引量:6
8
作者 张顺利 张定华 +1 位作者 李明君 吉军 《仪器仪表学报》 EI CAS CSCD 北大核心 2010年第3期630-634,共5页
ART(algebraic reconstruction technique)算法是一种迭代图像重建方法,适合于大型工业构件的无损检测,其缺点是计算量大、重建时间长。为了提高锥束ART算法的重建速度,本文提出一种快速并行图像重建方法。首先根据锥束CT扫描方式下三... ART(algebraic reconstruction technique)算法是一种迭代图像重建方法,适合于大型工业构件的无损检测,其缺点是计算量大、重建时间长。为了提高锥束ART算法的重建速度,本文提出一种快速并行图像重建方法。首先根据锥束CT扫描方式下三维射线的对称性提出一种权因子和体素索引的并行计算方法,通过一次计算可同时得到两条射线的权因子和体素索引;然后采用Intel处理器的单指令多数据(single instruction multiple data,SIMD)技术,一次性加载多个打包数据,利用SSE(streamingSIMD extension)指令实现了投影、计算图像校正和反投影的并行运算。实验结果表明本文提出的方法非常有效,在保证图像重建精度的同时取得了约1.5倍的重建加速比。 展开更多
关键词 锥束CT 图像重建 ART算法 simd技术
在线阅读 下载PDF
向量并行度指导的循环SIMD向量化方法 被引量:5
9
作者 高伟 韩林 +2 位作者 赵荣彩 徐金龙 陈超然 《软件学报》 EI CSCD 北大核心 2017年第4期925-939,共15页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想... SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想是:首先,通过循环展开将迭代间并行转换为迭代内并行,使循环体内的同构语句条数足够多;再利用SLP方法进行向量发掘.但当循环展开不合法或者并行度低于向量化因子时,Loop-aware方法无法实现程序向量并行性的发掘.因此提出了向量并行度指导的循环向量化方法,依据迭代间并行度、迭代内并行度和向量化因子构建循环向量化方法选择方案,同时提出了不充分向量化方法发掘并行度低于向量化因子的循环向量并行性,最后,依据向量并行度对生成的向量循环进行展开.经过标准测试集测试,向量并行度指导的循环SIMD向量化方法比Loop-aware方法的识别率提升了107.5%,性能提升了12.1%. 展开更多
关键词 simd扩展部件 向量并行度 Loop-aware 循环展开
在线阅读 下载PDF
小规模非规则TRSM实现与优化
10
作者 郭容园 贾海鹏 +4 位作者 张云泉 韦存阳 邓明森 陈婧蕊 周振亚 《计算机研究与发展》 北大核心 2025年第2期517-531,共15页
TRSM(triangular matrix equation solver)是线性方程组求解的常用算法,是各种科学计算库和数学软件的核心算法,广泛应用于科学计算、工程计算、机器学习等领域.小规模非规则TRSM算法限定解决问题范围,是高效处理较小规模、非规则数据... TRSM(triangular matrix equation solver)是线性方程组求解的常用算法,是各种科学计算库和数学软件的核心算法,广泛应用于科学计算、工程计算、机器学习等领域.小规模非规则TRSM算法限定解决问题范围,是高效处理较小规模、非规则数据输入的算法.随着高性能计算领域个性化、精细化发展,科学界、工业界对小规模非规则TRSM计算的需求愈加明显.传统算法更偏重于大规模、规则TRSM的计算,在小规模非规则TRSM计算上效率不佳.结合硬件体系结构、应用场景特征提出小规模非规则TRSM优化方案,从寄存器分块、边界处理、向量化计算角度设计高性能内核,在此基础上构建覆盖双精度实数、双精度复数的小规模非规则算法库SI_TRSM(small-scale irregular TRSM),大幅度提升该算法性能.实验结果表明,构建的双精度小规模非规则TRSM算法库,较MKL(Intel math kernel library)同类算法,在双精度小规模非规则实数上平均性能提高29.4倍,在双精度小规模非规则复数上平均性能提高24.6倍. 展开更多
关键词 TRSM算法 BLAS 小规模非规则 simd 汇编优化
在线阅读 下载PDF
基于Intel SIMD指令的二维FFT优化算法 被引量:11
11
作者 李成军 周卫峰 朱重光 《计算机工程与应用》 CSCD 北大核心 2007年第5期41-44,共4页
在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法... 在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法,在二维处理中针对处理器缓存进行优化等方法,实现了很高的性能。实验结果表明:描述的算法比目前使用最广泛的公共域FFT程序包FFTW快30%左右。达到了对大数据量图像进行快速处理的要求,具有较大的工程实用价值。 展开更多
关键词 大数据量图像处理 二维FFT simd SSE/SSE3
在线阅读 下载PDF
一种改进的控制流SIMD向量化方法 被引量:3
12
作者 高伟 李颖颖 +2 位作者 孙回回 李雁冰 赵荣彩 《软件学报》 EI CSCD 北大核心 2017年第8期2046-2063,共18页
SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含... SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含的向量并行度,导致生成的向量代码效率较低.此外,不精确的代价模型指导控制流向量化,同样导致生成的向量代码效率较低.为此,提出了改进的控制流SIMD向量化方法.首先,提出了含有控制依赖的循环分布算法,分离循环的可向量化部分和不可向量化部分,同时考虑分布时数据的局部性;其次,提出了一种直接向量化控制流的方法,该方法考虑了基本块间的向量重用;最后,利用精确的代价模型指导超字选择指令和超字条件分支指令的生成.实验结果表明:与现有的控制流向量化方法相比,改进方法生成的向量代码性能提高了24%. 展开更多
关键词 simd扩展部件 控制依赖 数据依赖 循环分布
在线阅读 下载PDF
面向非多媒体程序的SIMD向量化算法的研究及改进 被引量:6
13
作者 李玉祥 施慧 陈莉 《小型微型计算机系统》 CSCD 北大核心 2009年第10期1927-1935,共9页
利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点... 利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点程序,归纳出非多媒体程序的SIMD向量化特征,并依此提出局部数据重组的向量化方法、针对外层循环的向量化方法、部分语句SLP的向量化方法几种新的向量化方法和相关的向量化优化技术.通过对比Intel编译器对SPECCPU2000的向量化性能测试,可以发现本文提出的改进方法有效的提高了程序的向量化. 展开更多
关键词 向量化 数据重组 simd 外层循环的向量化
在线阅读 下载PDF
基于SIMD指令的柔性物体并行碰撞检测 被引量:13
14
作者 唐敏 MANOCHA Dinesh 童若锋 《计算机学报》 EI CSCD 北大核心 2009年第10期2042-2051,共10页
复杂场景中柔性物体间的碰撞检测依然难以满足交互设计的要求.为了提高处理速度,文中给出了一种充分利用现代CPU的并行处理能力的碰撞检测算法.算法基于两方面的并行处理:即基于SIMD指令的指令级并行处理和基于多线程的任务级并行处理.... 复杂场景中柔性物体间的碰撞检测依然难以满足交互设计的要求.为了提高处理速度,文中给出了一种充分利用现代CPU的并行处理能力的碰撞检测算法.算法基于两方面的并行处理:即基于SIMD指令的指令级并行处理和基于多线程的任务级并行处理.算法给出了一种针对SIMD指令特别优化的k-DOP模型——SIMD-DOP,从理论上分析了该包围盒的高效性,并与常规的16-DOP和24-DOP进行了运行效率对比.通过使用SIMD-DOP同时在多核间进行负载均衡,算法获得了优化的并行加速.文中算法已经在一台16核工作站上针对一组复杂测试场景进行了验证. 展开更多
关键词 连续碰撞检测 柔性物体 simd指令 并行碰撞检测 包围盒层次结构
在线阅读 下载PDF
LSSIMD阵列微处理器的控制逻辑设计 被引量:11
15
作者 李莉 沈绪榜 《计算机学报》 EI CSCD 北大核心 2000年第5期557-560,共4页
首先介绍了 L S SIMD阵列微处理器的三种并行性 :数据并行、流水线并行和指令的并行执行 .针对这三种并行性 ,阐述了控制逻辑的设计 .
关键词 simd阵列 微处理器 控制逻辑 指令流水线 设计
在线阅读 下载PDF
面向SIMD的数组重组和对齐优化 被引量:3
16
作者 魏帅 赵荣彩 +1 位作者 姚远 侯永生 《计算机科学》 CSCD 北大核心 2012年第2期305-310,共6页
随着多媒体应用的普及,越来越多的处理器集成了SIMD扩展,但是非连续或者非对齐访存会阻碍程序的向量化或者造成性能损失。针对实际应用中出现的数组引用不连续的情况,提出了一种数学模型,用以刻画数组的访存模式和数据重组方案,以判断... 随着多媒体应用的普及,越来越多的处理器集成了SIMD扩展,但是非连续或者非对齐访存会阻碍程序的向量化或者造成性能损失。针对实际应用中出现的数组引用不连续的情况,提出了一种数学模型,用以刻画数组的访存模式和数据重组方案,以判断这些数组引用是否可以通过数组转置的方法满足连续性要求;并采用过程间数组填充、循环剥离和基于SLP的向量化代码生成方法等进行对齐优化。最后基于SPEC2000测试集对该算法进行了测试,结果表明,该方法可以有效地提升向量化程序的执行效率。 展开更多
关键词 simd 对齐分析 数据重组 多维数组填充
在线阅读 下载PDF
基于比特切片技术与指令集的LED算法快速实现
17
作者 李惟佳 叶涛 +1 位作者 韦永壮 冯景亚 《计算机应用研究》 北大核心 2025年第7期2184-2190,共7页
LED是一种专为资源受限设备设计的轻量级分组密码算法,具有低功耗、低内存占用和高效率的特点,非常适合应用于物联网(IoT)设备、RFID标签和嵌入式系统等。然而,随着对性能要求的不断提升,如何进一步优化LED分组密码算法的加密实现效率,... LED是一种专为资源受限设备设计的轻量级分组密码算法,具有低功耗、低内存占用和高效率的特点,非常适合应用于物联网(IoT)设备、RFID标签和嵌入式系统等。然而,随着对性能要求的不断提升,如何进一步优化LED分组密码算法的加密实现效率,已经成为研究的热点之一。针对类AES分组密码算法提出了一种通用的比特切片方法(bit-slicing),利用单指令多数据技术(SIMD)对通用比特切片方法进行了优化实现,并将其应用于LED加密算法,以提高算法对数据的并行处理能力。此外,该方法还研究了关于LED算法的S盒优化方案,减少了实现S盒所需要的逻辑门数量。经测试,LED-64/128算法的加密实现效率分别提升了2.26倍和2.14倍。实验结果表明,该方法对基于比特切片技术实现的类AES分组密码算法软件优化实现方法具有重要参考价值。 展开更多
关键词 LED分组密码 x64架构 软件快速实现 比特切片 simd
在线阅读 下载PDF
高速自适应光学波前处理器─—流水式多SIMD结构 被引量:4
18
作者 陈严 孔铁生 梁甸农 《电子学报》 EI CAS CSCD 北大核心 1998年第3期100-102,共3页
自适应光学波前处理器是自适应光学系统的核心部件之一,它必须实时完成自适应光学系统中所有信号处理任务.本文在对波前复原算法分析的基础上,根据算法内在的并发性,提出一种流水式多SIMD(单指令多数据流)并行处理结构.这种结构... 自适应光学波前处理器是自适应光学系统的核心部件之一,它必须实时完成自适应光学系统中所有信号处理任务.本文在对波前复原算法分析的基础上,根据算法内在的并发性,提出一种流水式多SIMD(单指令多数据流)并行处理结构.这种结构可以使波前处理器完成对帧频为850Hz,象素点为128×128视频图像的实时处理,整个系统的处理延迟小于1/4帧周期. 展开更多
关键词 并行处理 波前处理器 simd结构 自适应光学
在线阅读 下载PDF
SIMD向量指令的非满载使用方法研究 被引量:3
19
作者 徐金龙 赵荣彩 赵博 《计算机科学》 CSCD 北大核心 2015年第7期229-233,共5页
大规模SIMD体系结构提供了更强的向量并行硬件支持,但是,大量迭代次数不足的循环由于不能提供足够的并行性,难以用等价的向量方式实现。为了更有效地利用SIMD,提出了一种非满载地使用SIMD指令的向量化方法。研究了向量寄存器的使用方式... 大规模SIMD体系结构提供了更强的向量并行硬件支持,但是,大量迭代次数不足的循环由于不能提供足够的并行性,难以用等价的向量方式实现。为了更有效地利用SIMD,提出了一种非满载地使用SIMD指令的向量化方法。研究了向量寄存器的使用方式,基于非满载的向量寄存器使用方式实现了非满载的向量操作和短循环的向量化,并将非满载的向量化方法用于一般循环的向量化。提供了收益分析方法来为本向量化方法作精确指导。实验结果表明了该方法的有效性,所选测试用例的目标循环被向量化,平均加速比达到1.2。 展开更多
关键词 大规模simd 并行 向量化 非满载向量操作 收益分析
在线阅读 下载PDF
一种基于奔腾SIMD指令的快速背景提取方法 被引量:2
20
作者 周西汉 刘勃 +1 位作者 周荷琴 袁非牛 《计算机工程与应用》 CSCD 北大核心 2004年第27期81-83,共3页
论文提出一种基于Intel奔腾SIMD指令的快速背景提取方法。在一种改进的混合高斯背景模型中,Jeffrey值的计算和背景模型的更新等存在着很高的内在SIMD并行性,通过将数据按照SSE数据类型组织,实现了混合高斯背景模型的SIMD算法。实验结果... 论文提出一种基于Intel奔腾SIMD指令的快速背景提取方法。在一种改进的混合高斯背景模型中,Jeffrey值的计算和背景模型的更新等存在着很高的内在SIMD并行性,通过将数据按照SSE数据类型组织,实现了混合高斯背景模型的SIMD算法。实验结果表明:嵌入奔腾SIMD指令的方法比传统计算提高75%左右的性能,加速了背景提取的速度,达到了实时处理的要求,具有较大的实际应用价值。 展开更多
关键词 背景提取 混合高斯模型 simd MMX/SSE/SSE2
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部