期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
基于申威SIMD指令的H.264编码优化 被引量:2
1
作者 黄朴 刘世巍 +1 位作者 张昊 王聪 《现代电子技术》 北大核心 2024年第6期49-54,共6页
国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIM... 国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIMD指令系统,提出一种基于申威架构的SIMD指令集H.264编码优化方法。结合申威处理器的并行结构特点,利用申威适配的Perf、Top指令等系统性能分析工具,采集两种主流视频分辨率下与编码性能强相关的高频热点函数,详细分析其程序并行化可行性,采用手工嵌入申威SIMD和访存扩展等汇编指令进行细粒度优化。实验结果表明,该方法在申威架构下的H.264平均编码性能提升了约30%。相应工作成果已推送到申威社区,增强了基于申威处理器的国产计算机在桌面多媒体应用领域的工作体验。 展开更多
关键词 单指令多数据流 H.264标准 申威处理器 热点函数 程序并行化 细粒度
在线阅读 下载PDF
使用游程编码和SIMD指令集的快速图像融合 被引量:1
2
作者 赵毅力 徐丹 +1 位作者 钱文华 张雁 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2016年第4期624-632,共9页
图像融合是图像拼接中的一个重要步骤,用于生成无缝的融合图像.针对当前高分辨率图像融合算法速度较慢的问题,提出一种基于多频带的快速图像融合方法.首先通过进行2遍距离变换生成一幅接缝图像,并根据这幅接缝图像生成每一幅输入图像的... 图像融合是图像拼接中的一个重要步骤,用于生成无缝的融合图像.针对当前高分辨率图像融合算法速度较慢的问题,提出一种基于多频带的快速图像融合方法.首先通过进行2遍距离变换生成一幅接缝图像,并根据这幅接缝图像生成每一幅输入图像的蒙版图像,这个过程与输入图像的次序无关,并且具有良好的可扩展性;其次使用游程编码对蒙版图像进行压缩编码,生成每一幅蒙版图像的高斯金字塔,并利用SIMD指令集生成输入图像的拉普拉斯金字塔;最后使用SIMD指令集完成拉普拉斯金字塔重构,得到一幅无缝的融合图像.在实验中对2组数据集进行测试,结果表明该方法能够高效地合成高质量的融合图像.与已有的图像融合方法相比,文中方法运行速度更快、内存使用较少、具有更好的并行性,更适合于目前的多核处理器架构. 展开更多
关键词 图像拼接 接缝处理 多频带融合 游程编码 单指令多数据流
在线阅读 下载PDF
AES算法的SIMD指令集扩展方法与实现
3
作者 卢仕听 王帅 +1 位作者 韩军 曾晓洋 《计算机工程》 CAS CSCD 北大核心 2011年第6期121-123,共3页
基于MIPS32 4k系列的处理器架构,提出一种AES算法的SIMD指令集扩展方法,利用处理器流水线对齐级和AES数据访问单元,实现64 bit数据位宽的并行处理操作。对不同实现方式的性能进行比较,结果表明,该方法的加解密运算性能有较大提高,硬件... 基于MIPS32 4k系列的处理器架构,提出一种AES算法的SIMD指令集扩展方法,利用处理器流水线对齐级和AES数据访问单元,实现64 bit数据位宽的并行处理操作。对不同实现方式的性能进行比较,结果表明,该方法的加解密运算性能有较大提高,硬件代价相对较小,且具有编程灵活性。 展开更多
关键词 单指令多数据流 高等加密标准 指令集扩展
在线阅读 下载PDF
x86处理器向量条件访存指令安全脆弱性分析
4
作者 李丹萍 朱子元 +1 位作者 史岗 孟丹 《计算机学报》 EI CAS CSCD 北大核心 2024年第3期525-543,共19页
单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化... 单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化处理的需求不断提高,这使得SIMD技术愈发重要.为了支持SIMD技术,Intel和AMD等x86处理器厂商从1996年开始在其处理器中陆续引入了MMX(MultiMedia Extensions)、SSE(Streaming SIMD Extensions)、AVX(Advanced Vector eXtensions)等SIMD指令集扩展.通过调用SIMD指令,程序员能够无需理解SIMD技术的硬件层实现细节就方便地使用它的功能.然而,随着熔断、幽灵等处理器硬件漏洞的发现,人们逐渐认识到并行优化技术是一柄双刃剑,它在提高性能的同时也能带来安全风险.本文聚焦于x86 SIMD指令集扩展中的VMASKMOV指令,对它的安全脆弱性进行了分析.本文的主要贡献如下:(1)利用时间戳计数器等技术对VMASKMOV指令进行了微架构逆向工程,首次发现VMASKMOV指令与内存页管理和CPU Fill Buffer等安全风险的相关性;(2)披露了一个新的处理器漏洞EvilMask,它广泛存在于Intel和AMD处理器上,并提出了3个EvilMask攻击原语:VMASKMOVL+Time(MAP)、VMASKMOVS+Time(XD)和VMASKMOVL+MDS,可用于实施去地址空间布局随机化攻击和进程数据窃取攻击;(3)给出了2个EvilMask概念验证示例(Proof-of-Concept,PoC)验证了EvilMask对真实世界的信息安全危害;(4)讨论了针对EvilMask的防御方案,指出最根本的解决方法是在硬件层面上重新实现VMASKMOV指令,并给出了初步的实现方案. 展开更多
关键词 处理器安全 单指令多数据流(simd) 微体系结构侧信道攻击 VMASKMOV指令 地址空间布局随机化(ASLR)
在线阅读 下载PDF
基于指令级并行的倒排索引压缩算法 被引量:7
5
作者 闫宏飞 张旭东 +2 位作者 单栋栋 毛先领 赵鑫 《计算机研究与发展》 EI CSCD 北大核心 2015年第5期995-1004,共10页
文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在... 文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在已有倒排链压缩算法PackedBinary和PForDelta的基础上,利用CPU的超标量特性和SIMD向量指令集,将其压缩和解压缩中的关键步骤并行化,提出了2种指令级并行压缩算法SIMD-PB和SIMD-PFD.基于GOV2和ClueWeb09B两个公开数据集的实验表明,SIMD-PB和SIMD-PFD算法在压缩率不变的情况下,压缩和解压缩速度比现有的压缩算法均有非常明显的提升.其中解压缩速度比起目前最好的倒排链压缩算法,最高能提升17%.此外,实验表明算法在较长的倒排链、较大的压缩块单位上有更好的解压缩性能. 展开更多
关键词 单指令多数据流 倒排索引 压缩 整数编码 信息检索
在线阅读 下载PDF
一种高效的面向基2 FFT算法的SIMD并行存储结构 被引量:7
6
作者 陈海燕 杨超 +1 位作者 刘胜 刘仲 《电子学报》 EI CAS CSCD 北大核心 2016年第2期241-246,共6页
随着SIMD(Single Instruction Multiple Data stream)结构DSP(Digital Signal Processor)片上集成了越来越多的处理单元,并行访存的灵活性及带宽效率对实际运算性能的影响越来越大.本文详细分析了一般SIMD结构DSP中基2 FFT(Fast Fo... 随着SIMD(Single Instruction Multiple Data stream)结构DSP(Digital Signal Processor)片上集成了越来越多的处理单元,并行访存的灵活性及带宽效率对实际运算性能的影响越来越大.本文详细分析了一般SIMD结构DSP中基2 FFT(Fast Fourier Transform)并行算法面临的访存问题,采用简单的部分地址异或逻辑完成SIMD并行访存地址转换,实现了FFT运算的无冲突SIMD并行访存;提出了几种带特殊混洗模式的向量访存指令,可完全消除SIMD结构下基2FFT运算时需要的额外混洗指令操作.最后将其应用于某16路SIMD数字信号处理器YHFT-Matrix2中向量存储器VM的优化设计.测试结果表明,采用该SIMD并行存储结构优化的VM以增加18%的硬件开销实现了FFT运算全流水无冲突并行访存和100%并行访存带宽利用率;相比优化前的设计,不同点数FFT运算可获得1.32~2.66的加速比. 展开更多
关键词 快速傅里叶变换 单指令多数据流 低位交叉 并行存储 访问冲突 数据混洗
在线阅读 下载PDF
分簇VLIW DSP的SIMD编译优化 被引量:3
7
作者 林传文 顾乃杰 +1 位作者 雷一鸣 洪一 《中国科学技术大学学报》 CAS CSCD 北大核心 2011年第8期708-714,共7页
针对数字信号处理的应用特点,提出了一种识别SIMD指令的一般性方法;针对分簇结构SIMD指令的特点,给出了新的指令分簇算法和寄存器分配算法;最后在BWDSP100芯片的编译器上实现这些优化方法.实验结果表明,上述优化方法能充分发挥分簇结构S... 针对数字信号处理的应用特点,提出了一种识别SIMD指令的一般性方法;针对分簇结构SIMD指令的特点,给出了新的指令分簇算法和寄存器分配算法;最后在BWDSP100芯片的编译器上实现这些优化方法.实验结果表明,上述优化方法能充分发挥分簇结构SIMD指令的优势,提高编译器的效率. 展开更多
关键词 超长指令 分簇结构 单指令多数据流 编译优化
在线阅读 下载PDF
基于龙芯SIMD技术的H.264视频解码优化 被引量:5
8
作者 顾丽红 王锐 +1 位作者 陈华才 吴少刚 《计算机工程与设计》 北大核心 2017年第12期3361-3367,3373,共8页
为提高龙芯平台的多媒体处理能力,分析龙芯处理器核GS464/GS464E的LoongSIMD指令系统,提出SIMD指令级优化方法。通过分析FFmpeg的开源H.264解码器的并行特征,结合龙芯处理器的结构并行特点,利用龙芯特有的性能计数器,解析影响性能的热... 为提高龙芯平台的多媒体处理能力,分析龙芯处理器核GS464/GS464E的LoongSIMD指令系统,提出SIMD指令级优化方法。通过分析FFmpeg的开源H.264解码器的并行特征,结合龙芯处理器的结构并行特点,利用龙芯特有的性能计数器,解析影响性能的热点函数,采用手工嵌入龙芯SIMD和访存扩展等汇编指令的方式进行细粒度优化。实验结果表明,该方法使平均性能提高了50%,工作成果已推送到龙芯开源社区,增强了基于龙芯3A处理器的国产计算机在桌面多媒体应用领域的用户体验。 展开更多
关键词 单指令多数据流 龙芯3A GS464 GS464E微架构 FFmpeg多媒体库 H.264解码优化
在线阅读 下载PDF
LS SIMD计算机并行计算的面向对象仿真 被引量:1
9
作者 张发存 赵晓红 沈绪榜 《计算机工程与应用》 CSCD 北大核心 2003年第26期143-146,共4页
论文详细介绍了基于LSSIMD计算机的并行计算的面向对象仿真,提出了一个新颖的SIMD机的面向对象软件模型,并在PC机Windows平台上用MicrosoftVisualC++6.0编程实现。通过对一组数字图象采用不同的处理算法进行仿真计算、并与LSSIMD并行机... 论文详细介绍了基于LSSIMD计算机的并行计算的面向对象仿真,提出了一个新颖的SIMD机的面向对象软件模型,并在PC机Windows平台上用MicrosoftVisualC++6.0编程实现。通过对一组数字图象采用不同的处理算法进行仿真计算、并与LSSIMD并行机的同样图象的相同算法的运行结果进行比较,证明该系统具有正确性、实用性和可靠性。 展开更多
关键词 单指令多数据流 面向对象 仿真 汇编解释器
在线阅读 下载PDF
基于SSE指令的大内存快速拷贝 被引量:1
10
作者 钱昌松 刘志刚 刘代志 《计算机应用研究》 CSCD 北大核心 2005年第2期113-114,120,共3页
在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各... 在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各内存拷贝函数拷贝速度与拷贝内存量之间的对应关系。 展开更多
关键词 单指令多数据流扩展指令 内存拷贝 MMX 代码优化
在线阅读 下载PDF
SIMD计算机发展概述 被引量:2
11
作者 景晓军 方滨兴 《计算机科学》 CSCD 北大核心 1995年第3期4-8,共5页
一、引言 并行处理是提高计算机性能的有效途径,已成为计算机系统结构研究的热点。IMD(单指令多数据流)计算机由M.J.Flynn。
关键词 并行处理 计算机 单指令多数据流
在线阅读 下载PDF
海量STAP数据的脉冲压缩快速实现
12
作者 任磊 王永良 +1 位作者 母其勇 陈辉 《数据采集与处理》 CSCD 北大核心 2008年第3期342-346,共5页
在空时二维自适应处理系统中对海量数据作脉压处理耗时颇大。本文基于单片数字信号处理器(DSP)从数据级和指令级两个方面进行优化,通过合理调度处理器资源并利用片内并行技术,快速实现了对海量数据的脉冲压缩优化处理。以空时二维自适... 在空时二维自适应处理系统中对海量数据作脉压处理耗时颇大。本文基于单片数字信号处理器(DSP)从数据级和指令级两个方面进行优化,通过合理调度处理器资源并利用片内并行技术,快速实现了对海量数据的脉冲压缩优化处理。以空时二维自适应处理(STAP)系统中单景四重频数据为分析对象,比较了采用商业库优化方法和本文方法优化后的两种情况。实验结果证明,在处理时间上取得了1.801的加速比,误差控制在10-5量级,1 024点脉压处理时间为50.456μs,验证了本文方法的有效性。 展开更多
关键词 脉冲压缩 海量数据 单指令多数据流(simd) 超长指令字(VLIW) TS201
在线阅读 下载PDF
基于SIMD架构的相干累加运算优化方法
13
作者 陈源 王元钦 董绪荣 《计算机工程》 CAS CSCD 北大核心 2011年第20期268-270,共3页
针对软件GPS接收机在处理高数据流时存在的实时性问题,提出一种基于单指令多数据流(SIMD)架构的相干运算优化方法。分析跟踪环路结构、SIMD指令与相干积分累加运算量,使用多媒体扩展指令集对流水线进行优化。实验结果表明,完成1 s数据... 针对软件GPS接收机在处理高数据流时存在的实时性问题,提出一种基于单指令多数据流(SIMD)架构的相干运算优化方法。分析跟踪环路结构、SIMD指令与相干积分累加运算量,使用多媒体扩展指令集对流水线进行优化。实验结果表明,完成1 s数据的相干积分累加计算时间为0.7 s,该运算量仅为使用普通单指令多数据流指令的6.5%,具有较高的实时性。 展开更多
关键词 单指令多数据流技术 GPS软件 相干积分 流水线优化
在线阅读 下载PDF
基于SIMD技术的σ-LFSR
14
作者 曾光 王政 韩文报 《计算机应用研究》 CSCD 北大核心 2008年第8期2434-2437,2443,共5页
σ-线性反馈移位寄存器(σ-LFSR)是一类适合软件快速实现的新型反馈移位寄存器。结合第二代单指令多数据流扩展指令集SSE2,设计了一类基于SIMD技术的σ-LFSR。这类σ-LFSR充分利用SSE2提供的128bit整数数据结构及其操作,获得了非常高的... σ-线性反馈移位寄存器(σ-LFSR)是一类适合软件快速实现的新型反馈移位寄存器。结合第二代单指令多数据流扩展指令集SSE2,设计了一类基于SIMD技术的σ-LFSR。这类σ-LFSR充分利用SSE2提供的128bit整数数据结构及其操作,获得了非常高的软件实现效率,同时其输出序列达到了最大周期并具有良好的随机性。所得结论表明这类基于SIMD技术的σ-LFSR可以作为适合软件实现的高速序列密码驱动部分。 展开更多
关键词 σ-线性反馈移位寄存器 单指令多数据技术 第二代单指令多数据流扩展指令 序列密码 快速软件加密
在线阅读 下载PDF
多核架构下的数据处理算法优化策略综述 被引量:7
15
作者 陈伟 杜凌霞 陈红 《计算机科学与探索》 CSCD 2011年第12期1057-1075,共19页
多核处理器,尤其是单芯片多处理器(chip multi-processor,CMP)能够提供强大的共享内存的并行资源,然而单核处理器上的程序和算法并不能充分利用多核架构提供的并行计算资源,因此必须针对多核体系架构特点,对算法进行改进优化,提高算法... 多核处理器,尤其是单芯片多处理器(chip multi-processor,CMP)能够提供强大的共享内存的并行资源,然而单核处理器上的程序和算法并不能充分利用多核架构提供的并行计算资源,因此必须针对多核体系架构特点,对算法进行改进优化,提高算法的执行性能。以优化程序局部性、减少cache访问冲突、提高线程并行度、充分利用单指令多数据流(single instruction multipledata,SIMD)并行和带宽优化等几方面为出发点,归纳和分析了多核处理器上数据处理算法的相关优化策略,并对多核算法进行了总结评述。最后阐述了该领域亟待解决的诸多问题,展望了未来的研究发展方向。 展开更多
关键词 多核 单芯片多处理器(CMP) 数据级别并行(DLP) 线程级别并行(TLP) 单指令多数据流(simd)
在线阅读 下载PDF
基于媒体指令的二维DCT快速计算 被引量:2
16
作者 于倩 邵洋 +2 位作者 张铁军 王东辉 李伟 《计算机工程》 CAS CSCD 北大核心 2007年第12期25-27,共3页
二维DCT变换是视频编码协议H.264和MPEG系列标准的主要运算之一。传统的处理器中的运算无法满足视频编/解码的实时性要求。针对二维DCT变换,该文提出了和媒体指令相适应的数据结构和计算方法,最大限度地利用媒体指令的运算能力,在软件... 二维DCT变换是视频编码协议H.264和MPEG系列标准的主要运算之一。传统的处理器中的运算无法满足视频编/解码的实时性要求。针对二维DCT变换,该文提出了和媒体指令相适应的数据结构和计算方法,最大限度地利用媒体指令的运算能力,在软件设计时避免了数据相关带来的性能下降。实验证明这种快速计算的实现方法能够满足视频应用的实时要求,为编译器设计提供了具有实用性的参考。 展开更多
关键词 媒体指令 单指令多数据流 DCT
在线阅读 下载PDF
基于SIMD的并行傅里叶空间图像相似度计算 被引量:5
17
作者 郭渝洛 边浩东 +3 位作者 董润婷 唐嘉豪 王晓英 黄建强 《计算机工程》 CAS CSCD 北大核心 2021年第11期247-253,共7页
在冷冻电镜三维重建计算模型中,傅里叶空间图像相似度算法被频繁调用,大量的计算开销导致模型整体运行速度变慢。针对该问题,提出一种基于SIMD的并行傅里叶空间图像相似度算法。通过手动负载均衡方式最大化CPU的线程使用率,添加AVX-512... 在冷冻电镜三维重建计算模型中,傅里叶空间图像相似度算法被频繁调用,大量的计算开销导致模型整体运行速度变慢。针对该问题,提出一种基于SIMD的并行傅里叶空间图像相似度算法。通过手动负载均衡方式最大化CPU的线程使用率,添加AVX-512指令集增强CPU矢量寄存器的作用,同时设计高效的数据结构提升内存访问效率。在Intel Xeon Platinum 9242平台上的实验结果表明,与原始的OpenMP并行模型相比,经该算法优化后的程序可获得平均5.132倍的加速比,并且具有较强的鲁棒性。 展开更多
关键词 冷冻电镜 负载均衡 缓存 单指令多数据流矢量化 傅里叶空间 图像相似度计算 并行计算
在线阅读 下载PDF
SIMD非对齐访存结构设计与实现 被引量:3
18
作者 余成龙 王永文 《计算机工程》 CAS CSCD 北大核心 2016年第9期1-4,共4页
单指令流多数据流(SIMD)是实现数据级并行的有效方法,但访问地址非对齐的数据严重影响程序的向量化,造成处理器性能下降。为降低非对齐访存延时,对高性能应用程序的访存结构进行建模,设计并实现SIMD分离缓冲行非对齐访存结构与双体cach... 单指令流多数据流(SIMD)是实现数据级并行的有效方法,但访问地址非对齐的数据严重影响程序的向量化,造成处理器性能下降。为降低非对齐访存延时,对高性能应用程序的访存结构进行建模,设计并实现SIMD分离缓冲行非对齐访存结构与双体cache非对齐访存结构。实验结果表明,在双体cache非对齐访存结构下,通过两数组相加与SIMD向量化实现的非对齐访存代码可达到对齐访存代码性能的99%,提高了SIMD向量化的访存效率。 展开更多
关键词 高性能计算 数据级并行 向量化 单指令多数据流扩展 非对齐访存 Gem5模拟器
在线阅读 下载PDF
面向DSP的超字并行指令分析和冗余优化算法 被引量:1
19
作者 索维毅 赵荣彩 +1 位作者 姚远 刘鹏 《计算机应用》 CSCD 北大核心 2012年第12期3303-3307,共5页
如今单指令多数据流(SIMD)技术在数字信号处理器(DSP)上得到了广泛的应用,现有的向量化编译器大多都实现了自动向量化的功能,但是编译器并不适合支持DSP为特征的SIMD自动向量化,主要由于DSP复杂的指令集、特有的寻址模型,以及依赖关系... 如今单指令多数据流(SIMD)技术在数字信号处理器(DSP)上得到了广泛的应用,现有的向量化编译器大多都实现了自动向量化的功能,但是编译器并不适合支持DSP为特征的SIMD自动向量化,主要由于DSP复杂的指令集、特有的寻址模型,以及依赖关系或者数据非对齐等原因而导致向量化效率不高。为了解决此问题,在基于Open64的超字并行(SLP)自动向量化编译系统后端,对SLP自动向量化中的指令分析和冗余优化算法进行了添加和改进,生成更加高效的向量化源程序。实验结果表明,该优化方法能有效提高DSP性能并降低功耗。 展开更多
关键词 单指令多数据流 数字信号处理器 自动向量化 冗余优化 Open64
在线阅读 下载PDF
高性能可重构DSP处理器的数据通路设计 被引量:1
20
作者 韩亮 李莺 +1 位作者 张馨 陈杰 《电子科技大学学报》 EI CAS CSCD 北大核心 2005年第2期194-197,共4页
介绍了高性能定点可重构DSP处理器的数据通路设计。该数据通路以功能强大的16位定点计算单元为基础,搭建起高速16位数据处理平台;并能以单指令流多数据流的方式灵活支持多维向量运算;通过重构的方法有效地支持了32位数据处理。
关键词 数字信号处理 数据通路 可重构 单指令多数据流 并行处理
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部