期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
AES算法的SIMD指令集扩展方法与实现
1
作者 卢仕听 王帅 +1 位作者 韩军 曾晓洋 《计算机工程》 CAS CSCD 北大核心 2011年第6期121-123,共3页
基于MIPS32 4k系列的处理器架构,提出一种AES算法的SIMD指令集扩展方法,利用处理器流水线对齐级和AES数据访问单元,实现64 bit数据位宽的并行处理操作。对不同实现方式的性能进行比较,结果表明,该方法的加解密运算性能有较大提高,硬件... 基于MIPS32 4k系列的处理器架构,提出一种AES算法的SIMD指令集扩展方法,利用处理器流水线对齐级和AES数据访问单元,实现64 bit数据位宽的并行处理操作。对不同实现方式的性能进行比较,结果表明,该方法的加解密运算性能有较大提高,硬件代价相对较小,且具有编程灵活性。 展开更多
关键词 单指令多数据流 高等加密标准 指令扩展
在线阅读 下载PDF
基于申威SIMD指令的H.264编码优化 被引量:2
2
作者 黄朴 刘世巍 +1 位作者 张昊 王聪 《现代电子技术》 北大核心 2024年第6期49-54,共6页
国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIM... 国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIMD指令系统,提出一种基于申威架构的SIMD指令集H.264编码优化方法。结合申威处理器的并行结构特点,利用申威适配的Perf、Top指令等系统性能分析工具,采集两种主流视频分辨率下与编码性能强相关的高频热点函数,详细分析其程序并行化可行性,采用手工嵌入申威SIMD和访存扩展等汇编指令进行细粒度优化。实验结果表明,该方法在申威架构下的H.264平均编码性能提升了约30%。相应工作成果已推送到申威社区,增强了基于申威处理器的国产计算机在桌面多媒体应用领域的工作体验。 展开更多
关键词 单指令多数据流 H.264标准 申威处理器 热点函数 程序并行化 细粒度
在线阅读 下载PDF
基于SSE指令的大内存快速拷贝 被引量:1
3
作者 钱昌松 刘志刚 刘代志 《计算机应用研究》 CSCD 北大核心 2005年第2期113-114,120,共3页
在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各... 在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各内存拷贝函数拷贝速度与拷贝内存量之间的对应关系。 展开更多
关键词 单指令多数据流扩展指令 内存拷贝 MMX 代码优化
在线阅读 下载PDF
基于媒体指令的二维DCT快速计算 被引量:2
4
作者 于倩 邵洋 +2 位作者 张铁军 王东辉 李伟 《计算机工程》 CAS CSCD 北大核心 2007年第12期25-27,共3页
二维DCT变换是视频编码协议H.264和MPEG系列标准的主要运算之一。传统的处理器中的运算无法满足视频编/解码的实时性要求。针对二维DCT变换,该文提出了和媒体指令相适应的数据结构和计算方法,最大限度地利用媒体指令的运算能力,在软件... 二维DCT变换是视频编码协议H.264和MPEG系列标准的主要运算之一。传统的处理器中的运算无法满足视频编/解码的实时性要求。针对二维DCT变换,该文提出了和媒体指令相适应的数据结构和计算方法,最大限度地利用媒体指令的运算能力,在软件设计时避免了数据相关带来的性能下降。实验证明这种快速计算的实现方法能够满足视频应用的实时要求,为编译器设计提供了具有实用性的参考。 展开更多
关键词 媒体指令 单指令多数据流 DCT
在线阅读 下载PDF
高性能可重构DSP处理器的数据通路设计 被引量:1
5
作者 韩亮 李莺 +1 位作者 张馨 陈杰 《电子科技大学学报》 EI CAS CSCD 北大核心 2005年第2期194-197,共4页
介绍了高性能定点可重构DSP处理器的数据通路设计。该数据通路以功能强大的16位定点计算单元为基础,搭建起高速16位数据处理平台;并能以单指令流多数据流的方式灵活支持多维向量运算;通过重构的方法有效地支持了32位数据处理。
关键词 数字信号处理 数据通路 可重构 单指令多数据流 并行处理
在线阅读 下载PDF
SIMD非对齐访存结构设计与实现 被引量:3
6
作者 余成龙 王永文 《计算机工程》 CAS CSCD 北大核心 2016年第9期1-4,共4页
单指令流多数据流(SIMD)是实现数据级并行的有效方法,但访问地址非对齐的数据严重影响程序的向量化,造成处理器性能下降。为降低非对齐访存延时,对高性能应用程序的访存结构进行建模,设计并实现SIMD分离缓冲行非对齐访存结构与双体cach... 单指令流多数据流(SIMD)是实现数据级并行的有效方法,但访问地址非对齐的数据严重影响程序的向量化,造成处理器性能下降。为降低非对齐访存延时,对高性能应用程序的访存结构进行建模,设计并实现SIMD分离缓冲行非对齐访存结构与双体cache非对齐访存结构。实验结果表明,在双体cache非对齐访存结构下,通过两数组相加与SIMD向量化实现的非对齐访存代码可达到对齐访存代码性能的99%,提高了SIMD向量化的访存效率。 展开更多
关键词 高性能计算 数据级并行 向量化 单指令流多数据流扩展 非对齐访存 Gem5模拟器
在线阅读 下载PDF
分簇VLIW DSP的SIMD编译优化 被引量:3
7
作者 林传文 顾乃杰 +1 位作者 雷一鸣 洪一 《中国科学技术大学学报》 CAS CSCD 北大核心 2011年第8期708-714,共7页
针对数字信号处理的应用特点,提出了一种识别SIMD指令的一般性方法;针对分簇结构SIMD指令的特点,给出了新的指令分簇算法和寄存器分配算法;最后在BWDSP100芯片的编译器上实现这些优化方法.实验结果表明,上述优化方法能充分发挥分簇结构S... 针对数字信号处理的应用特点,提出了一种识别SIMD指令的一般性方法;针对分簇结构SIMD指令的特点,给出了新的指令分簇算法和寄存器分配算法;最后在BWDSP100芯片的编译器上实现这些优化方法.实验结果表明,上述优化方法能充分发挥分簇结构SIMD指令的优势,提高编译器的效率. 展开更多
关键词 超长指令 分簇结构 单指令多数据流 编译优化
在线阅读 下载PDF
基于龙芯SIMD技术的H.264视频解码优化 被引量:5
8
作者 顾丽红 王锐 +1 位作者 陈华才 吴少刚 《计算机工程与设计》 北大核心 2017年第12期3361-3367,3373,共8页
为提高龙芯平台的多媒体处理能力,分析龙芯处理器核GS464/GS464E的LoongSIMD指令系统,提出SIMD指令级优化方法。通过分析FFmpeg的开源H.264解码器的并行特征,结合龙芯处理器的结构并行特点,利用龙芯特有的性能计数器,解析影响性能的热... 为提高龙芯平台的多媒体处理能力,分析龙芯处理器核GS464/GS464E的LoongSIMD指令系统,提出SIMD指令级优化方法。通过分析FFmpeg的开源H.264解码器的并行特征,结合龙芯处理器的结构并行特点,利用龙芯特有的性能计数器,解析影响性能的热点函数,采用手工嵌入龙芯SIMD和访存扩展等汇编指令的方式进行细粒度优化。实验结果表明,该方法使平均性能提高了50%,工作成果已推送到龙芯开源社区,增强了基于龙芯3A处理器的国产计算机在桌面多媒体应用领域的用户体验。 展开更多
关键词 单指令多数据流 龙芯3A GS464 GS464E微架构 FFmpeg多媒体库 H.264解码优化
在线阅读 下载PDF
面向SDR应用的向量存储器的设计与优化 被引量:1
9
作者 陈海燕 刘胜 +1 位作者 刘仲 陈书明 《国防科技大学学报》 EI CAS CSCD 北大核心 2012年第3期98-102,共5页
针对面向SDR应用的SIMD数字信号处理器高带宽数据访存需求,提出并实现了一种新型的向量存储结构。该向量存储器由16路向量存储块构成,每路采用两组多体低位地址交叉编址存储结构,减少了访存体冲突,充分利用多存储体带宽,以较小的功耗代... 针对面向SDR应用的SIMD数字信号处理器高带宽数据访存需求,提出并实现了一种新型的向量存储结构。该向量存储器由16路向量存储块构成,每路采用两组多体低位地址交叉编址存储结构,减少了访存体冲突,充分利用多存储体带宽,以较小的功耗代价实现并行访问多个向量数据。在此基础上,还设计了一种向量访存重整理单元,使向量存储器可灵活支持多路SIMD结构向量处理单元的非对齐访问,实现了其对向量存储器的共享。测试结果表明,该向量存储器能有效减少或消除向量处理单元之间的数据混洗操作,加速相关应用算法。 展开更多
关键词 向量处理 单指令多数据流 访存冲突 多存储体交叉 混洗 非对齐访问
在线阅读 下载PDF
LS SIMD计算机并行计算的面向对象仿真 被引量:1
10
作者 张发存 赵晓红 沈绪榜 《计算机工程与应用》 CSCD 北大核心 2003年第26期143-146,共4页
论文详细介绍了基于LSSIMD计算机的并行计算的面向对象仿真,提出了一个新颖的SIMD机的面向对象软件模型,并在PC机Windows平台上用MicrosoftVisualC++6.0编程实现。通过对一组数字图象采用不同的处理算法进行仿真计算、并与LSSIMD并行机... 论文详细介绍了基于LSSIMD计算机的并行计算的面向对象仿真,提出了一个新颖的SIMD机的面向对象软件模型,并在PC机Windows平台上用MicrosoftVisualC++6.0编程实现。通过对一组数字图象采用不同的处理算法进行仿真计算、并与LSSIMD并行机的同样图象的相同算法的运行结果进行比较,证明该系统具有正确性、实用性和可靠性。 展开更多
关键词 单指令多数据流 面向对象 仿真 汇编解释器
在线阅读 下载PDF
利用编译器进行地理信息系统软件的优化
11
作者 朱雷 潘懋 +2 位作者 李会军 徐绘宏 李丽勤 《计算机工程与应用》 CSCD 北大核心 2005年第13期27-28,77,共3页
在地理信息系统中需要处理的数据量越来越大的趋势下,提高软件代码的执行效率变得非常重要。论文介绍并讨论了利用编译器进行代码优化的各种情况;并采用地理信息系统中的一些空间分析的功能进行了测试。实验表明采用这种方法,提高了程... 在地理信息系统中需要处理的数据量越来越大的趋势下,提高软件代码的执行效率变得非常重要。论文介绍并讨论了利用编译器进行代码优化的各种情况;并采用地理信息系统中的一些空间分析的功能进行了测试。实验表明采用这种方法,提高了程序的运行速度,增强了程序分析处理数据的能力。 展开更多
关键词 地理信息系统 全程序优化 单指令多数据流扩展
在线阅读 下载PDF
基于SIMD技术的σ-LFSR
12
作者 曾光 王政 韩文报 《计算机应用研究》 CSCD 北大核心 2008年第8期2434-2437,2443,共5页
σ-线性反馈移位寄存器(σ-LFSR)是一类适合软件快速实现的新型反馈移位寄存器。结合第二代单指令多数据流扩展指令集SSE2,设计了一类基于SIMD技术的σ-LFSR。这类σ-LFSR充分利用SSE2提供的128bit整数数据结构及其操作,获得了非常高的... σ-线性反馈移位寄存器(σ-LFSR)是一类适合软件快速实现的新型反馈移位寄存器。结合第二代单指令多数据流扩展指令集SSE2,设计了一类基于SIMD技术的σ-LFSR。这类σ-LFSR充分利用SSE2提供的128bit整数数据结构及其操作,获得了非常高的软件实现效率,同时其输出序列达到了最大周期并具有良好的随机性。所得结论表明这类基于SIMD技术的σ-LFSR可以作为适合软件实现的高速序列密码驱动部分。 展开更多
关键词 σ-线性反馈移位寄存器 单指令多数据技术 第二代单指令多数据流扩展指令 序列密码 快速软件加密
在线阅读 下载PDF
多核平台PAML并行算法研究 被引量:1
13
作者 杨菊 吴卓锋 +1 位作者 王刚 刘晓光 《计算机工程与科学》 CSCD 北大核心 2013年第9期15-19,共5页
PAML是一款利用最大似然法进行系统发育分析的软件包,被广泛使用。然而,由于模型复杂、参数众多,PAML的计算过程非常耗时。对PAML中最重要的codeml程序进行了并行算法研究,通过算法分析和程序Profiling确定程序瓶颈。在此基础上,利用现... PAML是一款利用最大似然法进行系统发育分析的软件包,被广泛使用。然而,由于模型复杂、参数众多,PAML的计算过程非常耗时。对PAML中最重要的codeml程序进行了并行算法研究,通过算法分析和程序Profiling确定程序瓶颈。在此基础上,利用现代CPU的多核并行能力和SIMD并行机制优化程序瓶颈,从而提高了程序整体的运行速度。实际数据集和人工数据集上的实验表明并行算法有效提高了codeml的计算速度,加速比最高达7.94倍。 展开更多
关键词 并行算法 PAML 多核CPU 单指令多数据流
在线阅读 下载PDF
数字信号变换函数在多簇VLIW DSP上的优化 被引量:2
14
作者 甄扬 顾乃杰 叶鸿 《计算机工程》 CAS CSCD 北大核心 2016年第3期47-52,共6页
针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中... 针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中原有的顺序版本实现并行优化版本。实验结果表明,在4宏并行化模式下,所有函数加速比达到9以上,90%的函数加速比超过10,平均加速比为11.12。 展开更多
关键词 超长指令 单指令多数据流 数字信号处理器 循环展开 并行化 多簇
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部