-
题名发掘函数级单指令多数据向量化的方法
- 1
-
-
作者
李颖颖
高伟
高雨辰
翟胜伟
李朋远
-
机构
数学工程与先进计算国家重点实验室
信息工程大学
中国电子科技集团公司第二十七研究所
北京跟踪与通信技术研究所
-
出处
《计算机应用》
CSCD
北大核心
2017年第8期2200-2208,共9页
-
文摘
当前面向单指令多数据(SIMD)扩展部件的两类向量化方法分别是循环级向量化方法和超字级并行(SLP)方法。针对当前编译器不能实现函数级向量化的问题,提出一种基于静态单赋值的函数级向量化方法。该方法首先分析程序的变量属性,然后利用一组包括向量函数子句、一致子句、线性子句等编译指示子句指导编译器实现函数级向量化,最后利用变量属性结果对向量化代码进行了优化。从多媒体和图像处理领域选择部分测试用例对所提的函数级向量化的功能和性能在国产申威平台上进行测试,与程序串行执行相比,采用函数级向量化后程序的执行效率更高。实验结果表明函数级向量化可以取得类似任务级并行的加速效果,该方法可以指导自动函数级向量化的实现。
-
关键词
单指令多数据扩展
并行性
函数级向量化
编译指示
静态单赋值
-
Keywords
Single Instruction Multiple Data(SIMD) extension
parallelism
function level vectorization
compiler directive
static single assignment
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
TP311.53
[自动化与计算机技术—计算机软件与理论]
-
-
题名AES算法的SIMD指令集扩展方法与实现
- 2
-
-
作者
卢仕听
王帅
韩军
曾晓洋
-
机构
复旦大学专用集成电路与系统国家重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第6期121-123,共3页
-
基金
国家自然科学基金资助项目(60776028)
教育部重点基金资助项目(109055)
-
文摘
基于MIPS32 4k系列的处理器架构,提出一种AES算法的SIMD指令集扩展方法,利用处理器流水线对齐级和AES数据访问单元,实现64 bit数据位宽的并行处理操作。对不同实现方式的性能进行比较,结果表明,该方法的加解密运算性能有较大提高,硬件代价相对较小,且具有编程灵活性。
-
关键词
单指令流多数据流
高等加密标准
指令集扩展
-
Keywords
SIMD
Advanced Encryption Standard(AES)
instruction set extension
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名H.264编码器的SSE2指令级优化
被引量:2
- 3
-
-
作者
王琰
向校萱
祁燕
-
机构
沈阳理工大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
2012年第10期217-221,共5页
-
基金
辽宁省高等学校科技计划项目(No.1810162)
-
文摘
H.264视频编码标准采用了很多新技术,具有更优越的编码效率,同时也增加了计算复杂度,无法满足实时应用。由于单指令多数据扩展指令集2(SSE2)的并行运算能力可以提高计算机对多媒体数据的实时处理。文中主要采用了SSE2对H.264中的一些耗时较多的关键模块,例如整数像素运动估计中计算SAD、整数DCT变换、量化、Hadamard变换以及亚像素运动估计中计算SATD进行了指令级优化。实验结果表明,经过优化后,在保持视频图像质量的前提下,相应模块运行速度得到了提高,使H.264编码器整体的编码速度较好地满足实时要求。
-
关键词
H.264编码
绝对误差和
整数DCT变换
变换绝对差值总和
单指令多数据扩展指令集2(SSE2)
-
Keywords
H.264 encoding
Sum of Absolute Difference(SAD)
integer DCT
Sum of Absolute Transformed Dif-ference(SATD)
Streaming SIMD Extensions 2(SSE2)
-
分类号
TN919.81
[电子电信—通信与信息系统]
-
-
题名基于SSE指令的大内存快速拷贝
被引量:1
- 4
-
-
作者
钱昌松
刘志刚
刘代志
-
机构
第二炮兵工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2005年第2期113-114,120,共3页
-
基金
国家自然科学基金资助项目(40274044)
-
文摘
在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各内存拷贝函数拷贝速度与拷贝内存量之间的对应关系。
-
关键词
单指令多数据流扩展指令集
内存拷贝
MMX
代码优化
-
Keywords
Streaming SIMD Extensions(SSE)
Memory Copy
MMX
Code Optimization
-
分类号
TP319
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于数据并行的碰撞检测
- 5
-
-
作者
彭振
吴百锋
-
机构
复旦大学计算机科学技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第9期1-6,共6页
-
基金
鲁班软件大学合作计划项目
-
文摘
在建筑信息建模的精确碰撞检测应用中,数据量日趋庞大,但串行执行无法随处理机主频的增加而持续加速。针对该问题,构建面向多核及众核处理机的数据并行计算模型,基于此提出一种数据并行碰撞检测方法。对参与碰撞检测的模型进行立方体细分,去除数据相关性,设计数据并行的模型组合、冲突检测和归约计算过程,并分析算法的抽象形式和理论执行时间。实验结果表明,该方法具有可行性和持续可扩展性,可为解决数据密集型问题提供一种高效的数据并行方式。
-
关键词
数据并行
碰撞检测
单指令多数据
建筑信息建模
持续可扩展性
-
Keywords
data parallelism
collision detection
Single Instruction Multiple Data(SIMD)
Building Information Modeling(BIM)
continuous scalability
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于剪切的SLP向量化方法
被引量:1
- 6
-
-
作者
李颖颖
奚慧兴
高伟
李伟
翟胜伟
-
机构
信息工程大学
数学工程与先进计算国家重点实验室
鞍山师范学院
中国电子科技集团公司第二十七研究所
-
出处
《计算机应用研究》
CSCD
北大核心
2018年第9期2578-2582,共5页
-
基金
国家自然科学基金资助项目(61472447)
国家"863"计划资助项目(2014AA01A300)
国家"核高基"重大专项资助项目(2013ZX0102-8001-001-001)
-
文摘
作为多媒体和科学计算等领域重要的程序加速器件之一,SIMD扩展部件现已广泛集成于各类处理器中。自动向量化方法是目前生成SIMD向量化程序的重要手段。超字并行SLP(superword level parallelism)方法现已广泛应用于编译器中,并成为实现基本块级代码向量化的主要手段。SLP在进行收益评估时仅考虑代码段整体向量化的收益,并没有考虑到向量化收益为负的片段会降低最终整体的向量化收益,从而导致SLP方法无法达到最好的向量化效果。基于此,提出了一种基于剪切的SLP向量化方法(throttling SLP,TSLP)。通过寻找最优的向量化子图,去除了向量化收益为负的代码段,从而可以获得更好的向量化效果。通过标准测试程序的实验结果表明,与原来的SLP方法相比,TSLP方法平均能够获得9%的性能提升。
-
关键词
单指令多数据扩展部件
自动向量化
超字并行
代价模型
-
Keywords
SIMD extension
auto-vectorization
superword level parallelism(SLP)
cost model
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名SIMD自动向量化编译优化概述
被引量:36
- 7
-
-
作者
高伟
赵荣彩
韩林
庞建民
丁锐
-
机构
数学工程与先进计算国家重点实验室(解放军信息工程大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2015年第6期1265-1284,共20页
-
基金
"核高基"国家科技重大专项(2009ZX01036-001-001-2)
-
文摘
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向.
-
关键词
SIMD扩展部件
自动向量化
数据级并行
编译优化
-
Keywords
SIMD extension
auto-veetorization
data level parallelism
compiling optimization
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种改进的控制流SIMD向量化方法
被引量:3
- 8
-
-
作者
高伟
李颖颖
孙回回
李雁冰
赵荣彩
-
机构
数学工程与先进计算国家重点实验室(解放军信息工程大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2017年第8期2046-2063,共18页
-
基金
"核高基"国家科技重大专项(2009ZX01036)~~
-
文摘
SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含的向量并行度,导致生成的向量代码效率较低.此外,不精确的代价模型指导控制流向量化,同样导致生成的向量代码效率较低.为此,提出了改进的控制流SIMD向量化方法.首先,提出了含有控制依赖的循环分布算法,分离循环的可向量化部分和不可向量化部分,同时考虑分布时数据的局部性;其次,提出了一种直接向量化控制流的方法,该方法考虑了基本块间的向量重用;最后,利用精确的代价模型指导超字选择指令和超字条件分支指令的生成.实验结果表明:与现有的控制流向量化方法相比,改进方法生成的向量代码性能提高了24%.
-
关键词
SIMD扩展部件
控制依赖
数据依赖
循环分布
-
Keywords
SIMD extension
control dependence
data dependence
loop distribution
-
分类号
TP314
[自动化与计算机技术—计算机软件与理论]
-
-
题名利用编译器进行地理信息系统软件的优化
- 9
-
-
作者
朱雷
潘懋
李会军
徐绘宏
李丽勤
-
机构
北京大学造山带与地壳演化教育部重点实验室
北京市信息化促进中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2005年第13期27-28,77,共3页
-
基金
国家863高技术研究发展计划资助项目(编号:2001AA135180)
-
文摘
在地理信息系统中需要处理的数据量越来越大的趋势下,提高软件代码的执行效率变得非常重要。论文介绍并讨论了利用编译器进行代码优化的各种情况;并采用地理信息系统中的一些空间分析的功能进行了测试。实验表明采用这种方法,提高了程序的运行速度,增强了程序分析处理数据的能力。
-
关键词
地理信息系统
全程序优化
单指令多数据流式扩展
-
Keywords
GIS,WPO,SSE
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于SIMD技术的σ-LFSR
- 10
-
-
作者
曾光
王政
韩文报
-
机构
解放军信息工程大学信息工程学院信息研究系
-
出处
《计算机应用研究》
CSCD
北大核心
2008年第8期2434-2437,2443,共5页
-
基金
国家自然科学基金资助项目(60503011)
国家"863"计划资助项目(2006AA01Z425)
国家"973"计划资助项目(2007CB807902)
-
文摘
σ-线性反馈移位寄存器(σ-LFSR)是一类适合软件快速实现的新型反馈移位寄存器。结合第二代单指令多数据流扩展指令集SSE2,设计了一类基于SIMD技术的σ-LFSR。这类σ-LFSR充分利用SSE2提供的128bit整数数据结构及其操作,获得了非常高的软件实现效率,同时其输出序列达到了最大周期并具有良好的随机性。所得结论表明这类基于SIMD技术的σ-LFSR可以作为适合软件实现的高速序列密码驱动部分。
-
关键词
σ-线性反馈移位寄存器
单指令多数据技术
第二代单指令多数据流扩展指令集
序列密码
快速软件加密
-
Keywords
σ-linear feedback shift register
single-istruction muhiple-data
streaming single-istruction multiple-data exten-sons 2
stream cipher
fast software encryption
-
分类号
TP309.7
[自动化与计算机技术—计算机系统结构]
-
-
题名SIMD非对齐访存结构设计与实现
被引量:3
- 11
-
-
作者
余成龙
王永文
-
机构
国防科学技术大学计算机学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第9期1-4,共4页
-
基金
国家自然科学基金资助项目"面向超高性能计算的众线程宽向量微体系结构研究"(61170045)
-
文摘
单指令流多数据流(SIMD)是实现数据级并行的有效方法,但访问地址非对齐的数据严重影响程序的向量化,造成处理器性能下降。为降低非对齐访存延时,对高性能应用程序的访存结构进行建模,设计并实现SIMD分离缓冲行非对齐访存结构与双体cache非对齐访存结构。实验结果表明,在双体cache非对齐访存结构下,通过两数组相加与SIMD向量化实现的非对齐访存代码可达到对齐访存代码性能的99%,提高了SIMD向量化的访存效率。
-
关键词
高性能计算
数据级并行
向量化
单指令流多数据流扩展
非对齐访存
Gem5模拟器
-
Keywords
high-performance computing
Data Level Parallelism ( DLP )
vectorization
Single Instruction Multiple Data (SIMD) extension
unaligned memory access
Gem5 simulator
-
分类号
TP302.2
[自动化与计算机技术—计算机系统结构]
-