-
题名发掘函数级单指令多数据向量化的方法
- 1
-
-
作者
李颖颖
高伟
高雨辰
翟胜伟
李朋远
-
机构
数学工程与先进计算国家重点实验室
信息工程大学
中国电子科技集团公司第二十七研究所
北京跟踪与通信技术研究所
-
出处
《计算机应用》
CSCD
北大核心
2017年第8期2200-2208,共9页
-
文摘
当前面向单指令多数据(SIMD)扩展部件的两类向量化方法分别是循环级向量化方法和超字级并行(SLP)方法。针对当前编译器不能实现函数级向量化的问题,提出一种基于静态单赋值的函数级向量化方法。该方法首先分析程序的变量属性,然后利用一组包括向量函数子句、一致子句、线性子句等编译指示子句指导编译器实现函数级向量化,最后利用变量属性结果对向量化代码进行了优化。从多媒体和图像处理领域选择部分测试用例对所提的函数级向量化的功能和性能在国产申威平台上进行测试,与程序串行执行相比,采用函数级向量化后程序的执行效率更高。实验结果表明函数级向量化可以取得类似任务级并行的加速效果,该方法可以指导自动函数级向量化的实现。
-
关键词
单指令多数据扩展
并行性
函数级向量化
编译指示
静态单赋值
-
Keywords
Single Instruction Multiple Data(SIMD) extension
parallelism
function level vectorization
compiler directive
static single assignment
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
TP311.53
[自动化与计算机技术—计算机软件与理论]
-
-
题名H.264编码器的SSE2指令级优化
被引量:2
- 2
-
-
作者
王琰
向校萱
祁燕
-
机构
沈阳理工大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
2012年第10期217-221,共5页
-
基金
辽宁省高等学校科技计划项目(No.1810162)
-
文摘
H.264视频编码标准采用了很多新技术,具有更优越的编码效率,同时也增加了计算复杂度,无法满足实时应用。由于单指令多数据扩展指令集2(SSE2)的并行运算能力可以提高计算机对多媒体数据的实时处理。文中主要采用了SSE2对H.264中的一些耗时较多的关键模块,例如整数像素运动估计中计算SAD、整数DCT变换、量化、Hadamard变换以及亚像素运动估计中计算SATD进行了指令级优化。实验结果表明,经过优化后,在保持视频图像质量的前提下,相应模块运行速度得到了提高,使H.264编码器整体的编码速度较好地满足实时要求。
-
关键词
H.264编码
绝对误差和
整数DCT变换
变换绝对差值总和
单指令多数据扩展指令集2(SSE2)
-
Keywords
H.264 encoding
Sum of Absolute Difference(SAD)
integer DCT
Sum of Absolute Transformed Dif-ference(SATD)
Streaming SIMD Extensions 2(SSE2)
-
分类号
TN919.81
[电子电信—通信与信息系统]
-
-
题名一种基于剪切的SLP向量化方法
被引量:1
- 3
-
-
作者
李颖颖
奚慧兴
高伟
李伟
翟胜伟
-
机构
信息工程大学
数学工程与先进计算国家重点实验室
鞍山师范学院
中国电子科技集团公司第二十七研究所
-
出处
《计算机应用研究》
CSCD
北大核心
2018年第9期2578-2582,共5页
-
基金
国家自然科学基金资助项目(61472447)
国家"863"计划资助项目(2014AA01A300)
国家"核高基"重大专项资助项目(2013ZX0102-8001-001-001)
-
文摘
作为多媒体和科学计算等领域重要的程序加速器件之一,SIMD扩展部件现已广泛集成于各类处理器中。自动向量化方法是目前生成SIMD向量化程序的重要手段。超字并行SLP(superword level parallelism)方法现已广泛应用于编译器中,并成为实现基本块级代码向量化的主要手段。SLP在进行收益评估时仅考虑代码段整体向量化的收益,并没有考虑到向量化收益为负的片段会降低最终整体的向量化收益,从而导致SLP方法无法达到最好的向量化效果。基于此,提出了一种基于剪切的SLP向量化方法(throttling SLP,TSLP)。通过寻找最优的向量化子图,去除了向量化收益为负的代码段,从而可以获得更好的向量化效果。通过标准测试程序的实验结果表明,与原来的SLP方法相比,TSLP方法平均能够获得9%的性能提升。
-
关键词
单指令多数据扩展部件
自动向量化
超字并行
代价模型
-
Keywords
SIMD extension
auto-vectorization
superword level parallelism(SLP)
cost model
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-