期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
发掘函数级单指令多数据向量化的方法
1
作者 李颖颖 高伟 +2 位作者 高雨辰 翟胜伟 李朋远 《计算机应用》 CSCD 北大核心 2017年第8期2200-2208,共9页
当前面向单指令多数据(SIMD)扩展部件的两类向量化方法分别是循环级向量化方法和超字级并行(SLP)方法。针对当前编译器不能实现函数级向量化的问题,提出一种基于静态单赋值的函数级向量化方法。该方法首先分析程序的变量属性,然后利用... 当前面向单指令多数据(SIMD)扩展部件的两类向量化方法分别是循环级向量化方法和超字级并行(SLP)方法。针对当前编译器不能实现函数级向量化的问题,提出一种基于静态单赋值的函数级向量化方法。该方法首先分析程序的变量属性,然后利用一组包括向量函数子句、一致子句、线性子句等编译指示子句指导编译器实现函数级向量化,最后利用变量属性结果对向量化代码进行了优化。从多媒体和图像处理领域选择部分测试用例对所提的函数级向量化的功能和性能在国产申威平台上进行测试,与程序串行执行相比,采用函数级向量化后程序的执行效率更高。实验结果表明函数级向量化可以取得类似任务级并行的加速效果,该方法可以指导自动函数级向量化的实现。 展开更多
关键词 单指令多数据扩展 并行性 函数级向量化 编译指示 静态单赋值
在线阅读 下载PDF
基于单指令多数据技术的H.264编码优化 被引量:5
2
作者 朱林 冯燕 《计算机应用》 CSCD 北大核心 2005年第12期2798-2799,2802,共3页
简要介绍了单指令多数据(Single-Istruction Multiple-Data,SIMD)指令系统,并用该技术对H.264中的整数离散余弦变换(Discrete Cosine Transform,DCT)、量化、插值和运动估计等模块进行了优化,实验结果表明优化后程序的编码速率可达到30... 简要介绍了单指令多数据(Single-Istruction Multiple-Data,SIMD)指令系统,并用该技术对H.264中的整数离散余弦变换(Discrete Cosine Transform,DCT)、量化、插值和运动估计等模块进行了优化,实验结果表明优化后程序的编码速率可达到30fps左右,比未优化时速度提高了6~8倍. 展开更多
关键词 H.264 单指令多数据 整数离散余弦变换 插值 绝对误差和
在线阅读 下载PDF
非正规化循环的单指令多数据向量化 被引量:1
3
作者 侯永生 赵荣彩 +1 位作者 高伟 高伟 《计算机应用》 CSCD 北大核心 2013年第11期3149-3154,共6页
针对非正规化循环的上下界、步长等循环信息不确定的问题,解决了循环条件为逻辑表达式、增量减量语句和do-while循环的正规化问题。对不能正规化的循环提出了一种展开压紧算法,并用超字并行向量化方法发掘展开压紧的结果。实验结果表明... 针对非正规化循环的上下界、步长等循环信息不确定的问题,解决了循环条件为逻辑表达式、增量减量语句和do-while循环的正规化问题。对不能正规化的循环提出了一种展开压紧算法,并用超字并行向量化方法发掘展开压紧的结果。实验结果表明,与现有的非正规化循环的单指令多数据(SIMD)向量化方法相比,所提出的转换方法和展开压紧方法能够更好地发掘非正规化循环的向量化特性,生成代码的性能加速比提高了6%以上。 展开更多
关键词 非正规化循环 单指令多数据向量化 展开压紧 依赖关系分析
在线阅读 下载PDF
一种单指令多数据向量化归约方法 被引量:1
4
作者 韩林 高伟 +2 位作者 王冬 王鹏翔 李颖颖 《计算机工程》 CAS CSCD 北大核心 2017年第7期9-14,共6页
单指令多数据(SIMD)扩展部件旨在发掘多媒体程序和科学计算程序的数据级并行,归约操作引起的真依赖给发掘程序中的数据级并行带来了阻碍。但体系结构和指令集的差异,使得面向向量机的归约向量化方法并不适用于SIMD扩展部件。针对上述问... 单指令多数据(SIMD)扩展部件旨在发掘多媒体程序和科学计算程序的数据级并行,归约操作引起的真依赖给发掘程序中的数据级并行带来了阻碍。但体系结构和指令集的差异,使得面向向量机的归约向量化方法并不适用于SIMD扩展部件。针对上述问题,提出一种面向SIMD扩展部件的归约向量代码生成方法,以及归约的识别方法,利用向量移位指令实现向量代码生成。基于SPEC2006标准测试集的测试结果表明,与未利用归约向量化技术前相比,利用该归约向量化方法后的向量化加速比提高34%,从而验证了该方法的有效性。 展开更多
关键词 单指令多数据向量化 归约 依赖分析 代码生成 并行性
在线阅读 下载PDF
混洗SRAM:SRAM中的并行按位数据混洗
5
作者 张敦博 曾灵灵 +2 位作者 王若曦 王耀华 沈立 《计算机研究与发展》 北大核心 2025年第1期75-89,共15页
向量处理单元(vector processing unit,VPU)已被广泛应用于神经网络、信号处理和高性能计算等处理器设计中,但其总体性能仍受限于专门用于对齐数据的混洗操作.传统上,处理器使用其数据混洗单元来处理混洗操作.然而,使用数据混洗单元来... 向量处理单元(vector processing unit,VPU)已被广泛应用于神经网络、信号处理和高性能计算等处理器设计中,但其总体性能仍受限于专门用于对齐数据的混洗操作.传统上,处理器使用其数据混洗单元来处理混洗操作.然而,使用数据混洗单元来处理混洗指令将带来昂贵的数据移动开销,并且数据混洗单元只能串行混洗数据.事实上,混洗操作只会改变数据的布局,理想情况下混洗操作应在内存中完成.随着存内计算技术的发展,SRAM不仅可以作为存储部件,同时还能作为计算单元.为了实现存内混洗,提出了混洗SRAM,它可以在SRAM体中逐位地并行混洗多个向量.混洗SRAM的关键思想是利用SRAM体中位线的数据移动能力来改变数据的布局.这样SRAM体中位于同一位线上不同数据的相同位可以同时被移动,从而使混洗操作拥有高度的并行性.通过适当的数据布局和向量混洗扩展指令的支持,混洗SRAM可以高效地处理常用的混洗操作.评测结果表明,对于常用的混洗操作,混洗SRAM可以实现平均28倍的性能增益,对于FFT,AlexNet,VggNet等实际的应用,可以实现平均3.18倍的性能增益.混洗SRAM相较于传统SRAM的面积开销仅增加了4.4%. 展开更多
关键词 向量单指令多数据体系结构 静态随机访问存储器 混洗操作 向量内存 存内计算
在线阅读 下载PDF
EDO-SIMD:内嵌数据组织的SIMD多媒体扩展指令集
6
作者 刘坤杰 秦兴 +2 位作者 严晓浪 李德贤 彭剑英 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2008年第4期565-570,共6页
针对单指令多数据(SIMD)并行多媒体扩展在图像和视频等媒体应用中数据组织和存取等非有效计算开销过大的问题,采用嵌入式处理器面向应用定制指令集的设计思路,通过将数据组织与计算或存取相融合,设计了内嵌数据组织和可变长向量存取两... 针对单指令多数据(SIMD)并行多媒体扩展在图像和视频等媒体应用中数据组织和存取等非有效计算开销过大的问题,采用嵌入式处理器面向应用定制指令集的设计思路,通过将数据组织与计算或存取相融合,设计了内嵌数据组织和可变长向量存取两类特殊扩展指令,并与其他基本指令构成了EDO-SIMD(embedded data organi-zation SIMD)多媒体扩展指令集.性能测试结果表明,EDO-SIMD指令体系可显著降低典型媒体应用核心的非有效计算开销,并提高数据级并行效率. 展开更多
关键词 多媒体处理 单指令多数据 内嵌数据组织
在线阅读 下载PDF
便笺式存储器中一种新颖的交错映射数据布局
7
作者 曾灵灵 张敦博 +1 位作者 沈立 窦强 《计算机工程》 CAS CSCD 北大核心 2024年第5期33-40,共8页
现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案... 现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案是对原始矩阵进行预先转置操作,将列优先访问的复杂性集中在一次矩阵转置运算中,然而矩阵转置不仅会引入额外的数据传输操作,而且会消耗额外的存储空间用于存储转置后的矩阵。为了在不引入额外开销的情况下使行优先与列优先数据访问具有同样高效的访存效率,提出一种新颖的交错映射(IM)数据布局,同时在不改变便笺式存储器(SPM)内部结构的基础上,在SPM的输入和输出(I/O)接口处添加循环移位单元和译码单元2个新组件,实现交错映射数据布局并定制访存指令,使程序员可通过定制的访存指令充分利用该数据布局。实验结果表明,应用交错映射数据布局的SPM在仅额外增加了1.73%面积开销的情况下获得了1.4倍的加速。 展开更多
关键词 矩阵转置 单指令多数据 便笺式存储器 数据布局 静态随机存储器
在线阅读 下载PDF
H.264编码器的SSE2指令级优化 被引量:1
8
作者 王琰 向校萱 祁燕 《计算机工程与应用》 CSCD 2012年第10期217-221,共5页
H.264视频编码标准采用了很多新技术,具有更优越的编码效率,同时也增加了计算复杂度,无法满足实时应用。由于单指令多数据扩展指令集2(SSE2)的并行运算能力可以提高计算机对多媒体数据的实时处理。文中主要采用了SSE2对H.264中的一些耗... H.264视频编码标准采用了很多新技术,具有更优越的编码效率,同时也增加了计算复杂度,无法满足实时应用。由于单指令多数据扩展指令集2(SSE2)的并行运算能力可以提高计算机对多媒体数据的实时处理。文中主要采用了SSE2对H.264中的一些耗时较多的关键模块,例如整数像素运动估计中计算SAD、整数DCT变换、量化、Hadamard变换以及亚像素运动估计中计算SATD进行了指令级优化。实验结果表明,经过优化后,在保持视频图像质量的前提下,相应模块运行速度得到了提高,使H.264编码器整体的编码速度较好地满足实时要求。 展开更多
关键词 H.264编码 绝对误差和 整数DCT变换 变换绝对差值总和 单指令多数据扩展指令集2(SSE2)
在线阅读 下载PDF
多媒体MMX指令在工业控制中的应用
9
作者 许毅 冯山 朱大勇 《计算机应用》 CSCD 北大核心 2002年第11期125-126,共2页
简单介绍了多媒体MMX指令可以高效率进行矢量和矩阵运算的特点 ,以工业控制中的静态解耦控制为例 ,对MMX技术的使用作了说明 ,并实现了核心程序。
关键词 多媒体 MMX指令 工业控制 单指令多数据 静态解耦控制 参数控制
在线阅读 下载PDF
基于Floyd-Steinberg误差扩散的数字半调高效计算
10
作者 廉凯成 杨晨 +1 位作者 朱佳伟 柴志雷 《计算机工程与科学》 北大核心 2025年第5期875-884,共10页
针对工业界采用的主流数字半调算法——Floyd-Steinberg误差扩散算法在处理日益增大的图像数据时存在的数据依赖严重、可并行性低和实时性差等问题,提出高效计算方法。首先,通过预生成像素-误差扩散值查找表避免了频繁的误差和扩散过程... 针对工业界采用的主流数字半调算法——Floyd-Steinberg误差扩散算法在处理日益增大的图像数据时存在的数据依赖严重、可并行性低和实时性差等问题,提出高效计算方法。首先,通过预生成像素-误差扩散值查找表避免了频繁的误差和扩散过程计算;其次,通过基于行缓冲的高效数据结构实现访存优化;再次,提出误差累加单指令多数据SIMD并行方法,使用AVX-512指令集并行累加多个像素同向误差,增强CPU中矢量寄存器的作用;最后,通过边缘误差限制的列分块方法实现多核数据并行,同时消除由于数据并行处理时边界部分数据依赖导致的误差问题。实验结果表明:本文提出的优化算法具有良好的规模伸缩性,计算性能随最佳并行核心数量线性提升;与传统的Floyd-Steinberg误差扩散算法相比,在16核Intel Core TM i7-11700 CPU平台上处理5120×5120灰度图时,获得15倍性能提升,仅需23 ms即可完成处理,更好地满足大规模、超大幅面、超高分辨率和多变内容的工业高速印刷的需求。 展开更多
关键词 数字半调 Floyd-Steinberg误差扩散 单指令多数据 并行计算
在线阅读 下载PDF
面向视频应用的专用指令集处理器设计
11
作者 麻巍 龙国强 《机电工程》 CAS 2008年第7期40-43,共4页
由于专用指令集处理器(ASIP)具备ASIC的高效性与通用处理器的灵活性,在视频处理领域有着广阔的应用前景。设计了一种面向视频应用的SIMD处理器,它包括显式数据置换的专用指令集和专门设计的数据通路和运算单元,实现了高效的视频处理。... 由于专用指令集处理器(ASIP)具备ASIC的高效性与通用处理器的灵活性,在视频处理领域有着广阔的应用前景。设计了一种面向视频应用的SIMD处理器,它包括显式数据置换的专用指令集和专门设计的数据通路和运算单元,实现了高效的视频处理。并采用SMIC 0.18μm标准CMOS工艺对该设计进行了VLSI实现,在最差工作条件下,时钟频率可达到180 MHz,面积约12.38 mm2。表明该处理器能极大地提高视频处理的效率。 展开更多
关键词 专用指令集处理器 视频处理 单指令多数据 显式数据置换 流水线 超大规模集线电路
在线阅读 下载PDF
基于数据并行的碰撞检测
12
作者 彭振 吴百锋 《计算机工程》 CAS CSCD 北大核心 2017年第9期1-6,共6页
在建筑信息建模的精确碰撞检测应用中,数据量日趋庞大,但串行执行无法随处理机主频的增加而持续加速。针对该问题,构建面向多核及众核处理机的数据并行计算模型,基于此提出一种数据并行碰撞检测方法。对参与碰撞检测的模型进行立方体细... 在建筑信息建模的精确碰撞检测应用中,数据量日趋庞大,但串行执行无法随处理机主频的增加而持续加速。针对该问题,构建面向多核及众核处理机的数据并行计算模型,基于此提出一种数据并行碰撞检测方法。对参与碰撞检测的模型进行立方体细分,去除数据相关性,设计数据并行的模型组合、冲突检测和归约计算过程,并分析算法的抽象形式和理论执行时间。实验结果表明,该方法具有可行性和持续可扩展性,可为解决数据密集型问题提供一种高效的数据并行方式。 展开更多
关键词 数据并行 碰撞检测 单指令多数据 建筑信息建模 持续可扩展性
在线阅读 下载PDF
基于SIMD的AVS3并行率失真优化量化算法 被引量:1
13
作者 唐毅欣 黄晓峰 +3 位作者 唐然 周洋 崔燕 殷海兵 《电信科学》 北大核心 2024年第6期114-126,共13页
针对第三代音频视频标准(the third generation audio video coding standard,AVS3)中的率失真优化量化(rate-distortion optimization quantization,RDOQ)过程的编码效率问题,提出一种基于单指令多数据(single instruction multiple da... 针对第三代音频视频标准(the third generation audio video coding standard,AVS3)中的率失真优化量化(rate-distortion optimization quantization,RDOQ)过程的编码效率问题,提出一种基于单指令多数据(single instruction multiple data,SIMD)的并行RDOQ算法。首先,在最优系数决策(optimal coefficient decision,OCD)阶段,通过优化,仅保留扫描线内的依赖关系。然后,在最后一个非零位置决策(last non-zero position decision,LNPD)阶段,基于分治策略,通过将Zig-Zag扫描线分解成多个独立扫描线,实现每条扫描线上最优系数位置的并行计算。最后,采用SIMD指令进行并行加速,以提高整个率失真优化量化的计算效率。实验结果表明,该算法在AI配置下,可以降低29.46%的编码时间,而BD-Rate仅损失0.25%。 展开更多
关键词 AVS3 率失真优化量化 单指令多数据 并行加速
在线阅读 下载PDF
基于SIMD技术的σ-LFSR
14
作者 曾光 王政 韩文报 《计算机应用研究》 CSCD 北大核心 2008年第8期2434-2437,2443,共5页
σ-线性反馈移位寄存器(σ-LFSR)是一类适合软件快速实现的新型反馈移位寄存器。结合第二代单指令多数据流扩展指令集SSE2,设计了一类基于SIMD技术的σ-LFSR。这类σ-LFSR充分利用SSE2提供的128bit整数数据结构及其操作,获得了非常高的... σ-线性反馈移位寄存器(σ-LFSR)是一类适合软件快速实现的新型反馈移位寄存器。结合第二代单指令多数据流扩展指令集SSE2,设计了一类基于SIMD技术的σ-LFSR。这类σ-LFSR充分利用SSE2提供的128bit整数数据结构及其操作,获得了非常高的软件实现效率,同时其输出序列达到了最大周期并具有良好的随机性。所得结论表明这类基于SIMD技术的σ-LFSR可以作为适合软件实现的高速序列密码驱动部分。 展开更多
关键词 σ-线性反馈移位寄存器 单指令多数据技术 第二代单指令多数据流扩展指令 序列密码 快速软件加密
在线阅读 下载PDF
一种基于PC的快速三维图像重建方法 被引量:11
15
作者 毛海鹏 张定华 +2 位作者 梁亮 赵歆波 李山 《系统仿真学报》 CAS CSCD 2004年第11期2486-2489,共4页
主要从传统FDK算法的改进和数据并行计算两方面来研究快速三维图像重建算法,提出了一种Z线优先重建法,能够有效地组织和划分重建数据,从而使得对重建数据的内存访问非常连续,便于采用单指令多数据(Single Instruction Multiple Data, SI... 主要从传统FDK算法的改进和数据并行计算两方面来研究快速三维图像重建算法,提出了一种Z线优先重建法,能够有效地组织和划分重建数据,从而使得对重建数据的内存访问非常连续,便于采用单指令多数据(Single Instruction Multiple Data, SIMD)技术进行数据并行处理。最后基于Intel Pentium 4 CPU的PC平台,利用SSE/SSE2技术开发了三维图像快速重建引擎。实验结果表明本文提出的方法非常有效,与原始重建算法相比,在保证图像质量不受损失的前提下取得了20倍以上的重建加速比。 展开更多
关键词 三维图像重建 FDK算法 快速重建 单指令多数据 并行计算
在线阅读 下载PDF
软件无线电数字信号处理器体系结构研究 被引量:4
16
作者 刘衡竹 莫方政 +4 位作者 张波涛 赵恒 刘冬培 陈艇 周理 《国防科技大学学报》 EI CAS CSCD 北大核心 2009年第5期6-11,共6页
软件无线电因被认为是无线通信技术未来的发展趋势而受到广泛关注。目前数字信号处理器是软件无线电发展的瓶颈。通过分析、比较目前几种较为典型的软件无线电数字信号处理器结构,归纳总结各种结构各自设计出发点和优缺点,并对软件无线... 软件无线电因被认为是无线通信技术未来的发展趋势而受到广泛关注。目前数字信号处理器是软件无线电发展的瓶颈。通过分析、比较目前几种较为典型的软件无线电数字信号处理器结构,归纳总结各种结构各自设计出发点和优缺点,并对软件无线电数字信号处理器的发展趋势做了展望。 展开更多
关键词 软件无线电数字信号处理器 可重构 单指令多数据 超长指令
在线阅读 下载PDF
H.264编码工具性能及实时性研究 被引量:1
17
作者 张新晨 康蓬 +1 位作者 艾浩军 胡瑞敏 《计算机工程》 CAS CSCD 北大核心 2006年第6期221-222,225,共3页
H.264具有更好的编码效率,但其高复杂度无法满足实时应用。针对低码率应用,分析各编码工具的性能并选取合理编码框架,同时利用单指令多数据(SIMD)技术并行实现快速搜索及整数变换。
关键词 视频编码 H.264 快速搜索 单指令多数据
在线阅读 下载PDF
基于体素模型的锥束CT仿真投影快速计算 被引量:2
18
作者 梅创社 张顺利 《核电子学与探测技术》 CAS CSCD 北大核心 2012年第7期793-797,共5页
在锥束CT图像重建算法研究中,通常利用计算机仿真方法生成理想的投影数据。针对体素模型下投影仿真速度慢的问题,提出了一种快速仿真投影计算方法。采用一种高效的射线与体素的遍历和求交算法来计算三维射线穿过体素的索引及长度,然后使... 在锥束CT图像重建算法研究中,通常利用计算机仿真方法生成理想的投影数据。针对体素模型下投影仿真速度慢的问题,提出了一种快速仿真投影计算方法。采用一种高效的射线与体素的遍历和求交算法来计算三维射线穿过体素的索引及长度,然后使用Intel处理器的单指令多数据(SIMD)技术,一次性加载4个体素数据,利用SSE技术实现了仿真投影的快速并行计算。实验结果表明文中提出的方法非常有效,在生成准确仿真投影数据的同时取得了3~5倍的加速比。 展开更多
关键词 锥束计算机层析摄影术 仿真投影 图像重建 单指令多数据
在线阅读 下载PDF
基于MMX技术的SIMD并行运算优化算法 被引量:1
19
作者 张剑 《传感技术学报》 CAS CSCD 北大核心 2005年第4期897-900,共4页
将面向对象思想引入到SAD值计算的并行操作过程中,并从SIMD并行运算的角度出发,给出了改进的图像组织优化算法,通过对MMX优化后的编码器速度的测试结果知,在目前H.264/AVC的视频编码上,该编码器的编码速度有明显地提高,为实现窄带中的... 将面向对象思想引入到SAD值计算的并行操作过程中,并从SIMD并行运算的角度出发,给出了改进的图像组织优化算法,通过对MMX优化后的编码器速度的测试结果知,在目前H.264/AVC的视频编码上,该编码器的编码速度有明显地提高,为实现窄带中的实时视频通信提供了保障。 展开更多
关键词 编码器 矢量 并行运算 单指令多数据
在线阅读 下载PDF
一种基于剪切的SLP向量化方法
20
作者 李颖颖 奚慧兴 +2 位作者 高伟 李伟 翟胜伟 《计算机应用研究》 CSCD 北大核心 2018年第9期2578-2582,共5页
作为多媒体和科学计算等领域重要的程序加速器件之一,SIMD扩展部件现已广泛集成于各类处理器中。自动向量化方法是目前生成SIMD向量化程序的重要手段。超字并行SLP(superword level parallelism)方法现已广泛应用于编译器中,并成为实现... 作为多媒体和科学计算等领域重要的程序加速器件之一,SIMD扩展部件现已广泛集成于各类处理器中。自动向量化方法是目前生成SIMD向量化程序的重要手段。超字并行SLP(superword level parallelism)方法现已广泛应用于编译器中,并成为实现基本块级代码向量化的主要手段。SLP在进行收益评估时仅考虑代码段整体向量化的收益,并没有考虑到向量化收益为负的片段会降低最终整体的向量化收益,从而导致SLP方法无法达到最好的向量化效果。基于此,提出了一种基于剪切的SLP向量化方法(throttling SLP,TSLP)。通过寻找最优的向量化子图,去除了向量化收益为负的代码段,从而可以获得更好的向量化效果。通过标准测试程序的实验结果表明,与原来的SLP方法相比,TSLP方法平均能够获得9%的性能提升。 展开更多
关键词 单指令多数据扩展部件 自动向量化 超字并行 代价模型
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部