针对单指令多数据(SIMD)并行多媒体扩展在图像和视频等媒体应用中数据组织和存取等非有效计算开销过大的问题,采用嵌入式处理器面向应用定制指令集的设计思路,通过将数据组织与计算或存取相融合,设计了内嵌数据组织和可变长向量存取两...针对单指令多数据(SIMD)并行多媒体扩展在图像和视频等媒体应用中数据组织和存取等非有效计算开销过大的问题,采用嵌入式处理器面向应用定制指令集的设计思路,通过将数据组织与计算或存取相融合,设计了内嵌数据组织和可变长向量存取两类特殊扩展指令,并与其他基本指令构成了EDO-SIMD(embedded data organi-zation SIMD)多媒体扩展指令集.性能测试结果表明,EDO-SIMD指令体系可显著降低典型媒体应用核心的非有效计算开销,并提高数据级并行效率.展开更多
随着SIMD(Single Instruction Multiple Data stream)结构DSP(Digital Signal Processor)片上集成了越来越多的处理单元,并行访存的灵活性及带宽效率对实际运算性能的影响越来越大.本文详细分析了一般SIMD结构DSP中基2 FFT(Fast Fo...随着SIMD(Single Instruction Multiple Data stream)结构DSP(Digital Signal Processor)片上集成了越来越多的处理单元,并行访存的灵活性及带宽效率对实际运算性能的影响越来越大.本文详细分析了一般SIMD结构DSP中基2 FFT(Fast Fourier Transform)并行算法面临的访存问题,采用简单的部分地址异或逻辑完成SIMD并行访存地址转换,实现了FFT运算的无冲突SIMD并行访存;提出了几种带特殊混洗模式的向量访存指令,可完全消除SIMD结构下基2FFT运算时需要的额外混洗指令操作.最后将其应用于某16路SIMD数字信号处理器YHFT-Matrix2中向量存储器VM的优化设计.测试结果表明,采用该SIMD并行存储结构优化的VM以增加18%的硬件开销实现了FFT运算全流水无冲突并行访存和100%并行访存带宽利用率;相比优化前的设计,不同点数FFT运算可获得1.32~2.66的加速比.展开更多
文摘针对单指令多数据(SIMD)并行多媒体扩展在图像和视频等媒体应用中数据组织和存取等非有效计算开销过大的问题,采用嵌入式处理器面向应用定制指令集的设计思路,通过将数据组织与计算或存取相融合,设计了内嵌数据组织和可变长向量存取两类特殊扩展指令,并与其他基本指令构成了EDO-SIMD(embedded data organi-zation SIMD)多媒体扩展指令集.性能测试结果表明,EDO-SIMD指令体系可显著降低典型媒体应用核心的非有效计算开销,并提高数据级并行效率.
文摘随着SIMD(Single Instruction Multiple Data stream)结构DSP(Digital Signal Processor)片上集成了越来越多的处理单元,并行访存的灵活性及带宽效率对实际运算性能的影响越来越大.本文详细分析了一般SIMD结构DSP中基2 FFT(Fast Fourier Transform)并行算法面临的访存问题,采用简单的部分地址异或逻辑完成SIMD并行访存地址转换,实现了FFT运算的无冲突SIMD并行访存;提出了几种带特殊混洗模式的向量访存指令,可完全消除SIMD结构下基2FFT运算时需要的额外混洗指令操作.最后将其应用于某16路SIMD数字信号处理器YHFT-Matrix2中向量存储器VM的优化设计.测试结果表明,采用该SIMD并行存储结构优化的VM以增加18%的硬件开销实现了FFT运算全流水无冲突并行访存和100%并行访存带宽利用率;相比优化前的设计,不同点数FFT运算可获得1.32~2.66的加速比.