针对单指令多数据(SIMD)并行多媒体扩展在图像和视频等媒体应用中数据组织和存取等非有效计算开销过大的问题,采用嵌入式处理器面向应用定制指令集的设计思路,通过将数据组织与计算或存取相融合,设计了内嵌数据组织和可变长向量存取两...针对单指令多数据(SIMD)并行多媒体扩展在图像和视频等媒体应用中数据组织和存取等非有效计算开销过大的问题,采用嵌入式处理器面向应用定制指令集的设计思路,通过将数据组织与计算或存取相融合,设计了内嵌数据组织和可变长向量存取两类特殊扩展指令,并与其他基本指令构成了EDO-SIMD(embedded data organi-zation SIMD)多媒体扩展指令集.性能测试结果表明,EDO-SIMD指令体系可显著降低典型媒体应用核心的非有效计算开销,并提高数据级并行效率.展开更多
低密度奇偶校验(Low-Density Parity-Check,LDPC)码是第五代移动通信技术(5th Generation Mobile Communication Technology,5G)系统采用的信道编码技术之一,用于业务信道高速数据传输,具有很强的抗干扰能力和纠错能力。5G-LDPC码编译...低密度奇偶校验(Low-Density Parity-Check,LDPC)码是第五代移动通信技术(5th Generation Mobile Communication Technology,5G)系统采用的信道编码技术之一,用于业务信道高速数据传输,具有很强的抗干扰能力和纠错能力。5G-LDPC码编译码在嵌入式平台的实现是一个值得关注的研究方向。CEVA-XC4500数字信号处理(Digital Signal Processing,DSP)芯片具有极低功耗、高密度计算、集成了超长指令字(Very Long Instruction Word,VLIW)和单指令多数据(Single Instruction Multiple Data,SIMD)矢量功能的特点。针对CEVA-XC4500 DSP矢量汇编指令和内联指令集的特点,提出一系列针对5G-LDPC码编码的代码优化方法,使其满足5G-LDPC码编码工程应用指标要求。仿真结果表明,优化后的5G-LDPC码编码在CEVA-XC4500 DSP内核上表现良好,中长块编码吞吐率超过100 Mb/s、核心矩阵吞吐率超过1 Gb/s,最大吞吐率达到250 Mb/s、最大核心矩阵吞吐率达到1.6 Gb/s。如果CEVA-XC4500 DSP芯片的最大数据位宽将来能进一步增大,吞吐率可以做得更好。该5G-LDPC码编码的代码优化方法为其他信道编码在类似嵌入式平台的实现提供了参考。展开更多
针对嵌入式应用中三维图形渲染的要求,设计了一款可编程的多线程顶点处理器.该顶点处理器采用单指令多数据结构,一条指令能够同时处理4个单精度浮点数,并采用多线程技术,支持4个线程并发执行,能够有效地减少发生数据写读冲突时的停顿周...针对嵌入式应用中三维图形渲染的要求,设计了一款可编程的多线程顶点处理器.该顶点处理器采用单指令多数据结构,一条指令能够同时处理4个单精度浮点数,并采用多线程技术,支持4个线程并发执行,能够有效地减少发生数据写读冲突时的停顿周期数,提高了处理效率.相对于单线程结构,4线程顶点处理器在较小的硬件开销下,可以实现2.1~2.8倍的性能提升.该顶点处理器支持OpenGL ES 1.1和Vertex Shader Model 1.1,在90nm CMOS工艺库下可实现频率为200MHz,性能为50Mvertices/s.展开更多
文摘针对单指令多数据(SIMD)并行多媒体扩展在图像和视频等媒体应用中数据组织和存取等非有效计算开销过大的问题,采用嵌入式处理器面向应用定制指令集的设计思路,通过将数据组织与计算或存取相融合,设计了内嵌数据组织和可变长向量存取两类特殊扩展指令,并与其他基本指令构成了EDO-SIMD(embedded data organi-zation SIMD)多媒体扩展指令集.性能测试结果表明,EDO-SIMD指令体系可显著降低典型媒体应用核心的非有效计算开销,并提高数据级并行效率.
文摘针对嵌入式应用中三维图形渲染的要求,设计了一款可编程的多线程顶点处理器.该顶点处理器采用单指令多数据结构,一条指令能够同时处理4个单精度浮点数,并采用多线程技术,支持4个线程并发执行,能够有效地减少发生数据写读冲突时的停顿周期数,提高了处理效率.相对于单线程结构,4线程顶点处理器在较小的硬件开销下,可以实现2.1~2.8倍的性能提升.该顶点处理器支持OpenGL ES 1.1和Vertex Shader Model 1.1,在90nm CMOS工艺库下可实现频率为200MHz,性能为50Mvertices/s.