期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
EDO-SIMD:内嵌数据组织的SIMD多媒体扩展指令集
1
作者 刘坤杰 秦兴 +2 位作者 严晓浪 李德贤 彭剑英 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2008年第4期565-570,共6页
针对单指令多数据(SIMD)并行多媒体扩展在图像和视频等媒体应用中数据组织和存取等非有效计算开销过大的问题,采用嵌入式处理器面向应用定制指令集的设计思路,通过将数据组织与计算或存取相融合,设计了内嵌数据组织和可变长向量存取两... 针对单指令多数据(SIMD)并行多媒体扩展在图像和视频等媒体应用中数据组织和存取等非有效计算开销过大的问题,采用嵌入式处理器面向应用定制指令集的设计思路,通过将数据组织与计算或存取相融合,设计了内嵌数据组织和可变长向量存取两类特殊扩展指令,并与其他基本指令构成了EDO-SIMD(embedded data organi-zation SIMD)多媒体扩展指令集.性能测试结果表明,EDO-SIMD指令体系可显著降低典型媒体应用核心的非有效计算开销,并提高数据级并行效率. 展开更多
关键词 多媒体处理 单指令多数据 内嵌数据组织
在线阅读 下载PDF
面向顶点染色算法的专用指令集优化处理器 被引量:5
2
作者 杜慧敏 李萌 《西安邮电大学学报》 2014年第2期60-66,共7页
为了提高图形处理器中顶点染色器的工作效率,设计一款改进的可编程顶点染色器。设计引入适用于顶点染色器的一种专用指令集,以完成顶点染色的加减乘除等基本操作,并加入染色算法中常见的向量操作和特殊函数计算的指令,另在浮点4路单指... 为了提高图形处理器中顶点染色器的工作效率,设计一款改进的可编程顶点染色器。设计引入适用于顶点染色器的一种专用指令集,以完成顶点染色的加减乘除等基本操作,并加入染色算法中常见的向量操作和特殊函数计算的指令,另在浮点4路单指令多数据的结构基础上加入带有旁路功能的五级宏流水线和超越函数运算单元。在工作站使用Linux环境下的QuestaSim6.5b进行功能仿真,使用Xilinx公司Virtex6-760芯片为目标器件对可编程顶点染色器进行逻辑综合。实验结果表明,该顶点染色器可以绘制出真实图形,其最大工作频率可达197MHz,顶点的处理能力可达5Mvertex/s。 展开更多
关键词 顶点染色器 专用指令 可编程 单指令多数据(SIMD)
在线阅读 下载PDF
BWDSP SIMD指令的WHIRL中间表示生成研究 被引量:1
3
作者 王昊 王向前 《中国集成电路》 2015年第3期30-35,共6页
WHIRL是Open64采用的一种通用的中间表示,支持多种高级语言和多种目标机。Open64的后端优化工作都是基于WHIRL设计的。BWDSP是一款支持SIMD指令的数字信号处理器,SIMD指令能够提高该处理器的指令并行性。SIMD优化也需要产生WHIRL中间表... WHIRL是Open64采用的一种通用的中间表示,支持多种高级语言和多种目标机。Open64的后端优化工作都是基于WHIRL设计的。BWDSP是一款支持SIMD指令的数字信号处理器,SIMD指令能够提高该处理器的指令并行性。SIMD优化也需要产生WHIRL中间表示,本文对如何产生BWDSP SIMD指令的WHIRL中间表示进行了研究,并在BWDSP的编译器OCC上得以实现。 展开更多
关键词 数字信号处理器 单指令多数据 WHIRL 中间表示
在线阅读 下载PDF
基于SIMD体系结构的指令级并行结构设计 被引量:4
4
作者 刘有耀 张仲伟 《电子设计工程》 2017年第21期152-156,共5页
通过对多核处理器体系结构、多核单元内部结构设计及指令级并行运行模式等方面进行深入研究,探索适用于无线通信的多核并行处理器。在分析SIMD体系结构的基础上,从体系结构系统设计到处理单元PE内部电路设计,给出一种多核处理器体系结构... 通过对多核处理器体系结构、多核单元内部结构设计及指令级并行运行模式等方面进行深入研究,探索适用于无线通信的多核并行处理器。在分析SIMD体系结构的基础上,从体系结构系统设计到处理单元PE内部电路设计,给出一种多核处理器体系结构,在处理单元中能够实现指令级并行(Instruction-level Parallelism,ILP)和数据级并行(Data-level Parallelism,DLP)处理。 展开更多
关键词 单指令多数据 处理单元 指令级并行 数据级并行
在线阅读 下载PDF
基于SIMD的AVS3并行率失真优化量化算法 被引量:1
5
作者 唐毅欣 黄晓峰 +3 位作者 唐然 周洋 崔燕 殷海兵 《电信科学》 北大核心 2024年第6期114-126,共13页
针对第三代音频视频标准(the third generation audio video coding standard,AVS3)中的率失真优化量化(rate-distortion optimization quantization,RDOQ)过程的编码效率问题,提出一种基于单指令多数据(single instruction multiple da... 针对第三代音频视频标准(the third generation audio video coding standard,AVS3)中的率失真优化量化(rate-distortion optimization quantization,RDOQ)过程的编码效率问题,提出一种基于单指令多数据(single instruction multiple data,SIMD)的并行RDOQ算法。首先,在最优系数决策(optimal coefficient decision,OCD)阶段,通过优化,仅保留扫描线内的依赖关系。然后,在最后一个非零位置决策(last non-zero position decision,LNPD)阶段,基于分治策略,通过将Zig-Zag扫描线分解成多个独立扫描线,实现每条扫描线上最优系数位置的并行计算。最后,采用SIMD指令进行并行加速,以提高整个率失真优化量化的计算效率。实验结果表明,该算法在AI配置下,可以降低29.46%的编码时间,而BD-Rate仅损失0.25%。 展开更多
关键词 AVS3 率失真优化量化 单指令多数据 并行加速
在线阅读 下载PDF
基于SIMD的VSIPL三角函数向量化技术研究
6
作者 闫妍 李典 +1 位作者 李康 周磊 《航空计算技术》 2024年第5期105-109,共5页
为提高嵌入式信号处理软件中三角函数的计算效率,并满足软件的可移植性需求,发展一种基于单指令多数据(SIMD)技术的三角函数向量化技术,并基于向量、信号与图像处理函数库(VSIPL)标准对向量化后的三角函数进行接口实现;同时,在ARM平台上... 为提高嵌入式信号处理软件中三角函数的计算效率,并满足软件的可移植性需求,发展一种基于单指令多数据(SIMD)技术的三角函数向量化技术,并基于向量、信号与图像处理函数库(VSIPL)标准对向量化后的三角函数进行接口实现;同时,在ARM平台上对VSIPL向量三角函数接口进行性能测试。测试结果显示该方法相比循环遍历的方式具有2倍以上的加速效果,表明方法能够显著提高三角函数的计算效率,在高性能、可移植嵌入式信号处理软件领域具有一定的工程价值。 展开更多
关键词 嵌入式信号处理 向量化技术 向量三角函数 单指令多数据 向量、信号与图像处理函数库
在线阅读 下载PDF
基于CEVA-XC4500 DSP平台5G-LDPC码编码实现
7
作者 吴思远 陈成 +1 位作者 姜明 徐安来 《无线电工程》 2024年第2期457-462,共6页
低密度奇偶校验(Low-Density Parity-Check,LDPC)码是第五代移动通信技术(5th Generation Mobile Communication Technology,5G)系统采用的信道编码技术之一,用于业务信道高速数据传输,具有很强的抗干扰能力和纠错能力。5G-LDPC码编译... 低密度奇偶校验(Low-Density Parity-Check,LDPC)码是第五代移动通信技术(5th Generation Mobile Communication Technology,5G)系统采用的信道编码技术之一,用于业务信道高速数据传输,具有很强的抗干扰能力和纠错能力。5G-LDPC码编译码在嵌入式平台的实现是一个值得关注的研究方向。CEVA-XC4500数字信号处理(Digital Signal Processing,DSP)芯片具有极低功耗、高密度计算、集成了超长指令字(Very Long Instruction Word,VLIW)和单指令多数据(Single Instruction Multiple Data,SIMD)矢量功能的特点。针对CEVA-XC4500 DSP矢量汇编指令和内联指令集的特点,提出一系列针对5G-LDPC码编码的代码优化方法,使其满足5G-LDPC码编码工程应用指标要求。仿真结果表明,优化后的5G-LDPC码编码在CEVA-XC4500 DSP内核上表现良好,中长块编码吞吐率超过100 Mb/s、核心矩阵吞吐率超过1 Gb/s,最大吞吐率达到250 Mb/s、最大核心矩阵吞吐率达到1.6 Gb/s。如果CEVA-XC4500 DSP芯片的最大数据位宽将来能进一步增大,吞吐率可以做得更好。该5G-LDPC码编码的代码优化方法为其他信道编码在类似嵌入式平台的实现提供了参考。 展开更多
关键词 CEVA-XC4500 DSP 超长指令 单指令多数据 5G-低密度奇偶校验码编码 矢量化
在线阅读 下载PDF
软件无线电数字信号处理器体系结构研究 被引量:4
8
作者 刘衡竹 莫方政 +4 位作者 张波涛 赵恒 刘冬培 陈艇 周理 《国防科技大学学报》 EI CAS CSCD 北大核心 2009年第5期6-11,共6页
软件无线电因被认为是无线通信技术未来的发展趋势而受到广泛关注。目前数字信号处理器是软件无线电发展的瓶颈。通过分析、比较目前几种较为典型的软件无线电数字信号处理器结构,归纳总结各种结构各自设计出发点和优缺点,并对软件无线... 软件无线电因被认为是无线通信技术未来的发展趋势而受到广泛关注。目前数字信号处理器是软件无线电发展的瓶颈。通过分析、比较目前几种较为典型的软件无线电数字信号处理器结构,归纳总结各种结构各自设计出发点和优缺点,并对软件无线电数字信号处理器的发展趋势做了展望。 展开更多
关键词 软件无线电数字信号处理器 可重构 单指令多数据 超长指令
在线阅读 下载PDF
基于体素模型的锥束CT仿真投影快速计算 被引量:2
9
作者 梅创社 张顺利 《核电子学与探测技术》 CAS CSCD 北大核心 2012年第7期793-797,共5页
在锥束CT图像重建算法研究中,通常利用计算机仿真方法生成理想的投影数据。针对体素模型下投影仿真速度慢的问题,提出了一种快速仿真投影计算方法。采用一种高效的射线与体素的遍历和求交算法来计算三维射线穿过体素的索引及长度,然后使... 在锥束CT图像重建算法研究中,通常利用计算机仿真方法生成理想的投影数据。针对体素模型下投影仿真速度慢的问题,提出了一种快速仿真投影计算方法。采用一种高效的射线与体素的遍历和求交算法来计算三维射线穿过体素的索引及长度,然后使用Intel处理器的单指令多数据(SIMD)技术,一次性加载4个体素数据,利用SSE技术实现了仿真投影的快速并行计算。实验结果表明文中提出的方法非常有效,在生成准确仿真投影数据的同时取得了3~5倍的加速比。 展开更多
关键词 锥束计算机层析摄影术 仿真投影 图像重建 单指令多数据
在线阅读 下载PDF
基于PC的AVS视频解码器软件优化 被引量:1
10
作者 李辑 陈颖琪 王慈 《电视技术》 北大核心 2010年第11期40-42,50,共4页
简要介绍了AVS视频编码标准的主要特点以及单指令多数据(SIMD)汇编指令集运算优势,通过分析AVS参考解码器软件的性能以及造成解码器速度瓶颈的原因,提出了基于SIMD汇编指令的优化方案,最终实现了基于PC的高清AVS视频实时解码。
关键词 AVS标准 单指令多数据 PC 实时解码
在线阅读 下载PDF
基于SSE2的AVS-M视频编码器优化 被引量:1
11
作者 钱金法 赵力 《电视技术》 北大核心 2007年第12期28-30,共3页
从SIMD技术出发,介绍了利用SSE2指令集优化AVS-M视频编码器的具体方法,主要集中在运动搜索与补偿,亚像素插值及整数DCT变换和反变换等模块的优化,并通过实验证明了优化的有效性。
关键词 单指令多数据技术 SSE2技术 AVS—M标准 优化
在线阅读 下载PDF
一种用于ARM处理器的增强DSP乘加单元
12
作者 吉隆伟 李侠 章倩苓 《半导体技术》 CAS CSCD 北大核心 2003年第4期61-64,共4页
介绍了一种应用于ARM处理器的增强DSP功能乘加单元。为了减小乘加指令的周期数,采用了两个并行16×16位乘加单元构成的单指令多数据(SIMD)结构,可以通过适当的配置支持16到32位的各种乘加运算以及16位的复数乘法。理论分析表明,这... 介绍了一种应用于ARM处理器的增强DSP功能乘加单元。为了减小乘加指令的周期数,采用了两个并行16×16位乘加单元构成的单指令多数据(SIMD)结构,可以通过适当的配置支持16到32位的各种乘加运算以及16位的复数乘法。理论分析表明,这种乘加单元与传统的单指令单数据(SISD)结构相比在周期数上有明显的减小。尤其对于16位乘加及16位复数乘法,其所需周期数分别只有ARM1022E的1/4和1/3。0.35mm的标准单元库实现表明该乘加单元可以工作在120MHz,使得其非常适合数字信号处理的应用。 展开更多
关键词 ARM处理器 DSP 乘加单元 乘法器 单指令多数据 微处理器 数字信号处理
在线阅读 下载PDF
适用于嵌入式应用的多线程顶点处理器设计 被引量:1
13
作者 申智波 陈杰 +2 位作者 刘建 王云 朱玥 《微电子学与计算机》 CSCD 北大核心 2012年第7期76-80,共5页
针对嵌入式应用中三维图形渲染的要求,设计了一款可编程的多线程顶点处理器.该顶点处理器采用单指令多数据结构,一条指令能够同时处理4个单精度浮点数,并采用多线程技术,支持4个线程并发执行,能够有效地减少发生数据写读冲突时的停顿周... 针对嵌入式应用中三维图形渲染的要求,设计了一款可编程的多线程顶点处理器.该顶点处理器采用单指令多数据结构,一条指令能够同时处理4个单精度浮点数,并采用多线程技术,支持4个线程并发执行,能够有效地减少发生数据写读冲突时的停顿周期数,提高了处理效率.相对于单线程结构,4线程顶点处理器在较小的硬件开销下,可以实现2.1~2.8倍的性能提升.该顶点处理器支持OpenGL ES 1.1和Vertex Shader Model 1.1,在90nm CMOS工艺库下可实现频率为200MHz,性能为50Mvertices/s. 展开更多
关键词 图形处理器 三维图形渲染 可编程顶点处理器 多线程 单指令多数据 嵌入式应用
在线阅读 下载PDF
MPEG-2音频解码算法优化 被引量:1
14
作者 赵永刚 唐昆 +2 位作者 崔慧娟 杜文 杨铭 《电声技术》 北大核心 2003年第12期10-12,22,共4页
以PC机为硬件平台对MPEG-2的音频解码算法进行优化,实现MPEG-2全软件的系统、视频、音频3个部分实时解码。在IDCT和IMDCT中应用了新的快速算法;结合PC机本身的特点及解码过程中有大量的乘加运算采用SIMD(single-instructionmultiple-da... 以PC机为硬件平台对MPEG-2的音频解码算法进行优化,实现MPEG-2全软件的系统、视频、音频3个部分实时解码。在IDCT和IMDCT中应用了新的快速算法;结合PC机本身的特点及解码过程中有大量的乘加运算采用SIMD(single-instructionmultiple-data)来对程序优化,并在实际运算中也对数据结构进行了优化。通过以上的优化使MPEG-2层II解码的运算量减少了40%以上,在奔腾3/450计算机上只占用不到5%的系统资源。这些优化算法已经应用于奔腾3/800为硬件平台的MPEG-2实时解码器中。 展开更多
关键词 MPEG-2 音频解码 SIMD 离散余弦反变换 修正离散余弦反变换 单指令多数据
在线阅读 下载PDF
基于双PowerPC 7447A处理器的嵌入式系统硬件设计 被引量:2
15
作者 张中华 《现代电子技术》 2008年第24期9-13,共5页
随着雷达数据和信号处理需求的不断攀升,传统雷达数字处理系统的处理能力己渐显不足,因此有必要提高系统中每个处理单元的处理能力。鉴于此,设计一种基于CPCI标准总线和双PowerPC 7447A高性能处理器的通用处理单元硬件平台,并对部分功... 随着雷达数据和信号处理需求的不断攀升,传统雷达数字处理系统的处理能力己渐显不足,因此有必要提高系统中每个处理单元的处理能力。鉴于此,设计一种基于CPCI标准总线和双PowerPC 7447A高性能处理器的通用处理单元硬件平台,并对部分功能单元的设计进行描述。硬件平台由双处理节点、双PMC接口和CPCI总线接口等组成,本地互连采用PCI总线,对外采用CPCI总线。该平台具有数据处理能力强、功能扩展性强、通用性强、维护方便等特点,有较高的应用价值。 展开更多
关键词 POWERPC G4 非对称多重处理 全对称多重处理 单指令多数据 精简指令集计算机
在线阅读 下载PDF
视频处理器软硬件协同设计
16
作者 俞国军 刘鹏 +2 位作者 姚庆栋 蒋志迪 蔡卫光 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2006年第7期1117-1122,共6页
为了提高视频图像处理速度与硬件资源利用,针对一种基于精简指令集处理器与数字信号处理器(RISC/DSP)混合体系结构的媒体处理器:浙大数芯(MD32),给出了一种软硬件协同设计策略.所给策略结合视频处理核心算法,研究分析MPEG视频编码标准... 为了提高视频图像处理速度与硬件资源利用,针对一种基于精简指令集处理器与数字信号处理器(RISC/DSP)混合体系结构的媒体处理器:浙大数芯(MD32),给出了一种软硬件协同设计策略.所给策略结合视频处理核心算法,研究分析MPEG视频编码标准的处理过程,进行了视频处理指令扩展设计,提高了数据的并行处理能力,利用了指令内并行执行特性.为有效实现扩展指令,处理器执行级采用了可扩展流水级技术.实验结果表明,指令扩展硬件成本仅占MD32的2.7%,逆离散余弦变换实现性能比MMX/SSE指令集实现的性能分别提高31%和23%,运动补偿性能比MMX指令集实现的性能提高了40%. 展开更多
关键词 视频处理器 视频压缩 协同设计 单指令多数据
在线阅读 下载PDF
基于多核DSP的宽带OFDM波形的并行设计与实现 被引量:1
17
作者 王萌 习勇 +1 位作者 郝嘉禄 程龙旺 《信息化研究》 2015年第3期32-37,共6页
传统软件无线电(SDR)波形组件主要基于现场可编程门阵列(FPGA)实现,其不足之处在于FPGA较大的功耗和体积,使其不适合于体积和功耗受限的手持终端,并且单核数字信号处理器(DSP)处理速度有限。考虑到以上问题,基于多核多线程DSP硬件平台,... 传统软件无线电(SDR)波形组件主要基于现场可编程门阵列(FPGA)实现,其不足之处在于FPGA较大的功耗和体积,使其不适合于体积和功耗受限的手持终端,并且单核数字信号处理器(DSP)处理速度有限。考虑到以上问题,基于多核多线程DSP硬件平台,分析基带处理器DSP中常见的多核多线程和单指令多数据(SIMD)并行架构,并在此架构基础上,从并行信号处理角度设计并实现了宽带正交频分复用(OFDM)波形。测试结果表明,在该硬件平台上可以有效地运行宽带OFDM波形,对于在移动终端上实现软件无线电技术,有一定的应用参考价值。 展开更多
关键词 多核DSP 宽带OFDM波形 单指令多数据 并行信号处理
在线阅读 下载PDF
面向LTE-A终端软基带的矢量处理器设计 被引量:1
18
作者 张建正 秦晓卫 周武旸 《无线通信技术》 2014年第3期15-20,共6页
面向移动终端处理器的低功耗、低成本、高效率、灵活升级的需求,本文在对LTEA基带算法并行性分析的基础上,提出了一种基于超长指令字(Very Long Instruction Word,VLIW)和单指令多数据(Single Instruction Multiple Data,SIMD)混合结构... 面向移动终端处理器的低功耗、低成本、高效率、灵活升级的需求,本文在对LTEA基带算法并行性分析的基础上,提出了一种基于超长指令字(Very Long Instruction Word,VLIW)和单指令多数据(Single Instruction Multiple Data,SIMD)混合结构的矢量处理器作为终端软基带解决方案。该矢量处理器采用变长的VLIW指令字,共有7条矢量数据通路,每条通路可执行16个16bit的定点运算;采用分组的系数存储器提高灵活性,受限访问的寄存器组降低电路面积;同时设计了SHUF和ISHUF指令专门用于快速傅里叶变换(FFT)和维特比(VITERBI)译码算法的矢量化实现。最后本文实现和分析了FFT和VITERBI译码算法。 展开更多
关键词 软基带 矢量处理器 超长指令 单指令多数据
在线阅读 下载PDF
支持多种精度小数的运算单元设计
19
作者 冯寅翀 张盛兵 +1 位作者 黄嵩人 樊晓桠 《微电子学与计算机》 CSCD 北大核心 2012年第4期150-153,157,共5页
针对DSP在应用中大量的使用不同精度的小数运算,对数据运算单元进行详细设计.通过对Q15格式小数计算特点的分析,增加多精度累加型数据格式,满足乘累加过程中对于精度的要求.同时,对执行部件的时延进行分析评估后,合理的划分流水线,在满... 针对DSP在应用中大量的使用不同精度的小数运算,对数据运算单元进行详细设计.通过对Q15格式小数计算特点的分析,增加多精度累加型数据格式,满足乘累加过程中对于精度的要求.同时,对执行部件的时延进行分析评估后,合理的划分流水线,在满足DSP计算功能的同时,还能够达到较高的工作频率.通过典型的数字信号处理算法核心,对本设计性能进行量化分析.在TSMC 65nm的工艺条件下,其时钟频率达到500MHz. 展开更多
关键词 数字信号处理器 小数运算 Q格式小数 多精度累加型数据格式 乘累加单元 单指令多数据
在线阅读 下载PDF
基于矢量处理器的可编程并行MIMO检测器设计
20
作者 范阿冬 秦晓卫 戴旭初 《电子科技大学学报》 EI CAS CSCD 北大核心 2016年第3期337-343,共7页
针对部分层间并行球形译码(PIPSD)算法的特点,基于超长指令字(VLIW)和单指令多数据(SIMD)混合结构的矢量处理器原型,合理安排处理器结构参数,选择合适的寄存器数目和长度。根据算法和结构的相互作用特点,挖掘算法内在的数据并行性和指... 针对部分层间并行球形译码(PIPSD)算法的特点,基于超长指令字(VLIW)和单指令多数据(SIMD)混合结构的矢量处理器原型,合理安排处理器结构参数,选择合适的寄存器数目和长度。根据算法和结构的相互作用特点,挖掘算法内在的数据并行性和指令并行性,设计高效的指令集和相应的功能单元,软硬件协同优化VLIW分布,在支持多种配置的基础上尽可能减小执行周期数,提高译码吞吐率,从而设计出高效的基于专用指令集矢量处理器的可编程并行MIMO检测器。 展开更多
关键词 多天线检测 单指令多数据 矢量处理器 超长指令
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部