期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
SIMD图像处理机存储系统研究
1
作者 段宗涛 沙爱民 孙朝云 《微电子学与计算机》 CSCD 北大核心 2008年第5期114-116,共3页
为了获得尽可能高的并行计算单元的计算能力,对SIMD图像处理机的存储系统进行了深入研究.该存储系统根据图像处理应用的特点,使用基于编译获得的数据流存取全局信息进行数据流调度,有效地提高了数据存取的速度,满足了并行计算单元对数... 为了获得尽可能高的并行计算单元的计算能力,对SIMD图像处理机的存储系统进行了深入研究.该存储系统根据图像处理应用的特点,使用基于编译获得的数据流存取全局信息进行数据流调度,有效地提高了数据存取的速度,满足了并行计算单元对数据存取速度的要求,为SIMD图像处理机系统性能的提高提供了支持. 展开更多
关键词 阵列处理器 协处理器 流调度 双缓冲区 simd
在线阅读 下载PDF
EDO-SIMD:内嵌数据组织的SIMD多媒体扩展指令集
2
作者 刘坤杰 秦兴 +2 位作者 严晓浪 李德贤 彭剑英 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2008年第4期565-570,共6页
针对单指令多数据(SIMD)并行多媒体扩展在图像和视频等媒体应用中数据组织和存取等非有效计算开销过大的问题,采用嵌入式处理器面向应用定制指令集的设计思路,通过将数据组织与计算或存取相融合,设计了内嵌数据组织和可变长向量存取两... 针对单指令多数据(SIMD)并行多媒体扩展在图像和视频等媒体应用中数据组织和存取等非有效计算开销过大的问题,采用嵌入式处理器面向应用定制指令集的设计思路,通过将数据组织与计算或存取相融合,设计了内嵌数据组织和可变长向量存取两类特殊扩展指令,并与其他基本指令构成了EDO-SIMD(embedded data organi-zation SIMD)多媒体扩展指令集.性能测试结果表明,EDO-SIMD指令体系可显著降低典型媒体应用核心的非有效计算开销,并提高数据级并行效率. 展开更多
关键词 多媒体处理 单指令多数据 内嵌数据组织
在线阅读 下载PDF
Combining Task Scheduling in Power Adaptive Dynamic Reconfigurable System 被引量:2
3
作者 Hui Dong Le-Tian Huang +1 位作者 Jun-Shi Wang Terrence Mak 《Journal of Electronic Science and Technology》 CAS 2012年第4期296-301,共6页
Supplying the electronic equipment by exploiting ambient energy sources is a hot spot. In order to achieve the match between power supply and demands under the variance of environments at real time, a reconfigurable t... Supplying the electronic equipment by exploiting ambient energy sources is a hot spot. In order to achieve the match between power supply and demands under the variance of environments at real time, a reconfigurable technique is taken. In this paper, a dynamic power consumption model by using a lookup table as a unit is proposed. Then, we establish a system-level task scheduling model according to the task type. Based on single instruction multiple data (SIMD) architecture which contains a processing system and a control system with a Nios II processor, a practical dynamic reconfigurable system is built. The approach is evaluated on a hardware platform. The test results show that the system can automatically adjust the power consumption in case of external energy input changing. The utilization of the system dynamic power of their portion is from 80.05% to 91.75% during the first task assignment. During the entire processing cycle, the total energy efficiency is 97.67%. 展开更多
关键词 Nios II power adaptive recon-figuration single instruction multiple data (simd taskscheduling model.
在线阅读 下载PDF
x86结构下的多视点裸眼立体显示实时合成并行算法研究 被引量:2
4
作者 胡跃辉 任旖旎 +4 位作者 代飘 马星宇 王阳 丁小宇 吕国强 《液晶与显示》 CAS CSCD 北大核心 2016年第11期1092-1097,共6页
目前的柱栅式裸眼立体显示技术已经能够在UHD模式下具有良好的2D显示性能,但是随着分辨率的提高,立体显示图像的合成所需要处理的数据量急剧增加。为此,我们在x86架构运行环境下,提出了一种采用SIMD指令集来实现显示图像实时合成的算法... 目前的柱栅式裸眼立体显示技术已经能够在UHD模式下具有良好的2D显示性能,但是随着分辨率的提高,立体显示图像的合成所需要处理的数据量急剧增加。为此,我们在x86架构运行环境下,提出了一种采用SIMD指令集来实现显示图像实时合成的算法。实验表明,相比于通用算法,该算法可大幅减少运算时间,速度提高了1个数量级以上。有效满足柱栅式立体显示系统图像的实时合成,具有一定的工程实际意义。 展开更多
关键词 立体显示 并行处理技术 simd指令集 柱栅
在线阅读 下载PDF
一种基于HXDSP的移位器查找表技术 被引量:1
5
作者 叶鸿 顾乃杰 +2 位作者 林传文 张孝慈 陈瑞 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2019年第10期2044-2050,共7页
高性能信号处理应用的快速发展,对相应处理器的运算速度及吞吐效率提出了巨大挑战。移位器是数字信号处理器(DSP)上的重要部件,通过为移位器设计额外专用随机存取存储器(RAM)和查找表(LUT),并对其指令集及架构进行优化调整,从而达到提... 高性能信号处理应用的快速发展,对相应处理器的运算速度及吞吐效率提出了巨大挑战。移位器是数字信号处理器(DSP)上的重要部件,通过为移位器设计额外专用随机存取存储器(RAM)和查找表(LUT),并对其指令集及架构进行优化调整,从而达到提高处理器使用效率和传输速率的目的。此外,基于移位器与相应查找表指令,可在数据暂存的同时进行移位、提取、算术与逻辑运算处理,将部分数据运算的过程直接合并在对移位器RAM的数据存读取过程中,显著地提高了运算部件的使用效率。结果表明:基于移位器查找表的暂存技术可以达到与传输总线接近的吞吐率,对信号处理算法快速傅里叶变换(FFT)可以达到加速比约为1. 15~1. 20的性能提升效果。 展开更多
关键词 数字信号处理器(DSP) 移位器 查找表(LUT) 单指令多数据流(simd) 超长指令字(VLIW)
在线阅读 下载PDF
面向顶点染色算法的专用指令集优化处理器 被引量:5
6
作者 杜慧敏 李萌 《西安邮电大学学报》 2014年第2期60-66,共7页
为了提高图形处理器中顶点染色器的工作效率,设计一款改进的可编程顶点染色器。设计引入适用于顶点染色器的一种专用指令集,以完成顶点染色的加减乘除等基本操作,并加入染色算法中常见的向量操作和特殊函数计算的指令,另在浮点4路单指... 为了提高图形处理器中顶点染色器的工作效率,设计一款改进的可编程顶点染色器。设计引入适用于顶点染色器的一种专用指令集,以完成顶点染色的加减乘除等基本操作,并加入染色算法中常见的向量操作和特殊函数计算的指令,另在浮点4路单指令多数据的结构基础上加入带有旁路功能的五级宏流水线和超越函数运算单元。在工作站使用Linux环境下的QuestaSim6.5b进行功能仿真,使用Xilinx公司Virtex6-760芯片为目标器件对可编程顶点染色器进行逻辑综合。实验结果表明,该顶点染色器可以绘制出真实图形,其最大工作频率可达197MHz,顶点的处理能力可达5Mvertex/s。 展开更多
关键词 顶点染色器 专用指令集 可编程 单指令多数据(simd)
在线阅读 下载PDF
基于PC的AVS视频解码器软件优化 被引量:1
7
作者 李辑 陈颖琪 王慈 《电视技术》 北大核心 2010年第11期40-42,50,共4页
简要介绍了AVS视频编码标准的主要特点以及单指令多数据(SIMD)汇编指令集运算优势,通过分析AVS参考解码器软件的性能以及造成解码器速度瓶颈的原因,提出了基于SIMD汇编指令的优化方案,最终实现了基于PC的高清AVS视频实时解码。
关键词 AVS标准 单指令多数据 PC 实时解码
在线阅读 下载PDF
一种全同态加密的安全内积计算方案 被引量:1
8
作者 邓江 许春香 杨浩淼 《电子科技大学学报》 EI CAS CSCD 北大核心 2016年第5期808-811,共4页
在云计算环境下密文top-k检索的众多方法中,该文聚焦于同态加密方法,该公钥加密方法具有不解密就能对密文进行操作的优点。在密文top-k查询中,内积相似性是度量索引向量和查询向量的相似性的最常用的一个指标。该文提出一个安全计算两... 在云计算环境下密文top-k检索的众多方法中,该文聚焦于同态加密方法,该公钥加密方法具有不解密就能对密文进行操作的优点。在密文top-k查询中,内积相似性是度量索引向量和查询向量的相似性的最常用的一个指标。该文提出一个安全计算两向量内积相似性的方案,该方案使用基于环上错误学习问题的批处理和打包的同态加密来保护隐私。与其他方法相比,该方案具有通信代价低和计算代价低的优点。 展开更多
关键词 中国剩余定理 全同态加密 环上错误学习问题 单指令多数据流
在线阅读 下载PDF
一种媒体处理器的高级语言及其编译系统
9
作者 张丹 赵银亮 +4 位作者 王海 李增智 宋红 曹德宏 刘波 《微电子学与计算机》 CSCD 北大核心 2004年第12期20-23,27,共5页
媒体处理器通常采用汇编语言编程以满足代码大小、性能和能耗方面的要求。本文提出了媒体处理器高级语言的设计原则,并针对Leadtek公司的媒体处理器设计,实现了VP6-C语言及其编译系统。VP6-C语言用于编写多媒体处理中的核心程序,为程序... 媒体处理器通常采用汇编语言编程以满足代码大小、性能和能耗方面的要求。本文提出了媒体处理器高级语言的设计原则,并针对Leadtek公司的媒体处理器设计,实现了VP6-C语言及其编译系统。VP6-C语言用于编写多媒体处理中的核心程序,为程序员提供一种C风格的、自然的编程方式。试验结果表明编译生成的目标代码有较高的质量。 展开更多
关键词 VP6-C VLIW simd GCC 媒体处理器
在线阅读 下载PDF
GSVM:一种支持Gather/Scatter的向量存储器
10
作者 陈海燕 刘胜 吴健虢 《国防科技大学学报》 EI CAS CSCD 北大核心 2020年第3期1-8,共8页
宽单指令多数据流(Single Instruction Multiple Data,SIMD)架构数字信号处理器一般都能高效支持地址连续或等距跨步等规则应用的向量访存,但对于科学与工程计算中广泛存在的不规则应用的数据访存则带宽利用率往往较低,从而大幅降低了... 宽单指令多数据流(Single Instruction Multiple Data,SIMD)架构数字信号处理器一般都能高效支持地址连续或等距跨步等规则应用的向量访存,但对于科学与工程计算中广泛存在的不规则应用的数据访存则带宽利用率往往较低,从而大幅降低了其整体运算能效。为了提高不规则应用的向量访存性能,基于某SIMD数字信号处理器的体系结构,设计了一种支持Gather/Scatter访存的向量存储器GSVM。通过设计与SIMD宽度相匹配的向量地址计算单元和合适深度的冲突缓冲器阵列,实现了Gather/Scatter指令向量地址计算、仲裁与缓存的全流水访存操作。实验结果表明,相比以前不支持Gather/Scatter访存的存储器,GSVM在增加22%的硬件代价基础上,基于稀疏矩阵向量乘的测试程序集获得了2~8的性能加速比。 展开更多
关键词 单指令多数据流 Gather/Scatter 向量随机访存 访存冲突
在线阅读 下载PDF
AVS熵解码与DSP实现 被引量:6
11
作者 陈光法 姚立敏 虞露 《电视技术》 北大核心 2004年第10期43-46,共4页
阐述了AVS标准的进展情况及AVS标准的特点,重点介绍了AVS熵解码的原理和采用Equator公司MAP-CABSP-15处理器中的协处理器(Vlx)实现AVS熵解码的方法。
关键词 宽带信号处理器 单指令多数据流 AVS标准 协处理器 熵解码
在线阅读 下载PDF
媒体处理器视频哈夫曼解码快速算法 被引量:2
12
作者 倪昕 王维东 +1 位作者 刘鹏 张贻雄 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2007年第12期2036-2039,共4页
为了提高视频处理中哈夫曼解码的性能,从减少比特操作、提高处理器内存利用率的角度出发,设计了2种不同的数据结构进行哈夫曼码表的组织,提出了一种新的并行分步查表算法,对Ishii的并行查表法进行了改进.实验结果表明,采用新算法及其内... 为了提高视频处理中哈夫曼解码的性能,从减少比特操作、提高处理器内存利用率的角度出发,设计了2种不同的数据结构进行哈夫曼码表的组织,提出了一种新的并行分步查表算法,对Ishii的并行查表法进行了改进.实验结果表明,采用新算法及其内存优化策略,以哈夫曼解码性能较少下降的代价,内存开销得到大幅降低.新算法比常用的分步查表算法的解码效率有较大提升,对MPEG系列、H.26X系列等视频压缩标准具有普适性. 展开更多
关键词 媒体处理器 哈夫曼解码 单指令多数据流 分步查表法
在线阅读 下载PDF
MPEG-2音频解码算法优化 被引量:1
13
作者 赵永刚 唐昆 +2 位作者 崔慧娟 杜文 杨铭 《电声技术》 北大核心 2003年第12期10-12,22,共4页
以PC机为硬件平台对MPEG-2的音频解码算法进行优化,实现MPEG-2全软件的系统、视频、音频3个部分实时解码。在IDCT和IMDCT中应用了新的快速算法;结合PC机本身的特点及解码过程中有大量的乘加运算采用SIMD(single-instructionmultiple-da... 以PC机为硬件平台对MPEG-2的音频解码算法进行优化,实现MPEG-2全软件的系统、视频、音频3个部分实时解码。在IDCT和IMDCT中应用了新的快速算法;结合PC机本身的特点及解码过程中有大量的乘加运算采用SIMD(single-instructionmultiple-data)来对程序优化,并在实际运算中也对数据结构进行了优化。通过以上的优化使MPEG-2层II解码的运算量减少了40%以上,在奔腾3/450计算机上只占用不到5%的系统资源。这些优化算法已经应用于奔腾3/800为硬件平台的MPEG-2实时解码器中。 展开更多
关键词 MPEG-2 音频解码 simd 离散余弦反变换 修正离散余弦反变换 单指令多数据
在线阅读 下载PDF
高性能可重构DSP处理器的数据通路设计 被引量:1
14
作者 韩亮 李莺 +1 位作者 张馨 陈杰 《电子科技大学学报》 EI CAS CSCD 北大核心 2005年第2期194-197,共4页
介绍了高性能定点可重构DSP处理器的数据通路设计。该数据通路以功能强大的16位定点计算单元为基础,搭建起高速16位数据处理平台;并能以单指令流多数据流的方式灵活支持多维向量运算;通过重构的方法有效地支持了32位数据处理。
关键词 数字信号处理 数据通路 可重构 单指令流多数据流 并行处理
在线阅读 下载PDF
视频处理器软硬件协同设计
15
作者 俞国军 刘鹏 +2 位作者 姚庆栋 蒋志迪 蔡卫光 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2006年第7期1117-1122,共6页
为了提高视频图像处理速度与硬件资源利用,针对一种基于精简指令集处理器与数字信号处理器(RISC/DSP)混合体系结构的媒体处理器:浙大数芯(MD32),给出了一种软硬件协同设计策略.所给策略结合视频处理核心算法,研究分析MPEG视频编码标准... 为了提高视频图像处理速度与硬件资源利用,针对一种基于精简指令集处理器与数字信号处理器(RISC/DSP)混合体系结构的媒体处理器:浙大数芯(MD32),给出了一种软硬件协同设计策略.所给策略结合视频处理核心算法,研究分析MPEG视频编码标准的处理过程,进行了视频处理指令扩展设计,提高了数据的并行处理能力,利用了指令内并行执行特性.为有效实现扩展指令,处理器执行级采用了可扩展流水级技术.实验结果表明,指令扩展硬件成本仅占MD32的2.7%,逆离散余弦变换实现性能比MMX/SSE指令集实现的性能分别提高31%和23%,运动补偿性能比MMX指令集实现的性能提高了40%. 展开更多
关键词 视频处理器 视频压缩 协同设计 单指令多数据
在线阅读 下载PDF
基于TMS320C64系列的H.264的整数变换快速实现
16
作者 邓熙 葛宁 《电视技术》 北大核心 2008年第7期34-35,共2页
介绍了视频标准H.264中的4×4整数变换原理及一种一维整数变换的快速算法,在此基础上利用Kronecker乘积推导出一种适合于TMS320C64系列的二维整数变换的并行算法,结合TMS320C64系列的VILW和SIMD特点进行了相应的优化,提高了算法的... 介绍了视频标准H.264中的4×4整数变换原理及一种一维整数变换的快速算法,在此基础上利用Kronecker乘积推导出一种适合于TMS320C64系列的二维整数变换的并行算法,结合TMS320C64系列的VILW和SIMD特点进行了相应的优化,提高了算法的并行度。 展开更多
关键词 整数变换 单指令多数据流 超长指令字 H.264标准
在线阅读 下载PDF
视频数字信号处理芯片XY-VDSP的并行性分析
17
作者 李卫华 王保保 韩俊刚 《西安邮电学院学报》 2003年第3期1-5,共5页
视频数字信号处理芯片XY VDSP是采用阵列结构的SIMD处理机。XY VDSP在硬件结构和指令级上采用高度并行,使其可以高效处理视频应用。本文将分析XY VDSP的并行性实现,并以一个矩阵矢量乘加的例子作为说明。
关键词 XY-VDSP 阵列结构 simd 单指令多数据流 并行性 视频数字信号处理
在线阅读 下载PDF
基于CUDA的GPU条件分支分歧聚合优化策略
18
作者 刘素芹 王鑫 +2 位作者 安仲奇 杨娜利 王俊爽 《中国石油大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第3期174-180,共7页
分析NVIDIA GPU底层处理SIMD条件分支分歧的方式及其对程序性能产生的影响。在软件层级提出两种利用'聚合'思想的SIMD条件分支分歧优化策略:循环推迟和循环提前。策略将不同SIMD道中选择相同路径的条件分支'聚合'到同... 分析NVIDIA GPU底层处理SIMD条件分支分歧的方式及其对程序性能产生的影响。在软件层级提出两种利用'聚合'思想的SIMD条件分支分歧优化策略:循环推迟和循环提前。策略将不同SIMD道中选择相同路径的条件分支'聚合'到同一步循环中,减少了SIMD操作的实际次数。使用CUDA对这两种策略进行的试验结果表明,在满足策略使用条件的前提下能够取得预想中的加速比。该策略实现难度较低、可操作性较强。 展开更多
关键词 simd 条件分支分歧 聚合 循环推迟 循环提前
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部