期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
一种改进数据流图的子字并行程序表示方法
1
作者 唐文胜 吴丹 《计算机工程与应用》 CSCD 北大核心 2006年第29期103-106,共4页
论文致力于对图像处理算法的串行C程序进行子字并行分析,并重定向到带有多媒体扩展的通用处理器和多媒体专用嵌入式微处理器。图像处理算法的特点决定其是内在可并行的,这种并行粒度介于数据并行(DLP)和指令级并行(ILP)之间,称之为子字... 论文致力于对图像处理算法的串行C程序进行子字并行分析,并重定向到带有多媒体扩展的通用处理器和多媒体专用嵌入式微处理器。图像处理算法的特点决定其是内在可并行的,这种并行粒度介于数据并行(DLP)和指令级并行(ILP)之间,称之为子字并行。但是,当前的编译技术很难充分挖掘和定位程序基本块内的子字并行,对此设计了一种基于流图程序表示的编译方法,能够从串行程序中显式地定位子字并行。扩展了编译器的功能,增加了特定的模式库,基于模式识别的控制流和数据流分析后,产生特定的子字并行流图(SWFG,Sub-WordFlowGraph),并将该图作为中间表示,提供给子字并行指令选择,进而实现有效的子字并行代码产生。 展开更多
关键词 图像处理 子字并行 子字并行流图
在线阅读 下载PDF
子字并行加法器的研究与实现 被引量:2
2
作者 马胜 黄立波 +2 位作者 王志英 刘聪 戴葵 《计算机工程与应用》 CSCD 北大核心 2009年第36期54-59,共6页
子字并行加法器能够有效提高多媒体应用程序的处理性能。基于门延迟模型对加法器原理及性能进行了分析,设计了进位截断和进位消除两种子字并行控制机制。在这两种机制的指导下,实现了多种子字并行加法器,并对它们的性能进行了比较和分... 子字并行加法器能够有效提高多媒体应用程序的处理性能。基于门延迟模型对加法器原理及性能进行了分析,设计了进位截断和进位消除两种子字并行控制机制。在这两种机制的指导下,实现了多种子字并行加法器,并对它们的性能进行了比较和分析。结果表明进位消除机制相对于进位截断机制需要较短的延时,较少的逻辑门数以及较低的功耗。在各种子字并行加法器中,Kogge-Stone加法器具有最少的延迟时间,RCA加法器具有最少的逻辑门数和最低的功耗。研究结果可以用于指导子字并行加法器的设计与选择。 展开更多
关键词 子字并行 加法器 进位截断 进位消除
在线阅读 下载PDF
一种高性能子字并行乘法器的设计与实现 被引量:2
3
作者 黄立波 岳虹 +1 位作者 陆洪毅 戴葵 《计算机工程与应用》 CSCD 北大核心 2007年第20期104-106,131,共4页
提出了一种支持子字并行的乘法器体系结构,并完成了其VLSI设计与实现。该乘法器在16bit阵列子字并行结构的基础上,扩展了有符号与无符号之间的混合操作,采用多周期合并技术,实现了32bit宽度的子字并行,并支持子字模式的乘累加,同时采用... 提出了一种支持子字并行的乘法器体系结构,并完成了其VLSI设计与实现。该乘法器在16bit阵列子字并行结构的基础上,扩展了有符号与无符号之间的混合操作,采用多周期合并技术,实现了32bit宽度的子字并行,并支持子字模式的乘累加,同时采用流水线设计技术,能够在单周期内完成4个8×8、2个16×16或1个32×16的有符号/无符号乘法操作。0.18μm的标准单元库的实现表明该乘法器既能减小面积又能提高主频,是硬件消耗和运算性能的较好折衷,非常适用于多媒体微处理器的设计。 展开更多
关键词 子字并行 乘法器 多媒体
在线阅读 下载PDF
一种确定多媒体应用程序内层循环的子字并行编译方法
4
作者 吴丹 王志英 +1 位作者 王绍刚 王淼 《电子学报》 EI CAS CSCD 北大核心 2006年第B12期2575-2578,共4页
多媒体程序是数据密集型应用,其核心代码部分占用了大部分的执行时间,因此,对多媒体应用程序的研究大多针对其核心代码部分.本文围绕多媒体应用程序的核心内层循环,分析其子字并行特点,提出了一种新颖的按位数据流分析方法,能够确定程... 多媒体程序是数据密集型应用,其核心代码部分占用了大部分的执行时间,因此,对多媒体应用程序的研究大多针对其核心代码部分.本文围绕多媒体应用程序的核心内层循环,分析其子字并行特点,提出了一种新颖的按位数据流分析方法,能够确定程序的内层循环,为进一步深入研究奠定基础. 展开更多
关键词 多媒体 子字并行 内层循环 数据流
在线阅读 下载PDF
异步子字并行乘累加单元的设计与实现
5
作者 王友瑞 王蕾 +2 位作者 石伟 戴葵 王志英 《计算机工程与科学》 CSCD 北大核心 2009年第1期121-124,共4页
异步电路能很好地解决同步集成电路设计中出现的时钟扭曲和时钟功耗过大等问题。本文采用异步集成电路设计方法设计了一款32位异步子字并行乘累加单元,并在0.18μm工艺条件下实现了该单元。通过使用特殊的部分积译码电路,该乘累加单元... 异步电路能很好地解决同步集成电路设计中出现的时钟扭曲和时钟功耗过大等问题。本文采用异步集成电路设计方法设计了一款32位异步子字并行乘累加单元,并在0.18μm工艺条件下实现了该单元。通过使用特殊的部分积译码电路,该乘累加单元能支持多种子字并行模式,适用于多媒体处理。评测结果表明,异步乘累加单元的性能和功耗指标均优于采用同样结构的同步乘累加单元。 展开更多
关键词 异步 子字并行 乘累加
在线阅读 下载PDF
基于子字并行的串行图像处理算法表示方法
6
作者 唐文胜 匡旺秋 《计算机工程与应用》 CSCD 北大核心 2007年第35期86-89,116,共5页
多媒体应用程序的一个最突出的特点就是其内在的并行性,要求同时对多个数据单元进行相同的规则操作,这种并行性被称为子字并行。如何让编译器产生有效的并行代码,如何从普通的串行C程序中识别出子字并行指令,是一个前沿性的研究课题。... 多媒体应用程序的一个最突出的特点就是其内在的并行性,要求同时对多个数据单元进行相同的规则操作,这种并行性被称为子字并行。如何让编译器产生有效的并行代码,如何从普通的串行C程序中识别出子字并行指令,是一个前沿性的研究课题。提出了一种用于实现对串行源代码进行显式表示的方法,该方法对数字信号处理领域常用的同步数据流图方法进行改进,结合模式匹配技术,着眼于内层循环,通过扩展规范的模式库,对带模式识别的数据流、控制流进行分析,能够从串行应用程序中自动地提取其固有的子字并行,得到显式的并行化中间表示,基于这种数据流图表示,采用改进的树模式匹配实现子字并行指令选择和代码生成。实验测试表明了该方法的有效性。 展开更多
关键词 图像处理 子字并行 模式匹配
在线阅读 下载PDF
一种基于代价子图的子字并行指令选择算法
7
作者 王淼 王志英 《计算机工程与科学》 CSCD 2008年第9期141-144,150,共5页
子字并行能够充分利用多媒体算法的数据精度小、内部循环处理形式规则的特点,是加速多媒体处理的有效方式。然而,如何充分挖掘多媒体应用中的子字并行仍然是一个难题。本文说明传统的并行技术可以有效地开发循环中的子字并行性,同时提... 子字并行能够充分利用多媒体算法的数据精度小、内部循环处理形式规则的特点,是加速多媒体处理的有效方式。然而,如何充分挖掘多媒体应用中的子字并行仍然是一个难题。本文说明传统的并行技术可以有效地开发循环中的子字并行性,同时提出一种基于代价子图的子字并行指令自动识别的方法。与其他方法相比,该方法利用代价模型对子字并行指令选择进行定量评估。本文在TTA体系结构框架下实现了这一方法。实验结果表明,该方法可以充分地提取循环中的子字并行性。 展开更多
关键词 子字并行 指令选择 代价
在线阅读 下载PDF
高性能子字并行运算单元的设计与实现 被引量:2
8
作者 董冕 吴丹 +3 位作者 饶金理 黄威 戴葵 邹雪城 《计算机工程》 CAS CSCD 2012年第16期249-252,共4页
通过硬件共享的方式实现一套高性能子字并行运算单元,运算单元采用流水线设计,可以一个周期进行1个64-bit、2个32-bit、4个16-bit或8个8-bit定点运算,1个双精度或2个单精度浮点运算。运算单元采用Verilog HDL设计,在0.18μm标准CMOS工... 通过硬件共享的方式实现一套高性能子字并行运算单元,运算单元采用流水线设计,可以一个周期进行1个64-bit、2个32-bit、4个16-bit或8个8-bit定点运算,1个双精度或2个单精度浮点运算。运算单元采用Verilog HDL设计,在0.18μm标准CMOS工艺库下实现,并针对实际多媒体应用程序基于ESCA系统进行性能评测。实验结果表明,该运算单元可以在硬件开销和性能上获得较好的平衡。 展开更多
关键词 多媒体技术 子字并行 硬件共享 运算单元 ESCA系统 协处理器
在线阅读 下载PDF
对称密码处理结构的研究与设计 被引量:1
9
作者 庞峥元 姜晶菲 戴葵 《小型微型计算机系统》 CSCD 北大核心 2007年第5期796-800,共5页
针对密码处理领域广泛应用的分组密码算法和单向散列算法研究支持多种算法的密码处理结构.在对多种密码算法的结构和操作特点进行详细分析的基础上提出并实现了能够对多种密码算法提供加速支持的对称密码处理结构(CryptoPro).评估了分... 针对密码处理领域广泛应用的分组密码算法和单向散列算法研究支持多种算法的密码处理结构.在对多种密码算法的结构和操作特点进行详细分析的基础上提出并实现了能够对多种密码算法提供加速支持的对称密码处理结构(CryptoPro).评估了分组密码算法和单向散列算法在CryptoPro上运行的性能,并与国外类似的密码处理结构进行了比较.评估结果说明CryptoPro既能保证各类密码算法应用的灵活性又能达到较高的性能. 展开更多
关键词 密码处理 子字并行 运算链接
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部