题名 一种改进数据流图的子字并行程序表示方法
1
作者
唐文胜
吴丹
机构
湖南师范大学计算机教学部
国防科学技术大学计算机学院
出处
《计算机工程与应用》
CSCD
北大核心
2006年第29期103-106,共4页
基金
湖南省自然科学基金资助项目(编号:04JJ6032)
文摘
论文致力于对图像处理算法的串行C程序进行子字并行分析,并重定向到带有多媒体扩展的通用处理器和多媒体专用嵌入式微处理器。图像处理算法的特点决定其是内在可并行的,这种并行粒度介于数据并行(DLP)和指令级并行(ILP)之间,称之为子字并行。但是,当前的编译技术很难充分挖掘和定位程序基本块内的子字并行,对此设计了一种基于流图程序表示的编译方法,能够从串行程序中显式地定位子字并行。扩展了编译器的功能,增加了特定的模式库,基于模式识别的控制流和数据流分析后,产生特定的子字并行流图(SWFG,Sub-WordFlowGraph),并将该图作为中间表示,提供给子字并行指令选择,进而实现有效的子字并行代码产生。
关键词
图像处理
子字并行
子字并行 流图
Keywords
image-processing, SWP, SWFG
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 子字并行加法器的研究与实现
被引量:2
2
作者
马胜
黄立波
王志英
刘聪
戴葵
机构
国防科技大学计算机学院
出处
《计算机工程与应用》
CSCD
北大核心
2009年第36期54-59,共6页
基金
国家自然科学基金 No.60773024
No.60873015
国防科技大学优秀研究生创新资助No.S070606~~
文摘
子字并行加法器能够有效提高多媒体应用程序的处理性能。基于门延迟模型对加法器原理及性能进行了分析,设计了进位截断和进位消除两种子字并行控制机制。在这两种机制的指导下,实现了多种子字并行加法器,并对它们的性能进行了比较和分析。结果表明进位消除机制相对于进位截断机制需要较短的延时,较少的逻辑门数以及较低的功耗。在各种子字并行加法器中,Kogge-Stone加法器具有最少的延迟时间,RCA加法器具有最少的逻辑门数和最低的功耗。研究结果可以用于指导子字并行加法器的设计与选择。
关键词
子字并行
加法器
进位截断
进位消除
Keywords
subword-parallel adder carry truncation carry elimination
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 一种高性能子字并行乘法器的设计与实现
被引量:2
3
作者
黄立波
岳虹
陆洪毅
戴葵
机构
国防科学技术大学计算机学院
出处
《计算机工程与应用》
CSCD
北大核心
2007年第20期104-106,131,共4页
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.90407022)
文摘
提出了一种支持子字并行的乘法器体系结构,并完成了其VLSI设计与实现。该乘法器在16bit阵列子字并行结构的基础上,扩展了有符号与无符号之间的混合操作,采用多周期合并技术,实现了32bit宽度的子字并行,并支持子字模式的乘累加,同时采用流水线设计技术,能够在单周期内完成4个8×8、2个16×16或1个32×16的有符号/无符号乘法操作。0.18μm的标准单元库的实现表明该乘法器既能减小面积又能提高主频,是硬件消耗和运算性能的较好折衷,非常适用于多媒体微处理器的设计。
关键词
子字并行
乘法器
多媒体
Keywords
subword parallelism
multiplier
multimedia
分类号
TP332
[自动化与计算机技术—计算机系统结构]
题名 一种确定多媒体应用程序内层循环的子字并行编译方法
4
作者
吴丹
王志英
王绍刚
王淼
机构
国防科学技术大学计算机学院
出处
《电子学报》
EI
CAS
CSCD
北大核心
2006年第B12期2575-2578,共4页
基金
国家自然科学基金(No.60173040)
文摘
多媒体程序是数据密集型应用,其核心代码部分占用了大部分的执行时间,因此,对多媒体应用程序的研究大多针对其核心代码部分.本文围绕多媒体应用程序的核心内层循环,分析其子字并行特点,提出了一种新颖的按位数据流分析方法,能够确定程序的内层循环,为进一步深入研究奠定基础.
关键词
多媒体
子字并行
内层循环
数据流
Keywords
multimedia
subword parallelism
inner-loop
dataflow
分类号
TP314
[自动化与计算机技术—计算机软件与理论]
题名 异步子字并行乘累加单元的设计与实现
5
作者
王友瑞
王蕾
石伟
戴葵
王志英
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2009年第1期121-124,共4页
基金
国家自然科学基金资助项目(90407022)
国家863计划资助项目(2007AA01Z101)
文摘
异步电路能很好地解决同步集成电路设计中出现的时钟扭曲和时钟功耗过大等问题。本文采用异步集成电路设计方法设计了一款32位异步子字并行乘累加单元,并在0.18μm工艺条件下实现了该单元。通过使用特殊的部分积译码电路,该乘累加单元能支持多种子字并行模式,适用于多媒体处理。评测结果表明,异步乘累加单元的性能和功耗指标均优于采用同样结构的同步乘累加单元。
关键词
异步
子字并行
乘累加
Keywords
asynchronous
sub-word parallel
MAC
分类号
TP302
[自动化与计算机技术—计算机系统结构]
题名 基于子字并行的串行图像处理算法表示方法
6
作者
唐文胜
匡旺秋
机构
湖南师范大学计算机教学部
出处
《计算机工程与应用》
CSCD
北大核心
2007年第35期86-89,116,共5页
基金
湖南省自然科学基金( the Natural Science Foundation of Hunan Province of China under Grant No.07F0187)
湖南省青年骨干教师培养基金资助项目
+1 种基金
湖南省教育厅资助科研课题(the Research Project of Department of Education of Hunan Province
China under Grant No.06C521)
文摘
多媒体应用程序的一个最突出的特点就是其内在的并行性,要求同时对多个数据单元进行相同的规则操作,这种并行性被称为子字并行。如何让编译器产生有效的并行代码,如何从普通的串行C程序中识别出子字并行指令,是一个前沿性的研究课题。提出了一种用于实现对串行源代码进行显式表示的方法,该方法对数字信号处理领域常用的同步数据流图方法进行改进,结合模式匹配技术,着眼于内层循环,通过扩展规范的模式库,对带模式识别的数据流、控制流进行分析,能够从串行应用程序中自动地提取其固有的子字并行,得到显式的并行化中间表示,基于这种数据流图表示,采用改进的树模式匹配实现子字并行指令选择和代码生成。实验测试表明了该方法的有效性。
关键词
图像处理
子字并行
模式匹配
Keywords
image-processing
Sub-Word Parallelishs (SWP)
pattern matching
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 一种基于代价子图的子字并行指令选择算法
7
作者
王淼
王志英
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
2008年第9期141-144,150,共5页
基金
国家自然科学基金资助项目(60173040)
文摘
子字并行能够充分利用多媒体算法的数据精度小、内部循环处理形式规则的特点,是加速多媒体处理的有效方式。然而,如何充分挖掘多媒体应用中的子字并行仍然是一个难题。本文说明传统的并行技术可以有效地开发循环中的子字并行性,同时提出一种基于代价子图的子字并行指令自动识别的方法。与其他方法相比,该方法利用代价模型对子字并行指令选择进行定量评估。本文在TTA体系结构框架下实现了这一方法。实验结果表明,该方法可以充分地提取循环中的子字并行性。
关键词
子字并行
指令选择
代价子 图
Keywords
subword parallelism
instruction selection
cost subgraph
分类号
TP314
[自动化与计算机技术—计算机软件与理论]
题名 高性能子字并行运算单元的设计与实现
被引量:2
8
作者
董冕
吴丹
饶金理
黄威
戴葵
邹雪城
机构
华中科技大学电子科学与技术系
出处
《计算机工程》
CAS
CSCD
2012年第16期249-252,共4页
基金
国家自然科学基金资助项目(NSFC 60976027
60973035)
+1 种基金
湖北省自然科学基金资助项目(ZRZ0051
2010CDB02705)
文摘
通过硬件共享的方式实现一套高性能子字并行运算单元,运算单元采用流水线设计,可以一个周期进行1个64-bit、2个32-bit、4个16-bit或8个8-bit定点运算,1个双精度或2个单精度浮点运算。运算单元采用Verilog HDL设计,在0.18μm标准CMOS工艺库下实现,并针对实际多媒体应用程序基于ESCA系统进行性能评测。实验结果表明,该运算单元可以在硬件开销和性能上获得较好的平衡。
关键词
多媒体技术
子字并行
硬件共享
运算单元
ESCA系统
协处理器
Keywords
multimedia technique
subword parallel
hardware sharing
arithmetic units
Engineering and Scientific Computing Accelerator(ESCA) system
co-processor
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 对称密码处理结构的研究与设计
被引量:1
9
作者
庞峥元
姜晶菲
戴葵
机构
国防科学技术大学计算机学院
出处
《小型微型计算机系统》
CSCD
北大核心
2007年第5期796-800,共5页
基金
国家自然科学基金项目(90407022)资助
文摘
针对密码处理领域广泛应用的分组密码算法和单向散列算法研究支持多种算法的密码处理结构.在对多种密码算法的结构和操作特点进行详细分析的基础上提出并实现了能够对多种密码算法提供加速支持的对称密码处理结构(CryptoPro).评估了分组密码算法和单向散列算法在CryptoPro上运行的性能,并与国外类似的密码处理结构进行了比较.评估结果说明CryptoPro既能保证各类密码算法应用的灵活性又能达到较高的性能.
关键词
密码处理
子字并行
运算链接
Keywords
cipher processing
subword parallism
operation linking
分类号
TP303
[自动化与计算机技术—计算机系统结构]