期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于ESCA系统的层次化显式访存机制研究 被引量:2
1
作者 饶金理 吴丹 +4 位作者 陈攀 董冕 邓承诺 戴葵 邹雪城 《计算机工程》 CAS CSCD 北大核心 2011年第22期24-27,34,共5页
针对高性能混合计算系统中的存储墙问题,在分析其计算模式特点及传统访存机制局限性的基础上,提出适用于混合计算系统的层次化显式存储访问机制,并基于ESCA多核处理器系统进行实现和评测。实验结果显示,针对核心应用程序DGEMM,延迟隐藏... 针对高性能混合计算系统中的存储墙问题,在分析其计算模式特点及传统访存机制局限性的基础上,提出适用于混合计算系统的层次化显式存储访问机制,并基于ESCA多核处理器系统进行实现和评测。实验结果显示,针对核心应用程序DGEMM,延迟隐藏能够占据整体运行时间的56%,并获得1.5倍的加速比,能弥补计算与存储访问间的速度差异,提高系统计算效率。 展开更多
关键词 混合计算 存储墙 多核处理器 esca系统 层次化显示存储访问 延迟隐藏
在线阅读 下载PDF
高性能子字并行运算单元的设计与实现 被引量:2
2
作者 董冕 吴丹 +3 位作者 饶金理 黄威 戴葵 邹雪城 《计算机工程》 CAS CSCD 2012年第16期249-252,共4页
通过硬件共享的方式实现一套高性能子字并行运算单元,运算单元采用流水线设计,可以一个周期进行1个64-bit、2个32-bit、4个16-bit或8个8-bit定点运算,1个双精度或2个单精度浮点运算。运算单元采用Verilog HDL设计,在0.18μm标准CMOS工... 通过硬件共享的方式实现一套高性能子字并行运算单元,运算单元采用流水线设计,可以一个周期进行1个64-bit、2个32-bit、4个16-bit或8个8-bit定点运算,1个双精度或2个单精度浮点运算。运算单元采用Verilog HDL设计,在0.18μm标准CMOS工艺库下实现,并针对实际多媒体应用程序基于ESCA系统进行性能评测。实验结果表明,该运算单元可以在硬件开销和性能上获得较好的平衡。 展开更多
关键词 多媒体技术 子字并行 硬件共享 运算单元 esca系统 协处理器
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部