期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
高性能自研处理器物理设计频率提升方法 被引量:1
1
作者 何小威 乐大珩 +2 位作者 郭维 隋兵才 邓全 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1429-1435,共7页
提升处理器核的频率是提升处理器性能的重要手段.传统的物理设计流程难以实现高主频的处理器核.基于业界主流的布局布线工具,通过嵌入手工定制部件的网表、逻辑和物理设计协同优化、优化定制布线规则、优化物理设计方法学等组合策略.在... 提升处理器核的频率是提升处理器性能的重要手段.传统的物理设计流程难以实现高主频的处理器核.基于业界主流的布局布线工具,通过嵌入手工定制部件的网表、逻辑和物理设计协同优化、优化定制布线规则、优化物理设计方法学等组合策略.在相同工艺、面积、功耗对等条件下,达到流片签核要求时,自研处理器核物理设计频率比原始设计可提升约30%. 展开更多
关键词 布局布线 协同优化 物理设计 签核 频率
在线阅读 下载PDF
一种可重构的单精度近似浮点乘法器设计
2
作者 李鹏程 黄立波 +5 位作者 陈刚 赖明澈 邓林 刘威 杨乾明 王永文 《计算机研究与发展》 北大核心 2025年第6期1581-1593,共13页
人工智能(AI)和物联网(IoT)技术的迅速发展,对计算能效提出了更高的要求,终端设备在硬件资源开销方面同样面临巨大挑战.为了应对能效问题,新型低功耗近似计算单元的设计得到了广泛研究.在数字信号处理和图像处理等应用场景中,存在大量... 人工智能(AI)和物联网(IoT)技术的迅速发展,对计算能效提出了更高的要求,终端设备在硬件资源开销方面同样面临巨大挑战.为了应对能效问题,新型低功耗近似计算单元的设计得到了广泛研究.在数字信号处理和图像处理等应用场景中,存在大量的浮点运算.这些应用消耗了大量的硬件资源,但它们具有一定的容错性,没有必要进行完全精确的计算.据此,提出了一种基于移位近似算法MTA(multiplication to shift addition)和非对称截断的单精度可重构近似浮点乘法器设计方法.首先,采用了一种低功耗的近似算法MTA,将部分操作数的乘法运算转换为移位加法.其次,为了在精度和成本之间取得平衡,设计了针对操作数高有效位的非对称截断处理,并对截断后保留的部分进行精确计算.通过采用不同位宽的MTA近似计算和改变截断后部分积阵列的行数,生成了广阔的设计空间,从而可以在精度和成本之间进行多种权衡调整.与精确浮点乘法器相比,所提出设计MTA5T5的精度损失(MRED)仅约为0.32%,功耗降低了85.80%,面积减少了79.53%.对于精度较低的MTA3T3,其精度损失约为1.92%,而功耗和面积分别降低了90.55%和85.80%.最后,进行了FIR滤波和图像处理的应用测试,结果表明所提出的设计在精度和开销方面具有显著优势. 展开更多
关键词 近似浮点乘法器 MTA 非对称截断 精度 开销
在线阅读 下载PDF
FireLink:一种面向芯粒设计空间探索的评估框架
3
作者 李开 曾坤 +3 位作者 荣培涛 陈志强 张甜 王永文 《计算机研究与发展》 北大核心 2025年第5期1108-1122,共15页
基于先进封装技术的芯粒(Chiplet)集成芯片在制造成本、设计效率以及专用定制等方面更具优势,是延续芯片性能增长的有效途径.设计空间探索(design space exploration,DSE)作为体系结构量化分析的重要方法,能够帮助设计者理解并权衡设计... 基于先进封装技术的芯粒(Chiplet)集成芯片在制造成本、设计效率以及专用定制等方面更具优势,是延续芯片性能增长的有效途径.设计空间探索(design space exploration,DSE)作为体系结构量化分析的重要方法,能够帮助设计者理解并权衡设计参数间的复杂关系.但是将传统的芯片体系结构DSE方法直接应用于Chiplet设计时,存在评估不全面、模拟不精确以及探索效率低下等问题,针对这些问题提出了解决方案FireLink,作为一个面向Chiplet设计空间探索的评估框架,它支持Chiplet微架构以及互连网络的建模和模拟,具备高效评估性能、功耗、面积和成本指标的能力.此外,在该框架下采用了ID3(iterative dichotomiser 3)机器学习算法进行了实验,结果显示该框架能够有效提高DSE的效率.与现有的DSE框架和方法相比,FireLink在评估全面性、建模完整性和高效性方面具有显著优势,使得设计者能够在更短时间内探索更广泛的设计空间,进而选定较优的Chiplet设计方案. 展开更多
关键词 芯粒 设计空间探索 模拟 评估 微架构
在线阅读 下载PDF
混洗SRAM:SRAM中的并行按位数据混洗
4
作者 张敦博 曾灵灵 +2 位作者 王若曦 王耀华 沈立 《计算机研究与发展》 北大核心 2025年第1期75-89,共15页
向量处理单元(vector processing unit,VPU)已被广泛应用于神经网络、信号处理和高性能计算等处理器设计中,但其总体性能仍受限于专门用于对齐数据的混洗操作.传统上,处理器使用其数据混洗单元来处理混洗操作.然而,使用数据混洗单元来... 向量处理单元(vector processing unit,VPU)已被广泛应用于神经网络、信号处理和高性能计算等处理器设计中,但其总体性能仍受限于专门用于对齐数据的混洗操作.传统上,处理器使用其数据混洗单元来处理混洗操作.然而,使用数据混洗单元来处理混洗指令将带来昂贵的数据移动开销,并且数据混洗单元只能串行混洗数据.事实上,混洗操作只会改变数据的布局,理想情况下混洗操作应在内存中完成.随着存内计算技术的发展,SRAM不仅可以作为存储部件,同时还能作为计算单元.为了实现存内混洗,提出了混洗SRAM,它可以在SRAM体中逐位地并行混洗多个向量.混洗SRAM的关键思想是利用SRAM体中位线的数据移动能力来改变数据的布局.这样SRAM体中位于同一位线上不同数据的相同位可以同时被移动,从而使混洗操作拥有高度的并行性.通过适当的数据布局和向量混洗扩展指令的支持,混洗SRAM可以高效地处理常用的混洗操作.评测结果表明,对于常用的混洗操作,混洗SRAM可以实现平均28倍的性能增益,对于FFT,AlexNet,VggNet等实际的应用,可以实现平均3.18倍的性能增益.混洗SRAM相较于传统SRAM的面积开销仅增加了4.4%. 展开更多
关键词 向量单指令多数据体系结构 静态随机访问存储器 混洗操作 向量内存 存内计算
在线阅读 下载PDF
面向低磨损存内计算的多状态逻辑门综合
5
作者 赵安宁 许诺 +4 位作者 刘康 罗莉 潘炳征 薄子怡 谭承浩 《计算机研究与发展》 北大核心 2025年第3期620-632,共13页
通过融合布尔逻辑和非易失存储的功能,忆阻状态逻辑电路可以消除计算过程中的数据移动,实现在存储器中计算,打破传统冯·诺依曼计算系统的“存储墙”和“能耗墙”.近年来,通过构建条件转变到数学逻辑关系之间的映射,已经有一系列存... 通过融合布尔逻辑和非易失存储的功能,忆阻状态逻辑电路可以消除计算过程中的数据移动,实现在存储器中计算,打破传统冯·诺依曼计算系统的“存储墙”和“能耗墙”.近年来,通过构建条件转变到数学逻辑关系之间的映射,已经有一系列存内状态逻辑门被提出,功能覆盖IMP,NAND,NOR,NIMP等多个逻辑运算.然而,复杂计算过程到存内状态逻辑实现的自动化综合映射方法仍处于萌芽阶段,特别是缺少针对器件磨损的探讨,限制了设备维修不便的边缘计算场景应用.为降低复杂存内状态逻辑计算过程的磨损(翻转率),实现了一种面向低磨损存内计算的多状态逻辑门综合映射过程.与领域内熟知的SIMPLER MAGIC状态逻辑综合流程相比,该综合映射流程在复杂计算过程的翻转率上实现了对EPFL,LGSynth91的典型基准测试电路分别平均35.55%,47.26%以上的改进;与最新提出的LOSSS状态逻辑综合流程相比,在复杂计算过程的翻转率上实现了对EPFL,LGSynth91的典型基准测试电路分别平均8.48%,6.72%以上的改进. 展开更多
关键词 忆阻器 状态逻辑 翻转率 逻辑综合与映射 低磨损
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部