期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
高性能自研处理器物理设计频率提升方法 被引量:1
1
作者 何小威 乐大珩 +2 位作者 郭维 隋兵才 邓全 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1429-1435,共7页
提升处理器核的频率是提升处理器性能的重要手段.传统的物理设计流程难以实现高主频的处理器核.基于业界主流的布局布线工具,通过嵌入手工定制部件的网表、逻辑和物理设计协同优化、优化定制布线规则、优化物理设计方法学等组合策略.在... 提升处理器核的频率是提升处理器性能的重要手段.传统的物理设计流程难以实现高主频的处理器核.基于业界主流的布局布线工具,通过嵌入手工定制部件的网表、逻辑和物理设计协同优化、优化定制布线规则、优化物理设计方法学等组合策略.在相同工艺、面积、功耗对等条件下,达到流片签核要求时,自研处理器核物理设计频率比原始设计可提升约30%. 展开更多
关键词 布局布线 协同优化 物理设计 签核 频率
在线阅读 下载PDF
MVSim:面向VLIW多核向量处理器的快速、可扩展和精确的体系结构模拟器
2
作者 刘仲 李程 +3 位作者 田希 刘胜 邓让钰 钱程东 《计算机工程与科学》 CSCD 北大核心 2024年第2期191-199,共9页
设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟... 设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟,采用多线程技术实现了多核处理器的高效和可扩展模拟。实验结果表明,MVSim能够准确模拟多核处理器的目标程序执行,模拟结果完全正确,具有良好的可扩展性。MVSim的平均模拟速度分别是RTL模拟和CCS的227倍和5倍,平均性能误差约为2.9%。 展开更多
关键词 体系结构模拟器 VLIW 多核向量处理器模型 性能模型 节拍精准模拟器
在线阅读 下载PDF
处理器值预测技术研究
3
作者 黄立波 杨凌 +5 位作者 杨乾明 马胜 王永文 隋兵才 沈立 徐炜遐 《电子学报》 EI CAS CSCD 北大核心 2023年第12期3591-3618,共28页
当今的处理器性能与存储器带宽和延迟严重失衡的问题限制了计算系统的整体性能,而存储器的性能对制程工艺不敏感,在后摩尔时代下很难再通过集成电路制造工艺的迭代获得处理器性能收益,因此人们更多地想通过体系结构的创新获得更高性能... 当今的处理器性能与存储器带宽和延迟严重失衡的问题限制了计算系统的整体性能,而存储器的性能对制程工艺不敏感,在后摩尔时代下很难再通过集成电路制造工艺的迭代获得处理器性能收益,因此人们更多地想通过体系结构的创新获得更高性能的计算系统.处理器值预测技术是一种能在无需改变存储系统情况下有效缓解存储墙问题的解决方案,其通过预测性地打破数据真相关进而让更多的指令可以在乱序处理器中并行执行,而无需等待由于访存等操作造成的长周期指令执行.近年来,值预测在各个方面都有了实质性的进步,但现如今还没有商用处理器使用这一技术,这主要是由于值预测技术的使用还面临许多挑战:现有的处理器的流水线架构不能直接使用值预测技术;值预测所需的预测值传递机制需要额外的硬件资源开销;值预测器巨大的存储开销让其很难在片上实现;由于值预测错误时的性能惩罚大,因此预测准确率较低的值预测器会降低处理器性能.针对这些问题,本文以值预测技术为中心,围绕值预测技术相关的流水线架构、值预测器结构和错误恢复机制三个方面分别详细论述了国内外研究成果以及其对于各个问题挑战的解决策略.最后,本文对当今的处理器值预测技术进行了总结并对未来的研究方向进行了展望. 展开更多
关键词 值预测 数据依赖 处理器 流水线 存储墙 超标量
在线阅读 下载PDF
面向自主芯片频率扫描实速测试的扫描链分析 被引量:1
4
作者 张锦 刘政辉 +1 位作者 扈啸 胡春媚 《电子测量与仪器学报》 CSCD 北大核心 2024年第3期122-132,共11页
随着芯片工艺的不断升级,芯片设计的频率不断提高,时延故障是引起高速芯片失效的重要因素。在硅后验证阶段,由于缺乏一种对芯片全局路径延时测量的手段,传统构建延时测量电路的方式仅能得到特定关键路径的延时变化情况,在芯片失效时无... 随着芯片工艺的不断升级,芯片设计的频率不断提高,时延故障是引起高速芯片失效的重要因素。在硅后验证阶段,由于缺乏一种对芯片全局路径延时测量的手段,传统构建延时测量电路的方式仅能得到特定关键路径的延时变化情况,在芯片失效时无法进行全面的路径延时分析。本文提出一种基于扫描链的频率扫描实速测试方法对芯片内部大量时序路径的延时进行测量并获取时序裕量。针对生成测试向量时间长,依赖专业测试设备的问题,在自研硬件平台上通过自生成多频率测试向量以及改进数据校验算法成功实现了频率扫描实速测试,对芯片测量的路径延时误差在8 ps左右。通过对不同芯片在不同温度下的实验验证了该方法对路径延时表征的有效性,为今后通过延时参数对高速芯片进行环境适应性分析、寿命预测等研究提供了一种快捷有效的方法。 展开更多
关键词 实速测试 扫描链 芯片测试 测试向量 路径延时
在线阅读 下载PDF
多芯粒网络中负载均衡的死锁解决算法
5
作者 周宏伟 陈志强 +1 位作者 曾坤 邓让钰 《国防科技大学学报》 北大核心 2025年第2期146-154,共9页
针对多芯粒网络中存在跨芯粒的死锁问题以及链路故障导致的网络连通性问题,提出一种面向多芯粒网络的优化报文重传机制。通过在重传机制中使用“报文合并”功能来减少控制报文的数目,降低网络的负载;通过使用“报文转发”功能并采用转... 针对多芯粒网络中存在跨芯粒的死锁问题以及链路故障导致的网络连通性问题,提出一种面向多芯粒网络的优化报文重传机制。通过在重传机制中使用“报文合并”功能来减少控制报文的数目,降低网络的负载;通过使用“报文转发”功能并采用转发到邻居策略,降低芯粒间网络链路故障的容错成本,实现芯粒内网络更均衡的负载。模拟实验结果表明:相较于转向限制,所提方法在延迟基本不变的前提下提升12.5%~25%的饱和带宽,在出现链路故障时,最高提升50%的饱和带宽。“报文合并”可以有效减少控制报文的数目从而降低网络整体的负载。“报文转发”容错成本更低、能够实现芯粒内网络更均衡的负载。 展开更多
关键词 芯粒 容错 死锁 重传
在线阅读 下载PDF
一种可重构的单精度近似浮点乘法器设计
6
作者 李鹏程 黄立波 +5 位作者 陈刚 赖明澈 邓林 刘威 杨乾明 王永文 《计算机研究与发展》 北大核心 2025年第6期1581-1593,共13页
人工智能(AI)和物联网(IoT)技术的迅速发展,对计算能效提出了更高的要求,终端设备在硬件资源开销方面同样面临巨大挑战.为了应对能效问题,新型低功耗近似计算单元的设计得到了广泛研究.在数字信号处理和图像处理等应用场景中,存在大量... 人工智能(AI)和物联网(IoT)技术的迅速发展,对计算能效提出了更高的要求,终端设备在硬件资源开销方面同样面临巨大挑战.为了应对能效问题,新型低功耗近似计算单元的设计得到了广泛研究.在数字信号处理和图像处理等应用场景中,存在大量的浮点运算.这些应用消耗了大量的硬件资源,但它们具有一定的容错性,没有必要进行完全精确的计算.据此,提出了一种基于移位近似算法MTA(multiplication to shift addition)和非对称截断的单精度可重构近似浮点乘法器设计方法.首先,采用了一种低功耗的近似算法MTA,将部分操作数的乘法运算转换为移位加法.其次,为了在精度和成本之间取得平衡,设计了针对操作数高有效位的非对称截断处理,并对截断后保留的部分进行精确计算.通过采用不同位宽的MTA近似计算和改变截断后部分积阵列的行数,生成了广阔的设计空间,从而可以在精度和成本之间进行多种权衡调整.与精确浮点乘法器相比,所提出设计MTA5T5的精度损失(MRED)仅约为0.32%,功耗降低了85.80%,面积减少了79.53%.对于精度较低的MTA3T3,其精度损失约为1.92%,而功耗和面积分别降低了90.55%和85.80%.最后,进行了FIR滤波和图像处理的应用测试,结果表明所提出的设计在精度和开销方面具有显著优势. 展开更多
关键词 近似浮点乘法器 MTA 非对称截断 精度 开销
在线阅读 下载PDF
一种多端口寄存器文件的全自动物理编译器
7
作者 明天波 刘必慰 +3 位作者 胡春媚 吴振宇 宋睿强 宋芳芳 《计算机工程与科学》 北大核心 2025年第6期976-987,共12页
在专用微处理器设计中,设计师需反复尝试不同的体系结构参数以实现最佳应用支持。多端口寄存器文件作为核心部件,仍采用全定制或传统编译器辅助设计,但是这2种方法往往难以兼顾高性能需求与设计灵活性,因此难以与体系结构联合优化。提... 在专用微处理器设计中,设计师需反复尝试不同的体系结构参数以实现最佳应用支持。多端口寄存器文件作为核心部件,仍采用全定制或传统编译器辅助设计,但是这2种方法往往难以兼顾高性能需求与设计灵活性,因此难以与体系结构联合优化。提出一种用于多端口寄存器文件的物理编译器,可以全自动地快速生成指定容量和端口数的寄存器文件电路与版图。此外,还提出了优化的端口结构,以提升寄存器文件的并行访问性能;并提出了性能驱动的启发式算法,以实现优化的布局布线结果。使用所提出的编译器生成寄存器文件的时间约为数十小时,满足联合优化需求。与全定制设计相比,所提编译器速度提升了31.5%,功耗降低了28.8%;与传统编译器辅助设计相比,所提编译器速度提升了20.7%,功耗降低了33.9%。 展开更多
关键词 多端口寄存器文件 物理编译器 端口优化技术 启发式算法 计算机体系结构
在线阅读 下载PDF
FireLink:一种面向芯粒设计空间探索的评估框架
8
作者 李开 曾坤 +3 位作者 荣培涛 陈志强 张甜 王永文 《计算机研究与发展》 北大核心 2025年第5期1108-1122,共15页
基于先进封装技术的芯粒(Chiplet)集成芯片在制造成本、设计效率以及专用定制等方面更具优势,是延续芯片性能增长的有效途径.设计空间探索(design space exploration,DSE)作为体系结构量化分析的重要方法,能够帮助设计者理解并权衡设计... 基于先进封装技术的芯粒(Chiplet)集成芯片在制造成本、设计效率以及专用定制等方面更具优势,是延续芯片性能增长的有效途径.设计空间探索(design space exploration,DSE)作为体系结构量化分析的重要方法,能够帮助设计者理解并权衡设计参数间的复杂关系.但是将传统的芯片体系结构DSE方法直接应用于Chiplet设计时,存在评估不全面、模拟不精确以及探索效率低下等问题,针对这些问题提出了解决方案FireLink,作为一个面向Chiplet设计空间探索的评估框架,它支持Chiplet微架构以及互连网络的建模和模拟,具备高效评估性能、功耗、面积和成本指标的能力.此外,在该框架下采用了ID3(iterative dichotomiser 3)机器学习算法进行了实验,结果显示该框架能够有效提高DSE的效率.与现有的DSE框架和方法相比,FireLink在评估全面性、建模完整性和高效性方面具有显著优势,使得设计者能够在更短时间内探索更广泛的设计空间,进而选定较优的Chiplet设计方案. 展开更多
关键词 芯粒 设计空间探索 模拟 评估 微架构
在线阅读 下载PDF
基于RNN的标准单元延时预测方法
9
作者 游卉擎 黄鹏程 +2 位作者 赵振宇 王斌 向凌云 《郑州大学学报(理学版)》 北大核心 2025年第3期28-34,共7页
在集成电路布线完成至确认阶段的迭代优化时序过程中,重复进行静态时序分析会带来高额的时间成本。为此,设计了标准单元特征提取算法,并对标准单元延时预测问题进行建模。以循环神经网络(recurrent neural network,RNN)为基础构建了标... 在集成电路布线完成至确认阶段的迭代优化时序过程中,重复进行静态时序分析会带来高额的时间成本。为此,设计了标准单元特征提取算法,并对标准单元延时预测问题进行建模。以循环神经网络(recurrent neural network,RNN)为基础构建了标准单元延时预测模型(cell-delay prediction model,C-DPM),深入挖掘标准单元特性与延时之间存在的非线性映射关系,从而实现了快速预测标准单元延时。为了测试C-DPM对不同设计模块在不同工艺、电压、温度条件下的延时预测效果,对亚30 nm工艺下的6个设计模块进行了实验。实验结果显示,C-DPM的最大延时预测的平均绝对误差为0.519 ps~1.310 ps,最小延时预测的平均绝对误差为0.380 ps~1.016 ps,表明C-DPM能以极小的误差换取时间开销的减少,从而加快了物理设计的效率。 展开更多
关键词 循环神经网络 静态时序分析 机器学习 标准单元 延时预测
在线阅读 下载PDF
混洗SRAM:SRAM中的并行按位数据混洗
10
作者 张敦博 曾灵灵 +2 位作者 王若曦 王耀华 沈立 《计算机研究与发展》 北大核心 2025年第1期75-89,共15页
向量处理单元(vector processing unit,VPU)已被广泛应用于神经网络、信号处理和高性能计算等处理器设计中,但其总体性能仍受限于专门用于对齐数据的混洗操作.传统上,处理器使用其数据混洗单元来处理混洗操作.然而,使用数据混洗单元来... 向量处理单元(vector processing unit,VPU)已被广泛应用于神经网络、信号处理和高性能计算等处理器设计中,但其总体性能仍受限于专门用于对齐数据的混洗操作.传统上,处理器使用其数据混洗单元来处理混洗操作.然而,使用数据混洗单元来处理混洗指令将带来昂贵的数据移动开销,并且数据混洗单元只能串行混洗数据.事实上,混洗操作只会改变数据的布局,理想情况下混洗操作应在内存中完成.随着存内计算技术的发展,SRAM不仅可以作为存储部件,同时还能作为计算单元.为了实现存内混洗,提出了混洗SRAM,它可以在SRAM体中逐位地并行混洗多个向量.混洗SRAM的关键思想是利用SRAM体中位线的数据移动能力来改变数据的布局.这样SRAM体中位于同一位线上不同数据的相同位可以同时被移动,从而使混洗操作拥有高度的并行性.通过适当的数据布局和向量混洗扩展指令的支持,混洗SRAM可以高效地处理常用的混洗操作.评测结果表明,对于常用的混洗操作,混洗SRAM可以实现平均28倍的性能增益,对于FFT,AlexNet,VggNet等实际的应用,可以实现平均3.18倍的性能增益.混洗SRAM相较于传统SRAM的面积开销仅增加了4.4%. 展开更多
关键词 向量单指令多数据体系结构 静态随机访问存储器 混洗操作 向量内存 存内计算
在线阅读 下载PDF
基于FT-X DSP轨迹跟踪的插桩工具设计与实现
11
作者 魏臻 原玉磊 +2 位作者 刘月辉 莫家胜 扈啸 《计算机工程与科学》 北大核心 2025年第8期1343-1353,共11页
程序插桩技术包括动态技术和静态技术,在程序执行过程中主要用于动态分析,广泛应用于漏洞挖掘、缺陷检测、性能分析与优化等领域,是进行程序执行路径收集、函数调用分析的主要手段。在嵌入式系统中,传统的插桩方法常常因无操作系统、复... 程序插桩技术包括动态技术和静态技术,在程序执行过程中主要用于动态分析,广泛应用于漏洞挖掘、缺陷检测、性能分析与优化等领域,是进行程序执行路径收集、函数调用分析的主要手段。在嵌入式系统中,传统的插桩方法常常因无操作系统、复杂体系结构和有限内存等限制而难以实施。以静态插桩算法为研究目的,聚焦嵌入式系统调试场景中的插桩需求,除了介绍程序插桩技术的基本原理,系统性地分析目前插桩的典型方法以外,设计并实现了基于FT-X DSP轨迹跟踪的插桩工具Dbtrace。同时,针对插桩开销问题,全面测量了不同插桩方案程序执行的时间开销和代码膨胀率,并与未插桩的程序进行对比。实验结果表明,Dbtrace能有效跟踪和记录程序执行的轨迹信息,降低了内存占用和插桩开销,可以有效解决嵌入式系统的插桩调试问题。 展开更多
关键词 嵌入式系统 数字信号处理器 静态插桩 函数调用 轨迹跟踪
在线阅读 下载PDF
面向低磨损存内计算的多状态逻辑门综合
12
作者 赵安宁 许诺 +4 位作者 刘康 罗莉 潘炳征 薄子怡 谭承浩 《计算机研究与发展》 北大核心 2025年第3期620-632,共13页
通过融合布尔逻辑和非易失存储的功能,忆阻状态逻辑电路可以消除计算过程中的数据移动,实现在存储器中计算,打破传统冯·诺依曼计算系统的“存储墙”和“能耗墙”.近年来,通过构建条件转变到数学逻辑关系之间的映射,已经有一系列存... 通过融合布尔逻辑和非易失存储的功能,忆阻状态逻辑电路可以消除计算过程中的数据移动,实现在存储器中计算,打破传统冯·诺依曼计算系统的“存储墙”和“能耗墙”.近年来,通过构建条件转变到数学逻辑关系之间的映射,已经有一系列存内状态逻辑门被提出,功能覆盖IMP,NAND,NOR,NIMP等多个逻辑运算.然而,复杂计算过程到存内状态逻辑实现的自动化综合映射方法仍处于萌芽阶段,特别是缺少针对器件磨损的探讨,限制了设备维修不便的边缘计算场景应用.为降低复杂存内状态逻辑计算过程的磨损(翻转率),实现了一种面向低磨损存内计算的多状态逻辑门综合映射过程.与领域内熟知的SIMPLER MAGIC状态逻辑综合流程相比,该综合映射流程在复杂计算过程的翻转率上实现了对EPFL,LGSynth91的典型基准测试电路分别平均35.55%,47.26%以上的改进;与最新提出的LOSSS状态逻辑综合流程相比,在复杂计算过程的翻转率上实现了对EPFL,LGSynth91的典型基准测试电路分别平均8.48%,6.72%以上的改进. 展开更多
关键词 忆阻器 状态逻辑 翻转率 逻辑综合与映射 低磨损
在线阅读 下载PDF
MS PUF:抗机器学习建模攻击的多维协同强PUF设计
13
作者 左欣怡 马双宝 +3 位作者 李少青 王振宇 刘威 张洋 《计算机工程》 北大核心 2025年第8期62-73,共12页
物理不可克隆函数(PUF)在资源受限的信息安全领域起着至关重要的作用,然而广泛使用的仲裁器PUF(APUF)及其变体因结构简单和防御维度单一,面临机器学习建模攻击的威胁,同时具有高防御能力的PUF设计通常伴随着较高的硬件成本。为应对这些... 物理不可克隆函数(PUF)在资源受限的信息安全领域起着至关重要的作用,然而广泛使用的仲裁器PUF(APUF)及其变体因结构简单和防御维度单一,面临机器学习建模攻击的威胁,同时具有高防御能力的PUF设计通常伴随着较高的硬件成本。为应对这些挑战,提出一种新型的多维协同PUF(MS PUF)设计,旨在平衡强大的抗建模攻击能力和低硬件开销。该设计以APUF为基础,融合了弱PUF、线性反馈移位寄存器(LFSR)和多路复用器(MUX),通过异或操作混淆输入信号并动态控制MUX输出,增强了PUF响应的安全性和不可预测性。在此设计中,MUX的输出有两种选择:一是直接采用弱PUF序列,二是通过分组异或处理并采用由弱PUF初始化的LFSR生成的序列。此外,MS PUF通过引入逐层异或混淆机制,构筑了一个多层次、多维度的协同安全防御策略。实验结果表明,MS PUF在均匀性、唯一性和可靠性等关键性能指标上表现优异,且硬件开销低,在防御逻辑回归(LR)、支持向量机(SVM)、人工神经网络(ANN)、卷积神经网络(CNN)以及全连接长短时记忆(FC-LSTM)网络等多种机器学习建模攻击时,MS PUF的预测准确率均接近50%,展示了出色的防御能力。 展开更多
关键词 仲裁器物理不可克隆函数 机器学习建模攻击 硬件开销 多维协同PUF 逐层异或混淆机制
在线阅读 下载PDF
FT-Format:一种可配置的硬件代码快速格式化工具
14
作者 陈桂湘 刘胜 郭阳 《计算机工程与科学》 北大核心 2025年第6期958-967,共10页
在集成电路设计领域,规范硬件代码的格式是容易被忽视但至关重要的,它直接影响代码的可读性和可维护性。虽然现有的代码格式化工具已得到广泛应用,但它们确实存在固有的局限,尤其是对于硬件描述语言支持度不高。为了弥补这一缺陷,对主... 在集成电路设计领域,规范硬件代码的格式是容易被忽视但至关重要的,它直接影响代码的可读性和可维护性。虽然现有的代码格式化工具已得到广泛应用,但它们确实存在固有的局限,尤其是对于硬件描述语言支持度不高。为了弥补这一缺陷,对主流的格式化工具进行评估后提出了基于Python语言的硬件代码格式化工具FT-Format,实现了快速高效的格式化处理流程并且允许用户自定义调整格式化过程。为了定量评估工具的处理质量,设计了2种错误格式自检算法。结果表明,FT-Format平均每秒可处理25381行代码,并通过了错误格式自检算法的验证,进一步等价性验证的结果证明FTFormat维持了硬件代码处理前后的逻辑一致性。 展开更多
关键词 硬件描述语言 格式化 高效 可配置
在线阅读 下载PDF
基于图注意力网络的门级网表功能识别
15
作者 秦永旺 张洋 +2 位作者 胡星 刘胜 李少青 《计算机工程》 北大核心 2025年第6期29-37,共9页
随着集成电路设计复杂度的急剧攀升,其呈现出全球化和分工化的发展趋势,需要越来越多的第三方知识产权(IP)核提供者的参与。第三方IP核的广泛使用会引入硬件木马,为了检测和评估第三方IP核是否存在硬件木马以及硬件木马的功能,迫切需要... 随着集成电路设计复杂度的急剧攀升,其呈现出全球化和分工化的发展趋势,需要越来越多的第三方知识产权(IP)核提供者的参与。第三方IP核的广泛使用会引入硬件木马,为了检测和评估第三方IP核是否存在硬件木马以及硬件木马的功能,迫切需要探索出一种可行的IP核硬件安全评估方法,数字电路模块的功能识别作为硬件木马分析的基础研究引起了人们的广泛关注。将电路功能检测任务转换为多分类任务,结合电路结构和图数据结构的特点,提出一种基于图注意力网络(GAT)的门级电路功能分类和检测方法。首先,针对门级网表缺乏功能识别数据集的问题,通过搜集具有代表性的寄存器传输级(RTL)代码并综合生成门级网表,构建一个规模适当、种类多样的门级电路数据集。然后,为了提取和处理电路特征信息,开发了一种基于文本识别的软件工具,将复杂的电路互连结构映射为结构简单的JSON(JavaScript Object Notation)格式,便于神经网络处理。最后,采用图注意力神经网络,利用构建的门级网表数据集对多分类器进行训练,经过训练后的多分类器能够对未知门级电路进行分类和识别。实验结果表明,该多分类器通过对自建数据集中6类共计3000多条网表数据进行学习后,最终对6类645个网表能够达到90%的分类正确率。 展开更多
关键词 集成电路 电路网表 功能识别 深度学习 图神经网络
在线阅读 下载PDF
面向芯粒互联的Retimer结构及关键技术研究
16
作者 孙玉波 周宏伟 +3 位作者 孙星语 何星洋 宋朝阳 陈志强 《计算机工程与科学》 北大核心 2025年第8期1381-1390,共10页
通过芯粒互联接口电路连接多个裸芯(die)的方式构建芯片成为后摩尔时代芯片设计的主流方法。芯粒互联接口电路仅用于在单封装内的多裸芯互联,传输距离极短。在大规模计算系统中,需要利用多个计算芯片单元构建更大规模的计算结点,如何实... 通过芯粒互联接口电路连接多个裸芯(die)的方式构建芯片成为后摩尔时代芯片设计的主流方法。芯粒互联接口电路仅用于在单封装内的多裸芯互联,传输距离极短。在大规模计算系统中,需要利用多个计算芯片单元构建更大规模的计算结点,如何实现多个芯片中的裸芯在板级长距离互联,成为十分重要的问题。Intel等在通用芯粒互联(UCIe)规范中定义了一种面向芯粒互联接口的中继器(Retimer),但并未公开其结构细节,国内面向芯粒互联接口的Retimer的研究尚处于空白。结合自主芯粒互联接口标准制定工作,提出了一种面向芯粒互联到芯片互联的Retimer(D2C_Retimer)结构,支持芯粒的芯粒间互联(D2D)接口转换为芯片间互联(C2C)接口,实现裸芯在板级跨芯片互联。通过Retimer的可靠性传输机制、Retimer的信用机制和层次化边带传输链路等关键技术,实现了对自主芯粒互联标准的兼容,而且在信用管理、可靠性传输等方面具有优势。实验表明,实现的Retimer结构能够在不改变现有自主互联标准的情况下,实现芯粒间跨封装长距离互联,对于健全国产芯粒互联互通生态,具有重要的参考意义和工程实现价值。 展开更多
关键词 中继器 芯粒 互联协议 高可靠性
在线阅读 下载PDF
体系结构模拟器的研究现状、挑战与展望
17
作者 张锦 陈铸 +2 位作者 陈照云 时洋 陈冠军 《计算机工程》 北大核心 2025年第7期1-11,共11页
在众多科学领域的研究与开发中,模拟器都扮演着不可替代的角色。在体系结构领域尤其如此,模拟器提供了一个安全、成本低廉的虚拟环境,使研究人员能够快速开展实验分析和评测。同时,模拟器还可以加速芯片设计和验证的过程,从而节省时间... 在众多科学领域的研究与开发中,模拟器都扮演着不可替代的角色。在体系结构领域尤其如此,模拟器提供了一个安全、成本低廉的虚拟环境,使研究人员能够快速开展实验分析和评测。同时,模拟器还可以加速芯片设计和验证的过程,从而节省时间和资源成本。然而,随着处理器体系结构的演化进步,尤其是专用处理器发展呈现多元化特点,为了能够对体系结构设计探索提供重要的反馈,模拟器的重要作用日益凸显。综述了体系结构模拟器目前的发展与应用现状,重点介绍了几种目前较为典型的体系结构模拟器。通过对专用于不同处理器的模拟器技术手段的分析,深入了解不同架构下模拟器的侧重点及技术难点。此外,还对体系结构模拟器未来发展的关键点进行了思考与评述,以展望其在处理器设计研究领域的前景。 展开更多
关键词 模拟器 体系结构 处理器 芯片设计反馈 虚拟化
在线阅读 下载PDF
高精度两步分支混合CORDIC算法设计及FPGA实现
18
作者 陈小文 芮志超 +2 位作者 朱麒瑾 董羽 孟宇 《计算机工程与科学》 CSCD 北大核心 2024年第12期2099-2108,共10页
CORDIC(坐标旋转数字计算机)算法是一种用于计算三角函数和其他数学运算的算法,被广泛应用于数字信号处理、计算机图形学等领域。CORDIC算法仅需要加减和移位运算,特别适合布署在硬件平台。传统CORDIC算法的局限在于迭代次数过多,虽然... CORDIC(坐标旋转数字计算机)算法是一种用于计算三角函数和其他数学运算的算法,被广泛应用于数字信号处理、计算机图形学等领域。CORDIC算法仅需要加减和移位运算,特别适合布署在硬件平台。传统CORDIC算法的局限在于迭代次数过多,虽然不少研究对此进行了优化,但也增加了硬件开销且易造成精度丢失。为此,基于Hybrid CORDIC算法和Double step branching CORDIC算法,给出了一种CORDIC优化算法——高精度两步分支混合CORDIC(HD CORDIC)算法。该算法在迭代次数上减少到N/4+“1”(N为微旋转角度个数及位宽),并给出了新的混合角度集的划分公式,以达到ε<2-(N-2)的高精度,与基本CORDIC算法(ε<2-(N-1))相近,且不用计算缩放因子K。HD CORDIC算法采用流水线结构,流水线级数仅为N/4+3(不含缩放因子补偿操作的基本CORDIC算法为N+2)。采用Verilog对所提算法进行了硬件实现,并在XILINX Zynq-7000 xc7z100ffv900-2 FPGA平台上进行了综合,实验评估显示,当输入角度位宽为16时,工作频率为315.66 MHz,完成1次正余弦函数运算仅需6个时钟周期。相比于XILINX CORDIC IP,HD CORDIC算法处理时间减少了59.13%,LUT开销减少了55.74%,Register开销减少了80.24%,功耗降低了35.99%。 展开更多
关键词 CORDIC优化算法 Hybrid CORDIC架构 两步分支 三角函数 现场可编程门阵列
在线阅读 下载PDF
可变流水级SM4加解密算法硬件设计及FPGA实现 被引量:4
19
作者 朱麒瑾 陈小文 鲁建壮 《计算机工程与科学》 CSCD 北大核心 2024年第4期606-614,共9页
SM4加解密算法作为我国第一个商用密码算法,凭借其算法结构简单易实现、加解密速度快和安全性高等优点,被广泛应用在数据加密存储和信息加密通信等领域中。以可变流水级SM4加解密算法硬件设计以及FPGA实现为研究课题,重点研究了不同流... SM4加解密算法作为我国第一个商用密码算法,凭借其算法结构简单易实现、加解密速度快和安全性高等优点,被广泛应用在数据加密存储和信息加密通信等领域中。以可变流水级SM4加解密算法硬件设计以及FPGA实现为研究课题,重点研究了不同流水线级数设计的性能差异,设计了一种可控制流水线级数的SM4加解密电路,并将其封装为带有AXI接口和APB接口的IP核。基于XILINX ZYNQ器件,在XILINX ZYNQ-7020开发板上搭建小型SoC,将设计的SM4 IP核挂载到AXI总线上,模拟实际工作情景并进行性能测试。通过软件加解密数据与仿真测试得到的数据来验证设计功能的正确性;测试不同流水线级数的性能,以此选出最适合的流水线级数。 展开更多
关键词 SM4 流水线设计 ZYNQ AXI APB
在线阅读 下载PDF
开源GPU研究综述 被引量:1
20
作者 贾珍珍 杨凌 +5 位作者 黄立波 郭辉 王勇 刘胜 常俊胜 王永文 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2294-2304,共11页
近年来,深度学习、科学计算等需要大量数据并行处理的应用蓬勃发展,高算力GPU愈发受到关注.相比于传统的CPU计算平台,GPU并发高、带宽高,可以大幅提升计算效率.然而,GPU的硬件架构和设计细节通常闭源,且GPU厂商提供的驱动程序也是闭源的... 近年来,深度学习、科学计算等需要大量数据并行处理的应用蓬勃发展,高算力GPU愈发受到关注.相比于传统的CPU计算平台,GPU并发高、带宽高,可以大幅提升计算效率.然而,GPU的硬件架构和设计细节通常闭源,且GPU厂商提供的驱动程序也是闭源的,尽管其会提供一定的文档和技术支持,但GPU研究者难以深入了解GPU的具体架构和细节实现,这增加了GPU的开发门槛.开源可以解决这一问题,目前已有开源的编程模型如OpenCL等,帮助开发者更好的利用GPU进行并行计算,开源GPU生态初具雏形.本文以开源GPU为中心,首先阐述开源GPU的发展背景及相关概念,介绍开源GPU的生态,指出开源GPU当前发展的契机,并对现有开源GPU的架构实现进行总结,最后在此基础上对未来发展进行展望. 展开更多
关键词 开源硬件 GPU 综述 SIMT
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部