期刊文献+
共找到12,714篇文章
< 1 2 250 >
每页显示 20 50 100
一种基于Crossbar结构的分布式共享缓存交换机设计与实现
1
作者 杨乾明 邵靖杰 +5 位作者 曾聘 袁梦 宋卓秦 邓秋严 张剑锋 王勇 《计算机工程与科学》 北大核心 2025年第6期951-957,共7页
交换机的交换结构、缓存方式和多端口读写并存等架构实现方式决定了交换机的性能。随着交换端口数目的增加与端口速率的提升,交换机如何提高多端口数据转发性能是一个值得研究的课题。为满足多端口数据转发、数据交换内部无阻塞的需求,... 交换机的交换结构、缓存方式和多端口读写并存等架构实现方式决定了交换机的性能。随着交换端口数目的增加与端口速率的提升,交换机如何提高多端口数据转发性能是一个值得研究的课题。为满足多端口数据转发、数据交换内部无阻塞的需求,提出一种基于Crossbar结构的分布式共享缓存交换机架构,首先,采用了一种基于Crossbar全相连的输入缓存结构,以满足多端口数据的无阻塞输入需求;其次,在交换结构上创新性地采用了分布式共享缓存方式,以提高数据交换速率;最后,在FPGA开发板上对设计进行了仿真和验证。结果表明,相比传统交换机,提出的分布式共享缓存的多端口交换机架构支持大容量数据转发,能有效提升数据传输带宽。 展开更多
关键词 多端口 交叉开关 分布式共享缓存 读写缓存并行
在线阅读 下载PDF
前言
2
作者 舒继武 王意洁 《计算机研究与发展》 北大核心 2025年第3期543-544,共2页
近年来,随着科技和生产力的飞速更新,AI大模型迈入规模应用的新阶段,人工智能成为助推科技高质量发展、赋能千行百业的重要推手.数据作为核心生产要素,已逐渐成为国家重要战略资源.存储作为承载数据的重要载体,已成为释放数据价值的重... 近年来,随着科技和生产力的飞速更新,AI大模型迈入规模应用的新阶段,人工智能成为助推科技高质量发展、赋能千行百业的重要推手.数据作为核心生产要素,已逐渐成为国家重要战略资源.存储作为承载数据的重要载体,已成为释放数据价值的重要基石,数据潜能的有效激发取决于数据的高效分析处理.那么,大模型及其应用的出现给传统的存储管理带来哪些新的挑战?大模型是否会完全取代传统机器学习模型,并在数据分析处理中取得新的突破?大模型时代的存储管理与数据分析已经成为学术界和产业界广泛关注的焦点.为促进存储领域技术交流,《计算机研究与发展》推出了本期“大模型时代的存储管理与数据分析”专题.本专题收录了6篇论文,聚焦大模型给存储管理与数据分析带来的机遇与挑战,深入探讨支持大模型预训练、微调、评估和推理等的存储管理技术,以及基于大模型的数据分析处理技术,希望能为从事相关工作的读者提供借鉴和帮助. 展开更多
关键词 存储管理 数据分析处理 存储领域 人工智能 数据价值 核心生产要素 模型预训练 技术交流
在线阅读 下载PDF
面向概念漂移的磁盘故障动态集成预测方法
3
作者 丁建立 梁烨文 李静 《小型微型计算机系统》 北大核心 2025年第5期1105-1111,共7页
在大规模数据中心中,磁盘日志通常随着时间的推移不断从磁盘生成,磁盘日志数据的分布会随着时间的推移发生不可预测的变化,产生概念漂移.然而当前磁盘故障预测方法大多是离线训练的,预测性能会随着时间的流逝而逐渐降低,无法对数据分布... 在大规模数据中心中,磁盘日志通常随着时间的推移不断从磁盘生成,磁盘日志数据的分布会随着时间的推移发生不可预测的变化,产生概念漂移.然而当前磁盘故障预测方法大多是离线训练的,预测性能会随着时间的流逝而逐渐降低,无法对数据分布的变化做出反映.针对这一问题,提出了一种面向概念漂移的磁盘故障动态集成预测方法AIDF.该方法从数据分析到磁盘故障预测整个环节都是动态进行的,是一个完整的自动化磁盘故障预测方法.首先,提出了AIDF总体架构.其次,对磁盘故障动态集成预测模型进行构建.包括以下3个方面:对磁盘数据流进行实时数据分析;根据磁盘数据流中存在的概念漂移类型,改进了基学习器的概念漂移检测过程,并基于磁盘故障预测性能为基学习器分配动态权重,建立集成学习模型;为了解决磁盘数据流中特征选择更新问题,提出一种基于概念漂移的动态特征更新与模型再训练算法,当磁盘数据流出现概念漂移并且所选择的最优特征集发生变化时,使用近期窗口中的数据再训练基学习器.实验结果表明,AIDF能够很好地应对磁盘故障预测模型老化的问题,长期保持95%以上的故障检测率,并且适用于实际动态应用环境. 展开更多
关键词 磁盘故障 概念漂移 集成学习 动态预测 增量学习
在线阅读 下载PDF
基于HLS的高精度位移测量算法的硬件加速设计
4
作者 陈昊然 王天昊 +5 位作者 路美娜 宋茂新 罗环 吴晓宇 骆冬根 裘桢炜 《系统工程与电子技术》 北大核心 2025年第2期341-351,共11页
针对高精度位移传感器对高速位移测量算法的运行速度、可移植性及降低研发成本的需求,提出一种基于高层次综合(high-level synthesis, HLS)技术的高精度测量算法的硬件加速设计方法。使用HLS技术实现C++语言到Verilog语言的综合,针对高... 针对高精度位移传感器对高速位移测量算法的运行速度、可移植性及降低研发成本的需求,提出一种基于高层次综合(high-level synthesis, HLS)技术的高精度测量算法的硬件加速设计方法。使用HLS技术实现C++语言到Verilog语言的综合,针对高精度位移测量算法设计策略,利用HLS技术中的流水化和数组重构等优化技术进行硬件加速,并将其封装为知识产权(intellectual property, IP)核,提高算法的可移植性。以Xilinx公司的Kintex-7系列现场可编程门阵列(field-programmable gate array, FPGA)芯片XC7K325TFFG676为载体的测量系统实验结果表明,整个算法耗时91.8μs,相比数字信号处理(digital signal processor, DSP)单元将运行时间缩短了308.2μs,测量精度达到44.44 nm,稳定性为49.20 nm,线性度为0.503‰。 展开更多
关键词 高层次综合技术 位移检测 现场可编程门阵列 硬件加速
在线阅读 下载PDF
碳纤维增强树脂复合材料制孔技术研究进展
5
作者 袁艳萍 郭筱然 +2 位作者 王文博 陈磊 汪洋 《北京工业大学学报》 北大核心 2025年第7期835-850,共16页
碳纤维增强树脂复合材料是以碳纤维为增强体、树脂为基体的复合材料,因其质量轻、耐腐蚀、抗疲劳等优良特性,逐渐替代了许多传统金属材料,广泛应用于航空航天、车辆制造、船舶运输等领域。碳纤维增强树脂复合材料的各向异性及非均质特... 碳纤维增强树脂复合材料是以碳纤维为增强体、树脂为基体的复合材料,因其质量轻、耐腐蚀、抗疲劳等优良特性,逐渐替代了许多传统金属材料,广泛应用于航空航天、车辆制造、船舶运输等领域。碳纤维增强树脂复合材料的各向异性及非均质特性给加工带来了极大挑战和困难,尤其是大型复合材料的连接装配避免不了小孔结构的加工,但是孔周围产生的应力集中会显著降低连接件的抗疲劳性能。基于此,该文系统综述了碳纤维增强树脂复合材料的制孔方法及其特点。首先,阐述了不同加工工艺下碳纤维增强树脂复合材料制孔的研究进展,并分析了不同工艺下产生的主要缺陷,包括孔的表面形貌特征(如边沿毛刺、撕裂、热影响区、表面粗糙度等)和孔的侧壁形貌特征(如纤维分层、孔锥度、侧壁粗糙度等)。其次,针对复材层板的强度和破坏模式,综述了孔加工对复材层板性能的影响。最后,总结和讨论了碳纤维增强树脂复合材料制孔技术的发展趋势和前景。 展开更多
关键词 碳纤维增强树脂复合材料 孔加工 缺陷 工艺研究 开孔拉伸 数值模拟
在线阅读 下载PDF
人工智能赋能的数字逻辑实验平台构建与实现 被引量:1
6
作者 王今雨 高海峰 +4 位作者 安健 王龙翔 刘松 唐新龙 周轩 《实验技术与管理》 北大核心 2025年第7期232-239,共8页
为解决数字逻辑实验课程案例缺少人工智能与硬件结合新兴技术、实验内容缺乏前瞻性与综合性问题,该文设计实现了基于FPGA脉动阵列的YOLO神经网络推理平台,基于该平台软硬件实现过程,构建了一系列实验案例,并通过测试验证了平台的实用性... 为解决数字逻辑实验课程案例缺少人工智能与硬件结合新兴技术、实验内容缺乏前瞻性与综合性问题,该文设计实现了基于FPGA脉动阵列的YOLO神经网络推理平台,基于该平台软硬件实现过程,构建了一系列实验案例,并通过测试验证了平台的实用性。该平台可以覆盖计算机类本科生多门硬件课程专题实验、开放创新实验以及毕业设计,有助于培养学生将人工智能与硬件设计相结合的创新思想,以及灵活运用课程知识动手解决实际工程问题的能力。 展开更多
关键词 自研实验平台 YOLO 数字逻辑 FPGA 硬件加速
在线阅读 下载PDF
面向低磨损存内计算的多状态逻辑门综合 被引量:1
7
作者 赵安宁 许诺 +4 位作者 刘康 罗莉 潘炳征 薄子怡 谭承浩 《计算机研究与发展》 北大核心 2025年第3期620-632,共13页
通过融合布尔逻辑和非易失存储的功能,忆阻状态逻辑电路可以消除计算过程中的数据移动,实现在存储器中计算,打破传统冯·诺依曼计算系统的“存储墙”和“能耗墙”.近年来,通过构建条件转变到数学逻辑关系之间的映射,已经有一系列存... 通过融合布尔逻辑和非易失存储的功能,忆阻状态逻辑电路可以消除计算过程中的数据移动,实现在存储器中计算,打破传统冯·诺依曼计算系统的“存储墙”和“能耗墙”.近年来,通过构建条件转变到数学逻辑关系之间的映射,已经有一系列存内状态逻辑门被提出,功能覆盖IMP,NAND,NOR,NIMP等多个逻辑运算.然而,复杂计算过程到存内状态逻辑实现的自动化综合映射方法仍处于萌芽阶段,特别是缺少针对器件磨损的探讨,限制了设备维修不便的边缘计算场景应用.为降低复杂存内状态逻辑计算过程的磨损(翻转率),实现了一种面向低磨损存内计算的多状态逻辑门综合映射过程.与领域内熟知的SIMPLER MAGIC状态逻辑综合流程相比,该综合映射流程在复杂计算过程的翻转率上实现了对EPFL,LGSynth91的典型基准测试电路分别平均35.55%,47.26%以上的改进;与最新提出的LOSSS状态逻辑综合流程相比,在复杂计算过程的翻转率上实现了对EPFL,LGSynth91的典型基准测试电路分别平均8.48%,6.72%以上的改进. 展开更多
关键词 忆阻器 状态逻辑 翻转率 逻辑综合与映射 低磨损
在线阅读 下载PDF
NA-ROB:基于RISC-V超标量处理器的改进 被引量:1
8
作者 景超霞 刘杰 +1 位作者 李洪奎 刘红海 《计算机应用研究》 北大核心 2025年第2期519-522,共4页
重排序缓存(ROB)是超标量处理器中的重要模块,用于确保乱序执行的指令能够正确地完成和提交。然而,在大规模超标量处理器中,存在ROB阻塞以及ROB容量有限的问题。为了解决上述问题并提高处理器性能,提出了零寄存器分配策略,通过将没有目... 重排序缓存(ROB)是超标量处理器中的重要模块,用于确保乱序执行的指令能够正确地完成和提交。然而,在大规模超标量处理器中,存在ROB阻塞以及ROB容量有限的问题。为了解决上述问题并提高处理器性能,提出了零寄存器分配策略,通过将没有目的寄存器的指令单独存储来避免占用ROB表项。同时,引入容量可动态调整的缓存结构(AROB),将长延时指令与普通指令分别存储在ROB和AROB中,以降低长延时指令导致的阻塞。改进后的超标量处理器被命名为NA-ROB,经过SPEC 2006基准测试程序的实验评估,结果表明,NA-ROB超标量处理器相比于传统的ROB超标量处理器,平均IPC提升了66%,同时ROB的阻塞概率降低了48%。因此,所提出的改进方法显著提升了处理器的整体性能和效率。 展开更多
关键词 RISC-V指令集 超标量处理器 ROB AROB 零寄存器分配策略
在线阅读 下载PDF
一种可重构的单精度近似浮点乘法器设计
9
作者 李鹏程 黄立波 +5 位作者 陈刚 赖明澈 邓林 刘威 杨乾明 王永文 《计算机研究与发展》 北大核心 2025年第6期1581-1593,共13页
人工智能(AI)和物联网(IoT)技术的迅速发展,对计算能效提出了更高的要求,终端设备在硬件资源开销方面同样面临巨大挑战.为了应对能效问题,新型低功耗近似计算单元的设计得到了广泛研究.在数字信号处理和图像处理等应用场景中,存在大量... 人工智能(AI)和物联网(IoT)技术的迅速发展,对计算能效提出了更高的要求,终端设备在硬件资源开销方面同样面临巨大挑战.为了应对能效问题,新型低功耗近似计算单元的设计得到了广泛研究.在数字信号处理和图像处理等应用场景中,存在大量的浮点运算.这些应用消耗了大量的硬件资源,但它们具有一定的容错性,没有必要进行完全精确的计算.据此,提出了一种基于移位近似算法MTA(multiplication to shift addition)和非对称截断的单精度可重构近似浮点乘法器设计方法.首先,采用了一种低功耗的近似算法MTA,将部分操作数的乘法运算转换为移位加法.其次,为了在精度和成本之间取得平衡,设计了针对操作数高有效位的非对称截断处理,并对截断后保留的部分进行精确计算.通过采用不同位宽的MTA近似计算和改变截断后部分积阵列的行数,生成了广阔的设计空间,从而可以在精度和成本之间进行多种权衡调整.与精确浮点乘法器相比,所提出设计MTA5T5的精度损失(MRED)仅约为0.32%,功耗降低了85.80%,面积减少了79.53%.对于精度较低的MTA3T3,其精度损失约为1.92%,而功耗和面积分别降低了90.55%和85.80%.最后,进行了FIR滤波和图像处理的应用测试,结果表明所提出的设计在精度和开销方面具有显著优势. 展开更多
关键词 近似浮点乘法器 MTA 非对称截断 精度 开销
在线阅读 下载PDF
一种多端口寄存器文件的全自动物理编译器
10
作者 明天波 刘必慰 +3 位作者 胡春媚 吴振宇 宋睿强 宋芳芳 《计算机工程与科学》 北大核心 2025年第6期976-987,共12页
在专用微处理器设计中,设计师需反复尝试不同的体系结构参数以实现最佳应用支持。多端口寄存器文件作为核心部件,仍采用全定制或传统编译器辅助设计,但是这2种方法往往难以兼顾高性能需求与设计灵活性,因此难以与体系结构联合优化。提... 在专用微处理器设计中,设计师需反复尝试不同的体系结构参数以实现最佳应用支持。多端口寄存器文件作为核心部件,仍采用全定制或传统编译器辅助设计,但是这2种方法往往难以兼顾高性能需求与设计灵活性,因此难以与体系结构联合优化。提出一种用于多端口寄存器文件的物理编译器,可以全自动地快速生成指定容量和端口数的寄存器文件电路与版图。此外,还提出了优化的端口结构,以提升寄存器文件的并行访问性能;并提出了性能驱动的启发式算法,以实现优化的布局布线结果。使用所提出的编译器生成寄存器文件的时间约为数十小时,满足联合优化需求。与全定制设计相比,所提编译器速度提升了31.5%,功耗降低了28.8%;与传统编译器辅助设计相比,所提编译器速度提升了20.7%,功耗降低了33.9%。 展开更多
关键词 多端口寄存器文件 物理编译器 端口优化技术 启发式算法 计算机体系结构
在线阅读 下载PDF
四级流水线堆栈处理器研究与设计
11
作者 朱恒宇 周永录 +1 位作者 刘宏杰 代红兵 《计算机工程与设计》 北大核心 2025年第1期265-273,共9页
针对现有堆栈处理器主频较低的问题,设计一种16位的四级流水线堆栈处理器ZP16。采用冯诺伊曼结构与J1指令集,具有数据堆栈和返回堆栈两个独立堆栈。四级流水线包括取指、译码、执行和回写。通过合理的结构设计与流水线冲刷技术解决ZP16... 针对现有堆栈处理器主频较低的问题,设计一种16位的四级流水线堆栈处理器ZP16。采用冯诺伊曼结构与J1指令集,具有数据堆栈和返回堆栈两个独立堆栈。四级流水线包括取指、译码、执行和回写。通过合理的结构设计与流水线冲刷技术解决ZP16中流水线冒险问题。实验结果表明,在Xilinx XC7A100T FPGA目标芯片上,ZP16的运行主频稳定在230 MHz。与J1堆栈处理器相比,ZP16流水线加速比为1.3,资源占用率基本相当,功耗增加8%,主频提升130%。与其它同类型堆栈处理器在不同的目标芯片上进行比较,ZP16主频有较为明显的提升。 展开更多
关键词 堆栈处理器 流水线 现场可编程门阵列 主频 加速比 资源占用率 功耗
在线阅读 下载PDF
大气中子在系统级封装器件中引起的单粒子效应特性及机理研究
12
作者 叶结锋 梁朝辉 +5 位作者 张战刚 郑顺顺 雷志锋 刘志利 耿高营 韩慧 《原子能科学技术》 北大核心 2025年第5期1154-1164,共11页
基于大气中子辐照谱仪(ANIS)提供的宽能谱中子束流,开展了系统级封装(SiP)器件的加速辐照实验,观察到了中子辐照导致SiP器件发生单粒子翻转(SEU)及单粒子功能中断(SEFI)效应。SEU发生于数字信号处理器(DSP)内部的静态随机存取存储器(SR... 基于大气中子辐照谱仪(ANIS)提供的宽能谱中子束流,开展了系统级封装(SiP)器件的加速辐照实验,观察到了中子辐照导致SiP器件发生单粒子翻转(SEU)及单粒子功能中断(SEFI)效应。SEU发生于数字信号处理器(DSP)内部的静态随机存取存储器(SRAM)模块以及现场可编程门阵列(FPGA)内部的块随机存取存储器(BRAM)模块。SEFI的错误类型主要是上位机程序闪退以及DSP状态机卡死。基于加速辐照实验结果计算了中子导致的SEU截面,探讨了工艺节点、中子束流能谱对SEU截面的影响。当工艺节点从40 nm减小到28 nm时,U型SEU截面减少了73%。热中子对SRAM模块的SEU截面有较大影响,滤除中子束流中的热中子成分后,SRAM的SEU截面下降了28.8%。基于GEANT4仿真软件对实验结果进行了分析,解释了实验组SEU截面较低的原因。最后,通过计算纽约海平面的软错误率发现,SEU最敏感模块为FPGA内部的BRAM,能量大于1 MeV高能中子引起的软错误率为766.8 FIT/Mbit,未在第二代双倍数据率同步动态随机存取存储器(DDR2 SDRAM)、FPGA内部的可配置逻辑块(CLB)和只读存储器(ROM)中发现SEU;SEFI最敏感模块为DSP。实验数据对SiP的抗中子辐照设计有重要意义。 展开更多
关键词 单粒子效应 中子辐照 系统级封装 单粒子翻转截面 热中子 软错误率
在线阅读 下载PDF
铁电基的存算一体组合优化求解器
13
作者 钱煜 杨泽禹 +7 位作者 王然然 蔡嘉豪 李超 黄庆荣 樊凌雁 李云龙 卓成 尹勋钊 《电子与信息学报》 北大核心 2025年第9期3104-3115,共12页
组合优化问题在诸多领域应用广泛,大多属于非确定多项式时间难题,基于冯·诺依曼架构的传统数字计算机难以满足其极高计算复杂度的需求。具有阈值电压可编程特性和多端口输入结构的铁电晶体管(FeFET)为高效求解组合优化问题提供了... 组合优化问题在诸多领域应用广泛,大多属于非确定多项式时间难题,基于冯·诺依曼架构的传统数字计算机难以满足其极高计算复杂度的需求。具有阈值电压可编程特性和多端口输入结构的铁电晶体管(FeFET)为高效求解组合优化问题提供了新的机遇。基于FeFET的存算一体架构具有能效高、延时低等特点,同时支持对向量-矩阵及向量-矩阵-向量乘法等复杂算子的加速,非常适合求解组合优化问题。该文回顾了FeFET的器件特性,介绍了组合优化问题的基本求解过程,并进一步探讨了近年来面向等式约束、不等式约束和纳什均衡场景下基于FeFET的存算一体组合优化求解器工作。最后,该文从多个方面分析并展望了基于FeFET的存算一体组合优化求解器的前景与挑战。 展开更多
关键词 铁电晶体管 存算一体 组合优化
在线阅读 下载PDF
可重构铁电数据选择器设计及在映射中的应用
14
作者 吴乾火 王伦耀 +2 位作者 查晓婧 储著飞 夏银水 《电子与信息学报》 北大核心 2025年第9期3321-3332,共12页
目前以铁电晶体管(FeFET)为基础的存算一体逻辑电路的映射以阵列为主,该文提出一种以铁电晶体管-数据选择器(FeFET-MUX)为基本电路单元存算一体逻辑电路的实现方法。该方法主要包含两方面内容:(1)提出一种可重构的Fe FET-MUX电路,该电... 目前以铁电晶体管(FeFET)为基础的存算一体逻辑电路的映射以阵列为主,该文提出一种以铁电晶体管-数据选择器(FeFET-MUX)为基本电路单元存算一体逻辑电路的实现方法。该方法主要包含两方面内容:(1)提出一种可重构的Fe FET-MUX电路,该电路具有结构共享和数据输入端可扩展的特点。(2)提出适合该Fe FET-MUX映射的逻辑函数分割方法,通过将待实现的逻辑函数表示成二元决策图(BDD),然后将BDD分割成适合FeFETMUX映射的子BDD集合,最后完成逻辑函数用FeFET-MUX的映射。该文所提FeFET-MUX电路的逻辑功能用已有的FeFET模型进行仿真验证,用于映射的BDD分割算法用C++实现。实验结果表明,相比于传统的非结构共享二选一FeFET-MUX电路的映射结果,采用所提结构共享FeFET-MUX电路结合BDD分割算法,FeFET的使用数量平均可以减少79.9%。 展开更多
关键词 逻辑电路映射 存算一体 铁电晶体管电路 数据选择器 二元决策图分割
在线阅读 下载PDF
混洗SRAM:SRAM中的并行按位数据混洗
15
作者 张敦博 曾灵灵 +2 位作者 王若曦 王耀华 沈立 《计算机研究与发展》 北大核心 2025年第1期75-89,共15页
向量处理单元(vector processing unit,VPU)已被广泛应用于神经网络、信号处理和高性能计算等处理器设计中,但其总体性能仍受限于专门用于对齐数据的混洗操作.传统上,处理器使用其数据混洗单元来处理混洗操作.然而,使用数据混洗单元来... 向量处理单元(vector processing unit,VPU)已被广泛应用于神经网络、信号处理和高性能计算等处理器设计中,但其总体性能仍受限于专门用于对齐数据的混洗操作.传统上,处理器使用其数据混洗单元来处理混洗操作.然而,使用数据混洗单元来处理混洗指令将带来昂贵的数据移动开销,并且数据混洗单元只能串行混洗数据.事实上,混洗操作只会改变数据的布局,理想情况下混洗操作应在内存中完成.随着存内计算技术的发展,SRAM不仅可以作为存储部件,同时还能作为计算单元.为了实现存内混洗,提出了混洗SRAM,它可以在SRAM体中逐位地并行混洗多个向量.混洗SRAM的关键思想是利用SRAM体中位线的数据移动能力来改变数据的布局.这样SRAM体中位于同一位线上不同数据的相同位可以同时被移动,从而使混洗操作拥有高度的并行性.通过适当的数据布局和向量混洗扩展指令的支持,混洗SRAM可以高效地处理常用的混洗操作.评测结果表明,对于常用的混洗操作,混洗SRAM可以实现平均28倍的性能增益,对于FFT,AlexNet,VggNet等实际的应用,可以实现平均3.18倍的性能增益.混洗SRAM相较于传统SRAM的面积开销仅增加了4.4%. 展开更多
关键词 向量单指令多数据体系结构 静态随机访问存储器 混洗操作 向量内存 存内计算
在线阅读 下载PDF
面向迈创3000异构处理器的多头注意力机制多重并行优化
16
作者 路瑶 栾钟治 +4 位作者 李根 齐家兴 韩斌 杨海龙 钱德沛 《计算机学报》 北大核心 2025年第9期2049-2063,共15页
针对迈创3000(MT-3000)异构多核处理器在带宽不足场景下多头注意力(Multi-Head Attention,MHA)计算效率低的问题,本文提出了一套涵盖算子优化、访存优化与调度优化的综合方案,以加速PyTorch框架中的MHA推理。通过融合MT-3000的VLIW指令... 针对迈创3000(MT-3000)异构多核处理器在带宽不足场景下多头注意力(Multi-Head Attention,MHA)计算效率低的问题,本文提出了一套涵盖算子优化、访存优化与调度优化的综合方案,以加速PyTorch框架中的MHA推理。通过融合MT-3000的VLIW指令集、片上存储层次和DMA传输特性,设计了三方面的优化策略:在算子方面,对Linear和Softmax等算子进行内核级优化与算子融合,减少计算与访存开销;在访存方面,利用广播机制与全局共享内存(GSM)优化数据流,降低主存带宽依赖;在调度方面,以行为粒度分块并行,隐藏数据传输延迟。实验表明,优化后的Linear算子单簇峰值性能达1.53 TFLOPS,占理论峰值的37.7%,较NVIDIA V100 GPU加速比最高达5.34倍;在典型大语言模型配置下(嵌入维度4096/8192,头数32/64),MHA机制相较NVIDIA V100 GPU实现最高23.53倍加速,且在单节点多簇环境中扩展性良好。本研究为MT-3000在长序列推理任务中的高效部署提供了解决方案,并为天河超算支持大语言模型等复杂AI任务奠定了技术基础。 展开更多
关键词 MT-3000 多头注意力 性能优化 PyTorch 加速比
在线阅读 下载PDF
基于RISC⁃V的五级流水线浮点SoC设计
17
作者 刘兴通 汤永华 +3 位作者 张志鹏 王腾川 荣弘扬 周程堉 《现代电子技术》 北大核心 2025年第14期57-62,共6页
RISC-V是一种开源指令集架构,其高度可定制化的特性在嵌入式系统领域展现出较强的应用潜力与优势。针对目前嵌入式处理器在视频解码和音频处理等方面对浮点数运算的需求,设计一种包含浮点处理单元(FPU)的片上系统(SoC)。SoC中的CPU是基... RISC-V是一种开源指令集架构,其高度可定制化的特性在嵌入式系统领域展现出较强的应用潜力与优势。针对目前嵌入式处理器在视频解码和音频处理等方面对浮点数运算的需求,设计一种包含浮点处理单元(FPU)的片上系统(SoC)。SoC中的CPU是基于RISC-V指令集设计的五级流水线结构,其中包括RV32I基本指令集、M和F扩展指令集,以AXI4-Lite为片内总线并挂载UART、SPI、TIMER等基本外设。在FPGA上对SoC功能进行软硬件协同仿真测试,测试结果显示,CPU CoreMark跑分结果为3.31 CoreMark/MHz,并能完整运行外设程序,实现了完整的SoC功能设计。 展开更多
关键词 RISC-V 浮点处理单元 片上系统 五级流水线 FPGA AXI4-Lite
在线阅读 下载PDF
一种集成于超算作业调度系统应用的并行参数优化方法
18
作者 张文帅 李会民 +1 位作者 李京 潘必才 《计算机工程》 北大核心 2025年第7期59-67,共9页
随着高性能计算体系结构的发展,软件与硬件都具有多层的并行结构。当不同纵向层级与横向分组的计算任务被划分到不同节点的不同处理器时,存在非常多的分配方式。这些分配方式一般在运行时由用户输入的多个并行参数来确定,并对计算效率... 随着高性能计算体系结构的发展,软件与硬件都具有多层的并行结构。当不同纵向层级与横向分组的计算任务被划分到不同节点的不同处理器时,存在非常多的分配方式。这些分配方式一般在运行时由用户输入的多个并行参数来确定,并对计算效率影响很大。随着计算规模与复杂度的提升,多个并行参数的可配置空间越来越大,用户越来越难以确定最佳的并行参数值。这类运行时优化问题在科学计算应用中较为普遍,但相关的研究与解决方法比较少见。以VASP(Vienna Ab initio Simulation Package)应用为例,首先分析了该应用的多层并行结构,展示了不同并行参数配置引发的巨大运行速度差异。然后提出了一个基于约化并行效率指标的全自动运行优化方法,其不仅可以帮助用户简单快捷地确定最佳应用并行参数,而且可以帮助用户确定最佳的计算资源使用量,使应用可以高效率地扩展到大规模的并行计算中。最后将该优化方法与计算集群作业调度系统相融合应用于用户提交的真实VASP计算作业。统计结果表明,该方法显著提升了作业运行速度与超算资源的使用效率,具有很好的工程应用前景。 展开更多
关键词 并行计算 作业调度 运行时优化 超级计算 VASP应用
在线阅读 下载PDF
基于图强化学习的多边缘协同负载均衡方法
19
作者 郑龙海 肖博怀 +2 位作者 姚泽玮 陈星 莫毓昌 《计算机科学》 北大核心 2025年第3期338-348,共11页
在移动边缘计算中,设备通过将计算密集型任务卸载到附近边缘服务器,可以有效减少应用程序的延迟和能耗。为了提高服务质量,边缘服务器之间需要协作而非单独工作。针对多边缘协作的负载均衡问题,现有的策略往往依赖于精确的数学模型或缺... 在移动边缘计算中,设备通过将计算密集型任务卸载到附近边缘服务器,可以有效减少应用程序的延迟和能耗。为了提高服务质量,边缘服务器之间需要协作而非单独工作。针对多边缘协作的负载均衡问题,现有的策略往往依赖于精确的数学模型或缺乏对边缘拓扑关系的利用。为了解决此问题,文中提出了一种基于图强化学习的卸载决策方法。首先将多边缘协作的负载均衡场景抽象为图数据;然后采用基于图卷积神经网络的图嵌入过程来提取图的信息特征,以辅助深度Q网络进行卸载决策;最后通过集中反馈控制机制找到目标负载均衡方案。在多个场景下进行仿真实验,实验结果验证了所提方法在缩短任务平均响应时延方面的有效性,并且可以在短时间内获得优于对比算法且接近理想方案的负载均衡效果。 展开更多
关键词 多边缘协作 负载均衡 任务卸载 图神经网络 深度强化学习
在线阅读 下载PDF
存储系统中低修复成本的局部修复阵列码
20
作者 唐金华 黄鹃 +4 位作者 杨洋 唐聃 蔡红亮 余洪州 熊攀 《计算机应用研究》 北大核心 2025年第9期2765-2771,共7页
在大规模分布式存储系统的广泛应用背景下,传统容错编码方案在单盘和双盘故障修复过程中面临读取资源消耗高、修复效率不足等技术难题,提出一种具有局部修复特性的混合校验编码方案——VC-code(vertical central symmetric code)。VC-c... 在大规模分布式存储系统的广泛应用背景下,传统容错编码方案在单盘和双盘故障修复过程中面临读取资源消耗高、修复效率不足等技术难题,提出一种具有局部修复特性的混合校验编码方案——VC-code(vertical central symmetric code)。VC-code通过融合横纵式阵列码的快速修复与负载均衡特性,设计了一种局部水平校验与对角校验交叉融合的结构,并采用纵向中心对称校验布局优化数据依赖关系。该设计将单盘和双盘故障修复的数据读取量显著降低,同时通过缩短修复链提升整体效率。理论分析表明,在单双盘故障恢复时大幅降低了数据读取开销。实验结果进一步验证了其性能优势,与RDP码、LRRDP码以及DRDP码相比,VC-code在单盘故障修复时间上减少了10.45%~29.57%,在双盘故障修复时间上减少了6.35%~33.24%。 展开更多
关键词 分布式存储系统 阵列码 局部修复 负载均衡 读取开销
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部