期刊文献+
共找到599篇文章
< 1 2 30 >
每页显示 20 50 100
计及铁心非线性的变压器空间动态磁场加速计算方法 被引量:1
1
作者 司马文霞 孙佳琪 +3 位作者 杨鸣 邹德旭 彭庆军 王劲松 《电工技术学报》 北大核心 2025年第5期1559-1574,共16页
快速获得变压器空间磁场动态分布是构建变压器数字孪生体的基础之一,然而现有快速计算方法难以快速、准确地获得铁心饱和工况下的磁场分布特性。因此,该文提出了计及铁心非线性的变压器空间动态磁场加速计算方法。首先,构建变压器电磁... 快速获得变压器空间磁场动态分布是构建变压器数字孪生体的基础之一,然而现有快速计算方法难以快速、准确地获得铁心饱和工况下的磁场分布特性。因此,该文提出了计及铁心非线性的变压器空间动态磁场加速计算方法。首先,构建变压器电磁场路耦合仿真模型,对关键变量进行参数化扫描,仿真获得不同非线性工况下的大量磁场数据,构建涉及铁心非线性工况的主磁通和漏磁通数据集;其次,提出融合卷积神经网络(CNN)和长短期记忆网络(LSTM)的双分支深度学习模型,训练提取磁场数据的空间和时间特征,解决主、漏磁通差异大造成的模型训练难题;最后,利用模型获得输入电压、电流与内部空间磁场分布的非线性映射关系,实现空间动态磁场的加速计算,为变压器数字孪生体的构建提供了快速获得磁场数据的方法。 展开更多
关键词 非线性 卷积神经网络 长短期记忆网络 磁场 加速计算
在线阅读 下载PDF
基于GPU并行计算的拓扑优化全流程加速设计方法
2
作者 张长东 吴奕凡 +3 位作者 周铉华 李旭东 肖息 张自来 《航空制造技术》 北大核心 2025年第12期34-41,67,共9页
随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、... 随着大尺寸航空航天装备的发展需求,高效高精度的大规模拓扑优化设计成为该领域关注的焦点。针对现有大规模拓扑优化设计存在的计算量巨大、计算效率低下等问题,基于GPU并行计算开展了拓扑优化全流程加速设计方法的研究。对网格划分、刚度矩阵计算与组装、有限元求解等过程进行了并行加速,实现了高效高精度的体素网格划分及有限元过程的高效求解。此外,该方法针对拓扑优化设计过程的加速需求,对灵敏度过滤过程进行了并行加速处理。以300万体素单元的姿态推力器模型为设计对象,发现相比于Abaqus 2022软件的拓扑优化并行加速计算,本文所提方法的加速比提高了1259%,且两种方法的相似度极高,验证了所提方法的有效性与实用性。 展开更多
关键词 拓扑优化 并行计算 GPU加速 符号距离场 稀疏矩阵 网格划分
在线阅读 下载PDF
基于国产加速卡的地震模拟计算性能分析与优化
3
作者 周辉 朱虎明 +4 位作者 高天琦 董西淼 张凌云 刘卉杰 陈志鹏 《防灾减灾工程学报》 北大核心 2025年第1期21-33,共13页
AWP-ODC是基于有限差分数值方法来实现大规模三维地震模拟的软件。随着国外对我国高性能计算芯片的出口限制,我国急需发展自己的高性能计算芯片及其软件生态。早期的AWP-ODC加速主要基于NVIDIA GPU软硬件架构来设计优化,近年来,多种异... AWP-ODC是基于有限差分数值方法来实现大规模三维地震模拟的软件。随着国外对我国高性能计算芯片的出口限制,我国急需发展自己的高性能计算芯片及其软件生态。早期的AWP-ODC加速主要基于NVIDIA GPU软硬件架构来设计优化,近年来,多种异构计算平台迅猛发展,如何基于新的异构计算软硬件平台来加速AWP-ODC具有重要研究价值。为此,本文在一种国产加速卡上对AWP-ODC进行移植。针对耗时较多的核函数dstrqc,通过GPU访存优化和网格参数优化等方式缩短了其运行时间。最后分别在国产类GPU单卡和双卡上,利用Fréchet Kernels地震和8·3鲁甸地震数据集进行性能测试。实验结果表明,在单卡计算环境下,两个数据集的FLOPS分别提高了30.51%和25.21%;在双卡计算环境下,两个数据集的FLOPS分别提高了9.42%和23.6%。 展开更多
关键词 地震模拟 国产加速 AWP-ODC 异构计算 性能优化
在线阅读 下载PDF
高速公路加速车道设计影响因素及长度计算模型综述
4
作者 何永明 王繁 隋胜春 《重庆交通大学学报(自然科学版)》 北大核心 2025年第3期40-48,共9页
高速公路加速车道长度确定是合流区几何参数设计的核心内容,直接影响着合流区的通行效率和行车安全。为探究加速车道研究现状与发展趋势,合理设置加速车道,利用文献计量学方法从影响因素和长度计算模型两方面对加速车道设计相关研究进... 高速公路加速车道长度确定是合流区几何参数设计的核心内容,直接影响着合流区的通行效率和行车安全。为探究加速车道研究现状与发展趋势,合理设置加速车道,利用文献计量学方法从影响因素和长度计算模型两方面对加速车道设计相关研究进行综述和评价。针对不同影响因素,梳理了间隙接受理论模型、车辆汇入理论模型、交通仿真模型、Breakdown概率模型、可靠度理论模型、回归模型等加速车道长度计算模型,概括了加速车道评价指标和设计存在的问题,并展望了未来的研究前景。研究表明:现有的相关规范在大型车行驶特性、驾驶员驾驶特征和异质交通流条件等方面的考虑尚不全面,有待进一步修订和完善。为避免间隙接受理论的缺陷,未来可采用简单、易操作的Breakdown概率模型和可靠度理论模型或可重复性强的交通仿真模型,联合数据驱动方法对加速车道长度进行研究,使之更具普遍适用性,保障长度的可靠性。加速车道长度优化、渐变段设计、客货分离的专用加速车道设计、高速公路主线同侧连续入口最小间距等是未来的研究方向。 展开更多
关键词 道路工程 加速车道 长度计算模型 设计影响因素
在线阅读 下载PDF
CAInNet:面向AI加速的通算一体网内计算模型
5
作者 刘忠沛 杨翔瑞 +4 位作者 杨凌 高源航 吕高锋 王宝生 苏金树 《计算机学报》 北大核心 2025年第1期19-34,共16页
AI时代的到来对当今算力提出了双重挑战,一方面涉及推理,另一方面涉及分布式训练。将一部分分布式应用的计算任务卸载到高速网络的网卡或交换机能够潜在提升分布式应用的性能表现,并发挥网络的关键作用。如在交换机或网卡中卸载参数聚... AI时代的到来对当今算力提出了双重挑战,一方面涉及推理,另一方面涉及分布式训练。将一部分分布式应用的计算任务卸载到高速网络的网卡或交换机能够潜在提升分布式应用的性能表现,并发挥网络的关键作用。如在交换机或网卡中卸载参数聚合等计算功能能够有效降低模型训练时产生的大量通信开销。基于P4语言的可编程数据平面除了使网络协议定制更加灵活外,还使得网络数据平面能够为分布式应用提供简单的网内计算服务。然而,当前典型的基于P4语言的可编程数据平面架构如协议无关交换架构(PISA)在进行矩阵运算等方面还表现得不够高效。分析该缺陷的关键原因在于:PISA架构中的超长指令字计算引擎在处理大规模并行同构计算任务时效率不高。针对上述问题,提出了一种面向AI加速的通算一体网内计算模型CAInNet。该模型在传统可编程数据平面的基础上,创新性地融合了单指令多数据流(SIMD)与多指令多数据流(MIMD)两种计算模式,使得网络设备不仅能够支持协议无关网络分组处理,还能在分组传输过程中对承载AI推理与训练的数据做网内计算。为了验证CAInNet在网内计算以及网络可编程方面的能力和效果,我们在该模型中使用带内网络遥测实现网络可视化,并部署多层感知机(MLP)模型实现基于AI的报文分类,替代传统的基于TCAM查表的路由方法。实验表明,采用机器学习推理的报文分类方法在包含5k路由表项的场景下,其准确度高达98.3%,同时节省了98.7%的存储空间,有效地解决了路由爆炸问题。与现有方法相比,将机器学习推理部署在CAInNet中不增加可编程数据平面的处理延迟,且仅消耗适量计算资源。 展开更多
关键词 AI硬件加速 通算一体 网内计算 可编程网络 报文分类 深度神经网络
在线阅读 下载PDF
基于可编程电路的射电望远镜互相关计算加速设计
6
作者 姜宇威 祝永新 《计算机应用与软件》 北大核心 2025年第6期65-71,118,共8页
在建的世界最大平方公里阵列望远镜采用射电干涉测量法对天文数据进行增强。随着天线阵列节点规模增大,干涉极端复杂度呈平方级的增长。阵列部署在偏远的山区和沙漠中,现有的基于纯软件的处理方法难以满足能效的限制。针对该问题,提出... 在建的世界最大平方公里阵列望远镜采用射电干涉测量法对天文数据进行增强。随着天线阵列节点规模增大,干涉极端复杂度呈平方级的增长。阵列部署在偏远的山区和沙漠中,现有的基于纯软件的处理方法难以满足能效的限制。针对该问题,提出基于现场可编程门阵列的高效互相关计算加速方法。提出一种分级结构,在处理量化后数据上可以达到多级并行;提出一种在时间窗口维度进行多通道分割的结构化优化方法;提出一种基于流式传输结构的数据存储量优化方法。测试结果表明,提出的互相关计算加速方法达到了42.76 GFLOPS的高吞吐率和7.07 GOP/S/W的高能耗比。 展开更多
关键词 FPGA 互相关计算 并行加速 高层次综合 结构优化
在线阅读 下载PDF
基于Vulkan的电大复杂目标电磁散射SBR计算方法与GPU加速技术
7
作者 王思凡 吴扬 +5 位作者 贾浩文 胡志明 申子昂 徐若锋 梁达 赵雷 《电波科学学报》 北大核心 2025年第3期457-463,共7页
提出了一种基于Vulkan架构的弹跳射线(shooting and bouncing ray,SBR)加速计算方法,用于电大复杂目标雷达散射截面的快速计算。设计了高效的Vulkan计算着色器,充分利用GPU硬件光追,显著提升了SBR法中光线求交的计算速度;引入了双命令... 提出了一种基于Vulkan架构的弹跳射线(shooting and bouncing ray,SBR)加速计算方法,用于电大复杂目标雷达散射截面的快速计算。设计了高效的Vulkan计算着色器,充分利用GPU硬件光追,显著提升了SBR法中光线求交的计算速度;引入了双命令缓冲机制,使得CPU与GPU能够高效协同工作,从而加速多角度扫描任务的执行;在虚拟孔径面上划分互不干扰的子任务,进一步提升了多GPU并行的利用效率。实验结果表明:所提出方法在计算电大复杂目标雷达散射截面时相较于FEKO RL-GO方法实现了40倍以上的加速;双命令缓冲机制提升了约42%的多角度扫描速度;双GPU计算并行效率超过90%。 展开更多
关键词 雷达散射截面(RCS) 弹跳射线(SBR)法 光线追踪 GPU加速计算 电大复杂目标
在线阅读 下载PDF
基于非均匀变分节块法的pin-by-pin计算加速算法研究 被引量:1
8
作者 张滕飞 吴宏春 +4 位作者 曹良志 李云召 刘晓晶 熊进标 柴翔 《原子能科学技术》 EI CAS CSCD 北大核心 2019年第7期1160-1164,共5页
计算效率是制约pin-by-pin计算工程应用的主要因素之一。本文利用三维扩散的非均匀变分节块法的非均匀节块的描述能力,在不改变原问题栅元均匀化材料分布的前提下,将传统pin-by-pin计算中使用的均匀材料细网剖分方式替代为非均匀材料粗... 计算效率是制约pin-by-pin计算工程应用的主要因素之一。本文利用三维扩散的非均匀变分节块法的非均匀节块的描述能力,在不改变原问题栅元均匀化材料分布的前提下,将传统pin-by-pin计算中使用的均匀材料细网剖分方式替代为非均匀材料粗网剖分方式(粗网加速方法),既能保证pin-by-pin的计算分辨率,又能显著降低红-黑迭代所需的浮点数操作数目,减小内迭代的计算代价。针对外迭代,运用广义矩阵分离加速(GPM)算法和粗网有限差分(CMFD)算法提高源迭代的收敛速度,降低计算时间。数值结果表明,提出的加速算法能在保证计算精度的前提下,有效提高pin-by-pin计算的效率。 展开更多
关键词 加速pin-by-pin计算 非均匀变分节块法 粗网加速方法 广义矩阵分离加速算法 粗网有限差分算法
在线阅读 下载PDF
电推进粒子网格法模拟中计算加速方法的研究综述 被引量:1
9
作者 汤海滨 潘若剑 +2 位作者 毛仁凡 崔云蔚 任军学 《推进技术》 EI CAS CSCD 北大核心 2024年第8期1-25,共25页
粒子网格法(PIC)模拟电推进装置等离子体时具有很强的第一性,但是模拟过程中计算负载很大,故PIC模拟的计算加速方法不可或缺。本文从电推进装置基本性质、低温等离子体物理特性和PIC算法特点作为切入点,明确了PIC方法在电推进装置模拟... 粒子网格法(PIC)模拟电推进装置等离子体时具有很强的第一性,但是模拟过程中计算负载很大,故PIC模拟的计算加速方法不可或缺。本文从电推进装置基本性质、低温等离子体物理特性和PIC算法特点作为切入点,明确了PIC方法在电推进装置模拟过程中计算负载高的原因;结合国内外的研究现状,从建模、时空尺度、算法与并行三个层面介绍了对应计算加速方法的原理和效果;对各类计算加速方法进行了总结和展望。 展开更多
关键词 电推进 PIC模拟 计算加速方法 并行计算 综述
在线阅读 下载PDF
基于FPGA的MobileNetV1目标检测加速器设计 被引量:2
10
作者 严飞 郑绪文 +2 位作者 孟川 李楚 刘银萍 《现代电子技术》 北大核心 2025年第1期151-156,共6页
卷积神经网络是目标检测中的常用算法,但由于卷积神经网络参数量和计算量巨大导致检测速度慢、功耗高,且难以部署到硬件平台,故文中提出一种采用CPU与FPGA融合结构实现MobileNetV1目标检测加速的应用方法。首先,通过设置宽度超参数和分... 卷积神经网络是目标检测中的常用算法,但由于卷积神经网络参数量和计算量巨大导致检测速度慢、功耗高,且难以部署到硬件平台,故文中提出一种采用CPU与FPGA融合结构实现MobileNetV1目标检测加速的应用方法。首先,通过设置宽度超参数和分辨率超参数以及网络参数定点化来减少网络模型的参数量和计算量;其次,对卷积层和批量归一化层进行融合,减少网络复杂性,提升网络计算速度;然后,设计一种八通道核间并行卷积计算引擎,每个通道利用行缓存乘法和加法树结构实现卷积运算;最后,利用FPGA并行计算和流水线结构,通过对此八通道卷积计算引擎合理的复用完成三种不同类型的卷积计算,减少硬件资源使用量、降低功耗。实验结果表明,该设计可以对MobileNetV1目标检测进行硬件加速,帧率可达56.7 f/s,功耗仅为0.603 W。 展开更多
关键词 卷积神经网络 目标检测 FPGA MobileNetV1 并行计算 硬件加速
在线阅读 下载PDF
YOMANet-Accel:面向边缘端人车检测的轻量化算法加速器
11
作者 陈宁江 卢耀宗 《电子与信息学报》 北大核心 2025年第8期2895-2908,共14页
针对自动驾驶边缘计算场景中行人车辆检测任务面临的模型计算复杂度高、参数量大导致的部署难题,该文提出一种轻量化神经网络模型YOMANet(Yolo Model Adaptation Network),基于异构FPGA平台设计YOMANet加速器(YOMANet-Accel),实现边缘... 针对自动驾驶边缘计算场景中行人车辆检测任务面临的模型计算复杂度高、参数量大导致的部署难题,该文提出一种轻量化神经网络模型YOMANet(Yolo Model Adaptation Network),基于异构FPGA平台设计YOMANet加速器(YOMANet-Accel),实现边缘端人车检测的算法加速。YOMANet算法的主干网络采用轻量型网络MobileNetv2以大幅压缩模型参数量,颈部网络使用深度可分离卷积来代替常规卷积以提升训练速度,并在头部网络嵌入基于归一化的注意力模块(NAM)以增强网络对细节信息的捕获能力。为将YOMANet算法部署到现场可编程门阵列(FPGA)平台,该文针对卷积运算在任务层设计循环分块以调整内循环和外循环的顺序,在运算层对处理引擎单元(PE)设计乘加树,使得多个乘加运算可以同时执行,提高数据的并行计算效率。同时,针对数据存储过程采用双缓存机制来减少数据传输时延,对权重参数和激活函数进行int8数据量化以降低资源消耗。实验结果表明,YOMANet算法在训练平台上的检测精度和检测速度表现优异,对小目标和遮挡目标具备较好的检测能力,有效减少了误检和漏检情况的发生。算法部署到硬件平台后,YOMANet-Accel的目标检测效果保持在较高水平,硬件资源的能效比表现良好,有效发挥了FPGA的并行优势。 展开更多
关键词 行人与车辆检测 边缘计算 轻量化 异构FPGA加速
在线阅读 下载PDF
面向“嵩山”平台供水管网仿真计算的移植优化研究
12
作者 郭恒亮 李冰洋 +3 位作者 杨周凡 韩璞 胥博文 商建东 《计算机应用与软件》 北大核心 2025年第4期44-50,共7页
供水管网仿真系统拓扑结构复杂,元件数据密集,系统的高效仿真对实施平台的性能提出了很高的要求。“嵩山”超级计算机系统采用CPU+DCU异构架构,为实现仿真计算在该架构上的高效运行。根据HIP异构编程模型将计算热点映射至DCU加速器上实... 供水管网仿真系统拓扑结构复杂,元件数据密集,系统的高效仿真对实施平台的性能提出了很高的要求。“嵩山”超级计算机系统采用CPU+DCU异构架构,为实现仿真计算在该架构上的高效运行。根据HIP异构编程模型将计算热点映射至DCU加速器上实现,使用MULTPARA多级并行优化方法实现不同元件计算在DCU加速器上的并发,解决线程块间不能充分并行的问题,利用跨线程访问方法解决部分元件计算中存在的线程束分化问题。实验结果表明,相较过往实施平台取得了8.537的加速比。 展开更多
关键词 异构并行 管网仿真计算 DCU加速 MULTPARA方法 跨线程访问
在线阅读 下载PDF
基于CUDA加速动态规划优化全景拼接的刮板输送机直线状态监测 被引量:1
13
作者 李博 侍守伊 +4 位作者 张建军 夏蕊 王学文 崔卫秀 倪强 《工矿自动化》 北大核心 2025年第1期45-51,60,共8页
为提高井下复杂恶劣环境下刮板输送机直线状态监测精度和实时性,提出了一种基于统一计算设备架构(CUDA)加速动态规划优化全景拼接的刮板输送机直线状态监测方法。首先,同步2路摄像头获取的刮板输送机图像的帧数、分辨率参数,对输入的视... 为提高井下复杂恶劣环境下刮板输送机直线状态监测精度和实时性,提出了一种基于统一计算设备架构(CUDA)加速动态规划优化全景拼接的刮板输送机直线状态监测方法。首先,同步2路摄像头获取的刮板输送机图像的帧数、分辨率参数,对输入的视频流进行暗通道清晰化处理,以消除井下煤尘、水雾等的干扰。其次,使用ORB算法检测和计算2路视频帧的特征点和描述子,通过K最近邻(KNN)匹配计算特征点间的匹配对,利用设置阈值比例的方法过滤错误的匹配点,使用随机抽样一致(RANSAC)算法计算出用于图像透视变换的单应性矩阵。然后,基于CUDA将读取Sobel算子、计算梯度、计算总能量差异、循环初始化权重与路径、寻找最佳接缝线分配到不同的线程中,并定义计算能量图和寻找最佳接缝线的核函数,完成2路图像沿接缝线融合的全景拼接。最后,使用霍夫变换方法对全景拼接的刮板输送机图像中部槽挡煤板进行直线拟合,并将拟合的直线绘制在全景拼接图像上,以反映刮板输送机的直线状态。实验及测试结果表明,CUDA加速动态规划优化全景拼接痕迹不明显,且处理速度快;通过霍夫变换对中部槽挡煤板拟合的直线与刮板输送机直线具有较好的一致性,可用于刮板输送机直线状态监测。 展开更多
关键词 刮板输送机直线状态监测 CUDA加速 动态规划 全景拼接 霍夫变换 统一计算设备架构
在线阅读 下载PDF
面向小型边缘计算的深度可分离神经网络模型与硬件加速器设计
14
作者 孟群康 李强 +5 位作者 赵峰 庄莉 王秋琳 陈锴 罗军 常胜 《计算机应用研究》 CSCD 北大核心 2024年第3期861-865,879,共6页
神经网络参数量和运算量的扩大,使得在资源有限的硬件平台上流水线部署神经网络变得更加困难。基于此,提出了一种解决深度学习模型在小型边缘计算平台上部署困难的方法。该方法基于应用于自定义数据集的深度可分离网络模型,在软件端使... 神经网络参数量和运算量的扩大,使得在资源有限的硬件平台上流水线部署神经网络变得更加困难。基于此,提出了一种解决深度学习模型在小型边缘计算平台上部署困难的方法。该方法基于应用于自定义数据集的深度可分离网络模型,在软件端使用迁移学习、敏感度分析和剪枝量化的步骤进行模型压缩,在硬件端分析并设计了适用于有限资源FPGA的流水线硬件加速器。实验结果表明,经过软件端的网络压缩优化,这种量化部署模型具有94.60%的高准确率,16.64 M的较低的单次推理定点数运算量和0.079 M的参数量。此外,经过硬件资源优化后,在国产FPGA开发板上进行流水线部署,推理帧率达到了366 FPS,计算能效为8.57 GOPS/W。这一研究提供了一种在小型边缘计算平台上高性能部署深度学习模型的解决方案。 展开更多
关键词 边缘计算 深度可分离卷积 流水线部署 硬件加速 FPGA
在线阅读 下载PDF
双边永磁电磁混合型电动悬浮加速度反馈控制
15
作者 罗成 唐浩 +3 位作者 万郭豪 王滢 黎松奇 罗俊 《西南交通大学学报》 北大核心 2025年第4期1024-1031,共8页
为提升永磁电动悬浮动态稳定性及减小低速运行时的阻力,研究一种双边永磁电磁混合型电动悬浮系统.首先,基于麦克斯韦方程组推导系统电磁力2D解析式,对解析结果进行有限元数值计算验证,并对比单、双边结构电磁力特性;然后,建立系统悬浮... 为提升永磁电动悬浮动态稳定性及减小低速运行时的阻力,研究一种双边永磁电磁混合型电动悬浮系统.首先,基于麦克斯韦方程组推导系统电磁力2D解析式,对解析结果进行有限元数值计算验证,并对比单、双边结构电磁力特性;然后,建立系统悬浮动力学模型,并设计加速度反馈悬浮控制器;最后,利用Simulink仿真,对比分析在加速度反馈悬浮控制和气隙反馈PID控制下,系统受到轨道及载荷扰动时的气隙、加速度及电流波形.研究结果表明:双边结构可有效增加系统浮阻比,100 km/h运行时单、双边结构浮阻比分别为3.18和15.43;当系统受到±1 mm轨道扰动时,控制器能使系统振动加速度及悬浮气隙分别快速稳定于0和20 mm额定位置;当系统受到±2000 N载荷扰动时,加速度反馈悬浮控制器可使系统悬浮气隙分别快速稳定于19.05 mm和20.96 mm,而PID控制器则使得线圈电流分别稳定于4.43 A/mm^(2)和-4.66 A/mm^(2);当系统稳定运行时,加速度反馈悬浮控制下的线圈稳态电流均为0,而PID控制下的稳态悬浮气隙均为0,且当各种扰动消除后,系统均可快速恢复到初始额定运行状态. 展开更多
关键词 双边结构 电动悬浮 解析计算 加速度反馈控制 气隙反馈PID控制
在线阅读 下载PDF
面向大规模动态图的异构图计算系统设计
16
作者 张明 郭文康 王海峰 《计算机工程》 北大核心 2025年第3期197-207,共11页
图形处理器(GPU)异构集群中处理大规模动态图时GPU计算资源未被充分利用,并且面向GPU的图划分方法存在局限性导致出现性能瓶颈。为提高图计算系统性能,提出一种中央处理器(CPU)/GPU分布式异构图计算系统引擎(DH-Engine),用于提升异构处... 图形处理器(GPU)异构集群中处理大规模动态图时GPU计算资源未被充分利用,并且面向GPU的图划分方法存在局限性导致出现性能瓶颈。为提高图计算系统性能,提出一种中央处理器(CPU)/GPU分布式异构图计算系统引擎(DH-Engine),用于提升异构处理器的计算性能。首先提出新的异构图分割算法,该分割算法以流式图划分为核心,通过贪心策略调整顶点位置,进而实现计算节点之间、CPU/GPU之间的动态负载均衡。在初始图划分时基于最多邻居顶点分配图顶点,在迭代时基于最少连接边动态调整顶点位置。其次,设计GPU异构计算模型,通过CPU/GPU功能并行的方式实现协同计算。CPU与GPU并行执行图算法,提高CPU核心的利用率,进而提升图计算效率。实验以图算法PageRank、CC(Connected Components)、SSSP(Single-Source Shortest Path)与k-core为例,将DH-Engine与其他图计算系统展开对比。与未考虑异构计算的图引擎相比,DH-Engine能更好地平衡各节点计算负载以及计算节点内部的异构处理器之间的负载,通过缩短局部时延来提高整体的计算速度。实验结果表明DH-Engine的CPU/GPU协同度趋于1。相较于其他图计算系统,DH-Engine异构计算的加速比达到5倍,可以提供更好的图异构计算方案。 展开更多
关键词 异构计算 负载均衡 动态图 加速 图划分
在线阅读 下载PDF
山东大学体系结构与可信系统团队在隐私计算异构加速领域取得新进展
17
《信息网络安全》 CSCD 北大核心 2024年第4期625-625,共1页
近日,山东大学网络空间安全学院体系结构与可信系统团队的研究成果被国际会议ASPLOS 2024录用,该会议与ISCA、HPCA、MICRO并称为国际计算机体系结构领域的四大会议,被视作国际前沿体系结构与系统研究的风向标。该论文是山东大学作为第... 近日,山东大学网络空间安全学院体系结构与可信系统团队的研究成果被国际会议ASPLOS 2024录用,该会议与ISCA、HPCA、MICRO并称为国际计算机体系结构领域的四大会议,被视作国际前沿体系结构与系统研究的风向标。该论文是山东大学作为第一及通讯作者单位在ASPLOS上发表的首篇论文。 展开更多
关键词 计算机体系结构 网络空间安全 隐私计算 可信系统 ASP 国际前沿 异构加速 LOS
在线阅读 下载PDF
基于向量转换的卷积计算优化方法
18
作者 王培吉 邹承明 《计算机工程》 北大核心 2025年第6期74-82,共9页
针对卷积计算中的效率问题,提出卷积计算优化方法OAC。该研究的主要目的在于提高卷积计算的效率,以应对深度学习领域对卷积计算速度不断增大的需求。在该技术实现过程中,OAC方法以向量转换为基础,采取一系列巧妙的步骤来优化卷积计算。... 针对卷积计算中的效率问题,提出卷积计算优化方法OAC。该研究的主要目的在于提高卷积计算的效率,以应对深度学习领域对卷积计算速度不断增大的需求。在该技术实现过程中,OAC方法以向量转换为基础,采取一系列巧妙的步骤来优化卷积计算。首先,通过逐行取值的方式将输入矩阵连接成一个向量;然后,对卷积核进行拉伸变换,并根据输入矩阵的宽度和卷积核的大小在适当位置进行补零,形成另一个向量,这一转换的设计旨在和输入矩阵转换后的向量能够进行正确计算,最大程度地减少计算过程中的冗余操作,从而提高效率;最后,结合一些其他的优化手段对向量计算进行加速。实验结果表明,与传统MEC方法相比,OAC方法的计算速度提高了58.9%,与im2col方法相比,计算速度提升90.1%,内存占用相比于MEC方法减少了53.7%。OAC方法不仅在计算效率上取得了显著成果,而且为深度学习等计算任务提供了高效可行的解决方案。 展开更多
关键词 深度学习 卷积计算 卷积优化 向量转换 加速
在线阅读 下载PDF
PreNTT:面向zk-SNARK的数论变换计算并行加速方法
19
作者 丁冬 李正权 柴志雷 《计算机应用研究》 CSCD 北大核心 2024年第10期3059-3067,共9页
简洁非交互式零知识证明(zk-SNARK)由于具备证明验证过程简捷快速的优点,已在加密货币等众多领域得到广泛应用。但其证明生成过程所需计算仍复杂耗时,影响了进一步的应用拓展。针对zk-SNARK证明生成过程中的主要计算瓶颈——数论变换(NT... 简洁非交互式零知识证明(zk-SNARK)由于具备证明验证过程简捷快速的优点,已在加密货币等众多领域得到广泛应用。但其证明生成过程所需计算仍复杂耗时,影响了进一步的应用拓展。针对zk-SNARK证明生成过程中的主要计算瓶颈——数论变换(NTT),提出了一种基于GPU的NTT计算加速方法PreNTT。首先,提出了基于预计算的NTT并行计算方法,利用预计算与旋转因子次幂算法优化,减少NTT并行计算开销,并结合动态预计算,进一步提高NTT计算效率。其次,通过“动态自适应计算核调度”,可以根据NTT输入规模自适应地分配GPU片上资源,提升了大规模NTT任务的计算能效。然后,通过核外整体数据混洗和核内局部数据混洗相结合的方式,避免了访存冲突。最后,使用CUDA多流技术执行数据传输和计算过程,对预计算时间进行了有效隐藏。实验结果表明:基于PreNTT实现的zk-SNARK系统,与目前业界最先进的系统Bellperson相比,NTT模块运行时间获得了全规模最低1.7倍的加速比,最高加速比为9倍。PreNTT能够有效提高NTT算法并行度,降低zk-SNARK运算时间开销。 展开更多
关键词 简洁非交互式零知识证明 数论变换 GPU 并行计算 加速
在线阅读 下载PDF
基于可重构架构的数据中心异构加速软硬件系统级平台
20
作者 王彦伟 李仁刚 +1 位作者 徐冉 刘钧锴 《计算机研究与发展》 北大核心 2025年第4期963-977,共15页
构建数据中心加速服务的软硬件系统级原型平台,需要考虑高计算能力、扩展性、灵活性和低成本等因素.为了提高数据中心的能力,从软硬件协同的角度研究数据中心异构计算在云平台架构、硬件实现、高速互连和应用等方面的创新,研究设计并构... 构建数据中心加速服务的软硬件系统级原型平台,需要考虑高计算能力、扩展性、灵活性和低成本等因素.为了提高数据中心的能力,从软硬件协同的角度研究数据中心异构计算在云平台架构、硬件实现、高速互连和应用等方面的创新,研究设计并构建了一个可重构组合的软硬件加速原型系统,简化了现有以处理器为中心的系统级计算平台构建方法,实现目标软硬件设计的快速部署与系统级原型验证.针对以上目标,通过解耦的可重构架构设备虚拟化和远程映射等方法,发掘独立计算单元的潜力,构建了一套ISOF(independent system of FPGA(field programmable gate arrays))软硬件计算平台系统,可使其超越普通服务器设计所能提供的能力,实现计算单元低成本高效扩展,使客户端可灵活使用外设资源,并且为满足系统级通信挑战,设计了一套计算单元之间的通信硬件平台和交互机制.此外,为提升软硬件系统级平台的敏捷性,ISOF提供了灵活统一的调用接口.最后,通过对平台目标系统级的分析评估,验证了该平台在满足了当下计算与加速需求下,保证了高速、低延时的通信,以及良好的吞吐率和弹性扩容效率,另外在高速通信的基础上改进的拥塞避免和丢包恢复机制,满足了数据中心规模通信的稳定性需求. 展开更多
关键词 异构计算 加速平台 原型系统 高速互连 可重构架构 FPGA
在线阅读 下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部