期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
基于可重构架构的数据中心异构加速软硬件系统级平台
1
作者 王彦伟 李仁刚 +1 位作者 徐冉 刘钧锴 《计算机研究与发展》 北大核心 2025年第4期963-977,共15页
构建数据中心加速服务的软硬件系统级原型平台,需要考虑高计算能力、扩展性、灵活性和低成本等因素.为了提高数据中心的能力,从软硬件协同的角度研究数据中心异构计算在云平台架构、硬件实现、高速互连和应用等方面的创新,研究设计并构... 构建数据中心加速服务的软硬件系统级原型平台,需要考虑高计算能力、扩展性、灵活性和低成本等因素.为了提高数据中心的能力,从软硬件协同的角度研究数据中心异构计算在云平台架构、硬件实现、高速互连和应用等方面的创新,研究设计并构建了一个可重构组合的软硬件加速原型系统,简化了现有以处理器为中心的系统级计算平台构建方法,实现目标软硬件设计的快速部署与系统级原型验证.针对以上目标,通过解耦的可重构架构设备虚拟化和远程映射等方法,发掘独立计算单元的潜力,构建了一套ISOF(independent system of FPGA(field programmable gate arrays))软硬件计算平台系统,可使其超越普通服务器设计所能提供的能力,实现计算单元低成本高效扩展,使客户端可灵活使用外设资源,并且为满足系统级通信挑战,设计了一套计算单元之间的通信硬件平台和交互机制.此外,为提升软硬件系统级平台的敏捷性,ISOF提供了灵活统一的调用接口.最后,通过对平台目标系统级的分析评估,验证了该平台在满足了当下计算与加速需求下,保证了高速、低延时的通信,以及良好的吞吐率和弹性扩容效率,另外在高速通信的基础上改进的拥塞避免和丢包恢复机制,满足了数据中心规模通信的稳定性需求. 展开更多
关键词 异构计算 加速平台 原型系统 高速互连 可重构架构 FPGA
在线阅读 下载PDF
基于OpenVPX标准的异构融合处理模块软硬件协同设计研究 被引量:1
2
作者 文敏华 石添介 田径 《弹箭与制导学报》 北大核心 2024年第3期103-108,共6页
随着计算机软硬件技术的持续进步,机载计算平台集成的任务功能日益增多,导致平台内部的计算需求在规模和复杂性上不断攀升。面对智能化应用的迅猛增长,传统的单一处理器架构已不足以应对多样化的复杂任务。为此,基于OpenVPX标准,定义并... 随着计算机软硬件技术的持续进步,机载计算平台集成的任务功能日益增多,导致平台内部的计算需求在规模和复杂性上不断攀升。面对智能化应用的迅猛增长,传统的单一处理器架构已不足以应对多样化的复杂任务。为此,基于OpenVPX标准,定义并设计了一种符合硬件开放式架构的3U异构融合处理模块,以适应多种复杂任务的需求。文中还提出了一种异构计算资源池化技术,旨在实现多类型任务应用的快速部署和高效运行,同时降低通信延迟,显著提升计算平台的处理能力和适用性。最后进行了实验验证,结果表明与多CPU架构相比,文中所设计的异构融合处理模块在执行特定神经网络算法时,处理时间缩短了约4.8倍,证明了其在性能上的显著提升。该研究成果不仅展示了异构融合处理模块在机载智能计算应用中的显著性能优势,而且为航空计算平台的未来发展提供了创新的解决方案和技术支持。 展开更多
关键词 机载计算平台 OpenVPX 硬件开放式架构 异构融合处理 资源池化
在线阅读 下载PDF
面向大规模异构计算平台的MiniGo高效训练方法
3
作者 李荣春 贺周雨 +3 位作者 乔鹏 姜晶菲 窦勇 李东升 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第5期209-218,共10页
提出一种适用于大规模异构计算平台训练MiniGo智能体的高效多级并行训练方法,包括节点间任务级并行、中央处理器-数字信号处理器(central processing unit-digital signal processor, CPU-DSP)异构并行、DSP核内并行。实现了高效的输入... 提出一种适用于大规模异构计算平台训练MiniGo智能体的高效多级并行训练方法,包括节点间任务级并行、中央处理器-数字信号处理器(central processing unit-digital signal processor, CPU-DSP)异构并行、DSP核内并行。实现了高效的输入/输出部署,消除网络通信瓶颈。提出了面向CPU-DSP共享内存结构的异构计算内存管理,减少异构设备间的数据搬运。实现了共享内存编程优化,并利用DSP实现密集卷积计算算子加速优化。结果表明,与16核CPU计算相比,单核DSP算子加速最大加速比达16.44;该方法实现计算节点规模从1 067扩展至4 139,得到达到给定终止条件所需时间从43.02 h降至16.05 h,可扩展效率为69.1%。评估表明,该方法能够实现MiniGo在大规模异构计算平台的高效并行训练。 展开更多
关键词 MiniGo 大规模异构计算平台 数字信号处理器
在线阅读 下载PDF
面向国产异构DCU平台的大规模并行矩量法研究
4
作者 贾瑞鹏 林中朝 +2 位作者 左胜 张玉 杨美红 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期76-83,共8页
面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配... 面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配的问题,实现了矩量法异构并行计算过程的负载均衡。采用细粒度任务划分策略与异步通信技术,对深度计算处理器计算过程进行了流水线优化设计,实现了计算与通信重叠,提升了矩量法异构协同计算的效率。通过与有限元法的仿真结果对比,验证了CPU+DCU异构并行矩量法的准确性。基于国产深度计算处理器异构平台的可扩展性分析结果表明,与单纯CPU计算相比,所实现的CPU+DCU异构协同计算方法能够获得5.5~7.0倍的加速效果,且在国家超级计算西安中心能够实现全系统运行,并行规模从360节点扩展到3 600节点(共1 036 800个处理器核心),并行效率可以达到约73.5%。 展开更多
关键词 高阶矩量法 国产异构并行系统 深度计算处理器 异构协同并行计算
在线阅读 下载PDF
基于虚拟化的GPU异构资源池平台架构设计、关键技术及应用研究 被引量:2
5
作者 张万才 张楠 +2 位作者 杨文清 王涛 张文强 《电信科学》 北大核心 2024年第9期162-175,共14页
人工智能算力资源面临价格高昂、市场断供等现状问题,传统的单卡单用模式导致资源利用率和使用效率低下,现有的技术研究手段难以支撑多元异构图形处理单元(graphics processing unit,GPU)资源的高效管理和调度。基于此,提出一种基于虚... 人工智能算力资源面临价格高昂、市场断供等现状问题,传统的单卡单用模式导致资源利用率和使用效率低下,现有的技术研究手段难以支撑多元异构图形处理单元(graphics processing unit,GPU)资源的高效管理和调度。基于此,提出一种基于虚拟化的GPU异构资源池平台,首先对平台总体架构、逻辑架构和功能架构进行了规划设计;其次,对关键技术进行研究,提出了虚拟化异构GPU资源池框架和基于时间切片+负载均衡的调度模型;最后,基于所提方法,提出了多业务单卡叠加、交叉拉远、跨机整合、混合部署和时分复用等多种创新应用模式。所提方法为企业级AI应用提供了可兼容多个GPU不同厂商、支持远程访问、可灵活切分和聚合、可弹性调度的GPU算力资源。经测算分析,同等开发和训练量下,GPU卡数量可节省60%、运行效率可提升4倍。 展开更多
关键词 GPU异构资源池 算力平台 虚拟化 时间切片 负载均衡
在线阅读 下载PDF
基于鲲鹏和昇腾异构平台的单节点HPL-AI设计与优化
6
作者 吴昊天 任长青 +2 位作者 陆璐 徐鹏翔 杨凯 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第2期13-22,共10页
鉴于低精度浮点运算拥有更快的运算速度,越来越多的高性能应用采用混合精度方案进行加速,而同样采用该方案来加速的AI(人工智能)大模型也受到广泛关注。最近,HPL-AI(High Performance LINPACK for Accelerator Introspection)基准测试... 鉴于低精度浮点运算拥有更快的运算速度,越来越多的高性能应用采用混合精度方案进行加速,而同样采用该方案来加速的AI(人工智能)大模型也受到广泛关注。最近,HPL-AI(High Performance LINPACK for Accelerator Introspection)基准测试被提出,用于评估高性能系统的混合精度运算性能。针对该基准测试,本研究在鲲鹏和昇腾异构平台上设计并优化了单节点HPL-AI基准测试的实现。其主要通过循环任务分配的策略将任务均匀地分配给AI处理器以平衡AI处理器的负载;通过带间隔值的任务分配策略提高数据传输的连续性来减少CPU和AI处理器之间的数据传输时间;在不影响计算精度的情况下,通过取消数据缩放的策略来减少CPU侧的计算量。最终实验结果表明:当间隔值为8时,HPL-AI基准测试的混合精度浮点运算速度最快;同时,取消数据缩放不会对HPL-AI基准测试的结果精度产生影响;在鲲鹏和昇腾异构平台上,与非优化的HPL-AI基准测试方法相比,本研究提出的优化策略使混合精度浮点运算速度提升了29%左右,为单节点HPL-AI基准测试的进一步优化和部署多节点HPL-AI基准测试奠定了坚实的基础。 展开更多
关键词 鲲鹏 昇腾 异构平台 基准测试 高性能计算 混合精度
在线阅读 下载PDF
基于国产异构平台的奇异值分解法
7
作者 杨太龙 赵红朋 张磊 《计算机工程》 CAS CSCD 北大核心 2024年第9期216-225,共10页
随着深度学习等高算力应用的发展,异构计算正在逐步成为并行计算的重要方向。国产异构平台近年来发展迅速,针对国产平台的架构定制开发适配的算法与软件有着重要意义。奇异值分解(SVD)作为线性代数库中用于处理一般矩阵的强大分解器,应... 随着深度学习等高算力应用的发展,异构计算正在逐步成为并行计算的重要方向。国产异构平台近年来发展迅速,针对国产平台的架构定制开发适配的算法与软件有着重要意义。奇异值分解(SVD)作为线性代数库中用于处理一般矩阵的强大分解器,应用在科学计算、人工智能、信号处理等众多领域。现有某类国产加速器的可用库中SVD算法性能远低于NVIDIA,这对相关应用的高效移植带来了挑战。为此,通过调整算法流程减少线程启动与访存开销,提出了面向国产加速器的矩阵双对角化方法mySVD。卸载计算密集型任务到加速器,设计面向国产异构平台的分治算法;通过CPU+加速器多流,提出了任务并行的奇异向量矩阵生成方法。最终形成一套奇异值算法的高效移植优化方案。实验结果表明,该方案在不同的测试矩阵规模上,性能最高达到现有的商业闭源线性代数库MKL的9.8倍,以及现有开源异构计算线性代数库MAGMA的5.5倍。最终将其用于图像处理,并跨平台与MATLAB、NVIDIA公司的GPU线性代数库CUSOLVER进行对比,其具有更快的速度且生成的图像与原图像相似度更高。 展开更多
关键词 并行计算 异构计算 奇异值分解 国产平台 图像处理
在线阅读 下载PDF
实时多任务异构云计算平台负载均衡算法 被引量:11
8
作者 徐爱萍 吴笛 +1 位作者 徐武平 陈军 《中国科学技术大学学报》 CAS CSCD 北大核心 2016年第3期215-221,共7页
针对组成云计算平台各节点之间软件环境存在异构性及数据分布不均匀等原因而导致云计算平台在处理大量任务时往往出现节点负载不均衡的问题,提出了解决异构云计算平台负载均衡方法与相关算法.研究首先统计云计算平台提供的各类服务的平... 针对组成云计算平台各节点之间软件环境存在异构性及数据分布不均匀等原因而导致云计算平台在处理大量任务时往往出现节点负载不均衡的问题,提出了解决异构云计算平台负载均衡方法与相关算法.研究首先统计云计算平台提供的各类服务的平均资源消耗,结合任务分配给指定节点后运行时长和资源占用情况,预测评估某一时刻节点上任务剩余资源消耗需求总量既剩余负载总量;各节点按周期反馈实际任务负载情况,及时修正任务负载信息;最后综合考虑节点各项性能,预测各节点负载评估值,并将待分配任务分发给最适合的节点.实验结果表明,该算法具有可行性并在实时多任务异构云计算平台负载均衡方面具有一定优势. 展开更多
关键词 异构云计算平台 多任务 负载均衡 负载预测
在线阅读 下载PDF
异构云环境多目标Memetic优化任务调度方法 被引量:20
9
作者 李智勇 陈少淼 +1 位作者 杨波 李仁发 《计算机学报》 EI CSCD 北大核心 2016年第2期377-390,共14页
云计算系统的高效能调度优化是当前重要的研究课题,面向异构云环境的多目标优化调度方法研究具有重要意义.云计算环境下的能耗和性能优化管理是NP-HARD的多目标组合优化问题,目前一般启发式调度系统大多采用带约束的性能或能耗的单目标... 云计算系统的高效能调度优化是当前重要的研究课题,面向异构云环境的多目标优化调度方法研究具有重要意义.云计算环境下的能耗和性能优化管理是NP-HARD的多目标组合优化问题,目前一般启发式调度系统大多采用带约束的性能或能耗的单目标优化计算方法,不能完全满足复杂云计算系统资源约束动态性与管理需求多样性的需求.基于传统进化优化的随机搜索算法应用于云环境下的DAG任务的多目标调度优化,计算开销大、计算实时性不足,文中提出了新的Memetic优化方法以解决异构云环境多目标调度优化问题.首先,文中针对异构云环境多目标调度优化问题,构建了一般性的数学定义;其次,针对该问题设计了多目标Memetic优化算法,采用基于解结构相关信息的Memetic局部搜索算子加速调度方案的局部优化能力,以提高算法的收敛速度、降低计算开销.实验结果表明,应用所提出的多目标Memetic优化算法进行异构云环境能耗和性能多目标调度优化,比传统方法具有更好的计算效率、解集多样性与收敛性能. 展开更多
关键词 异构云平台 能耗与性能优化 DAG 多目标Memetic优化 云计算
在线阅读 下载PDF
异构云环境下基于分簇的云资源感知任务调度方案 被引量:6
10
作者 江务学 魏文国 +1 位作者 丁度坤 李菲 《计算机应用研究》 CSCD 北大核心 2016年第11期3422-3425,共4页
针对提高异构云平台中资源调度的效率,提出了一种基于任务和资源分簇的异构云计算平台任务调度方案。利用K-means算法,根据任务的CPU和I/O处理时间对任务分簇,根据资源的计算能力对资源分簇;然后,将任务簇对应到合适的资源簇,并利用最... 针对提高异构云平台中资源调度的效率,提出了一种基于任务和资源分簇的异构云计算平台任务调度方案。利用K-means算法,根据任务的CPU和I/O处理时间对任务分簇,根据资源的计算能力对资源分簇;然后,将任务簇对应到合适的资源簇,并利用最早截止时间优先(EDF)算法对任务簇中的独立任务进行调度,利用提出的改进型最小关键路径(MCP)算法对依赖性任务进行调度。实验结果表明,在资源异构的云计算环境中,该方案执行任务时间短、能耗低。 展开更多
关键词 异构云计算平台 任务调度 分簇 K-MEANS算法 最早截止时间优先 最小关键路径
在线阅读 下载PDF
网格计算中的任务调度模型研究 被引量:13
11
作者 尚明生 《计算机工程》 EI CAS CSCD 北大核心 2006年第2期7-9,22,共4页
任务调度对于获取高性能具有十分重要的作用,各种任务调度算法都是基于不同的假设模型。从任务模型、网络平台模型和性能目标模型3个方面讨论了各种模型,结论为网格任务调度模型的主要发展方向是异构、非专用和多目标。
关键词 任务调度 计算网格 异构计算 应用模型 平台模型 性能模型
在线阅读 下载PDF
支持现场建档系统的异质数据传输软件平台 被引量:1
12
作者 张军 陶霖密 +1 位作者 杨陈科 徐光祐 《计算机应用》 CSCD 北大核心 2006年第10期2486-2489,共4页
普适计算是计算模式的发展趋势。现场建档系统是其中一类重要应用,这通常需要在多台设备间互通性质不同的数据。为实现功能重用,加快建档系统的开发,提出一种支持异质数据通讯的软件平台,采用“订阅/发布”模式支持传输关系的动态调整... 普适计算是计算模式的发展趋势。现场建档系统是其中一类重要应用,这通常需要在多台设备间互通性质不同的数据。为实现功能重用,加快建档系统的开发,提出一种支持异质数据通讯的软件平台,采用“订阅/发布”模式支持传输关系的动态调整及系统的易扩展性;针对异质数据设计不同传输结构保证传输的高效;平台的调用接口屏蔽了数据传输的实现细节,简单易用。该平台已成功用于课堂建档系统,验证了它在现场建档系统构建中的功用。 展开更多
关键词 分布式计算 异质数据传输 软件平台
在线阅读 下载PDF
分层排序的列表任务调度技术的研究 被引量:3
13
作者 马金全 王学成 李建军 《通信学报》 EI CSCD 北大核心 2018年第A02期106-111,共6页
随着大量应用任务在CPU+GPU异构平台上的部署日益广泛,如何高效地利用GPU并行资源,提升平台的执行效率成为研究者普遍关注的问题。通过分析CPU+GPU异构平台的执行特点,设计了基于GPU容器的分层排序列表调度算法。通过将不同架构的GPU封... 随着大量应用任务在CPU+GPU异构平台上的部署日益广泛,如何高效地利用GPU并行资源,提升平台的执行效率成为研究者普遍关注的问题。通过分析CPU+GPU异构平台的执行特点,设计了基于GPU容器的分层排序列表调度算法。通过将不同架构的GPU封装到同一GPU容器中,可以有效屏蔽底层架构差异带来的影响,提升平台的扩展能力。任务的调度以应用的DAG为基础,将节点的计算量和父子节点的通信需求作为评判优先级的复合标准,复合标准更符合CPU+GPU异构平台的高吞吐量、低传输效率的特点,可以有效降低处理器间的通信开销。HSLS算法采用轮询的方式为节点分配处理器。通过实验仿真测试可以看出,HSLS算法与HEFT算法的仿真结果相比,随着节点数的增加,任务调度效率性能提升大约40%。 展开更多
关键词 高性能计算 异构平台 任务调度 有向无环图
在线阅读 下载PDF
云计算环境中移动网络低匹配度异质信息入侵感知预测算法 被引量:2
14
作者 陈惠娟 赵旭 陈亮 《吉林大学学报(理学版)》 CAS 北大核心 2019年第6期1449-1455,共7页
针对传统灰色神经网络组合预测算法对网络中入侵信息预测时,缺乏对低匹配度异质信息的预处理过程,未对信息入侵攻击意图进行预测,存在预测准确率低以及入侵防御性能差等问题,提出一种新的云计算环境中移动网络低匹配度异质信息入侵感知... 针对传统灰色神经网络组合预测算法对网络中入侵信息预测时,缺乏对低匹配度异质信息的预处理过程,未对信息入侵攻击意图进行预测,存在预测准确率低以及入侵防御性能差等问题,提出一种新的云计算环境中移动网络低匹配度异质信息入侵感知预测算法,通过灰色模型对初始网络低匹配度异质信息进行预处理.先采用基于元路径的低匹配度异质信息入侵感知预测算法得到入侵攻击意图矩阵,再根据该矩阵获取入侵攻击意图函数关系,实现低匹配度异质信息入侵攻击意图预测.仿真实验结果表明,该算法可全面预测信息入侵的意图和过程,对入侵信息节点防御成功率约为85%,误警率和漏警率较低,并具有较高的预测精度. 展开更多
关键词 云计算平台 移动网络 低匹配度异质信息 入侵感知预测 预处理 入侵攻击意图 元路径
在线阅读 下载PDF
基于异构平台的并行最大最小蚁群算法 被引量:4
15
作者 黄震华 赵振岐 +1 位作者 林培裕 梅建华 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第12期1949-1955,共7页
最大最小蚂蚁系统(Max-min Ant System,MMAS)是一种性能优良的启发式算法,常用于解决组合优化问题.当解决的目标问题规模较大、迭代轮次较多时,最大最小蚁群算法存在运行时间长的缺点.试验以开源串行包ACOTSP为基准,利用GPU多线程并发... 最大最小蚂蚁系统(Max-min Ant System,MMAS)是一种性能优良的启发式算法,常用于解决组合优化问题.当解决的目标问题规模较大、迭代轮次较多时,最大最小蚁群算法存在运行时间长的缺点.试验以开源串行包ACOTSP为基准,利用GPU多线程并发的优势,采用并行蚂蚁策略将MMAS在CPU-GPU协同异构计算平台上并发实现.算法在GPU上运行时的影响因素,如数据传输、内存层次、库函数调用等,也得到有效分析,并作出针对性优化.试验最终取得了高达13倍的加速,表明并行MMAS策略具有高效性和实用性. 展开更多
关键词 并行计算 异构平台 最大最小蚁群系统 加速比
在线阅读 下载PDF
面向异构计算机平台的HPL方案
16
作者 孙乔 孙家昶 +1 位作者 马文静 赵玉文 《软件学报》 EI CSCD 北大核心 2021年第8期2329-2340,共12页
HPL(high performance Linpack)是一套被广泛用于测评计算机性能的测试程序,几十年来学术界及产业界十分关注对HPL测试程序的定制化优化工作,以充分反应同时代新兴计算机平台的性能.面向当今主流多设备异构计算平台,尝试为HPL的优化工... HPL(high performance Linpack)是一套被广泛用于测评计算机性能的测试程序,几十年来学术界及产业界十分关注对HPL测试程序的定制化优化工作,以充分反应同时代新兴计算机平台的性能.面向当今主流多设备异构计算平台,尝试为HPL的优化工作提供一种解决方案:Hetero-HPL.在Hetero-HPL中,进程与协处理器的对应关系可被改变,因此HPL算法在单节点独立运行情况下可以完全避免进程间数据传输开销.算法各个重要步骤有能力完全利用物理节点的所有资源,如内存容量、CPU核心、协处理器、PCI-e总线等.Hetero-HPL并不引入冗余计算量及通信量,并在任意设备数量下妥善应对锁页内存分配限制,确保多设备负载均衡和设备内高效的大规模同质运算.在实验平台上,Hetero-HPL效率可以达到平台峰值性能的76.5%(其中,dgemm函数效率为84%).进一步的实验结果表明,Hetero-HPL在多节点联机运行情况下也是一种可行的方案. 展开更多
关键词 HPL(high performance Linpack) 多设备异构平台 并行计算
在线阅读 下载PDF
异构平台上多维线性哈希的研究
17
作者 刘勇 赵秦德 +2 位作者 赖正文 黄东平 王璟星 《计算机科学》 CSCD 北大核心 2012年第10期157-159,163,共4页
目前多维数据广泛应用于多个领域,但其复杂性影响了多维数据的操作效率。为提高对多维数据的处理能力,提出一种在CPU/GPU异构平台上的多维线性哈希并行计算方案。该方案通过对传统线性哈希表数据结构的扩展,可实现对哈希表的快速创建和... 目前多维数据广泛应用于多个领域,但其复杂性影响了多维数据的操作效率。为提高对多维数据的处理能力,提出一种在CPU/GPU异构平台上的多维线性哈希并行计算方案。该方案通过对传统线性哈希表数据结构的扩展,可实现对哈希表的快速创建和查询。同时,在多个处理器平台上进行的实验对提出的方案的有效性进行了验证。实验结果表明,当处理的数据规模较大时,提出的方案由于充分利用了GPU强大的并行处理能力,在创建哈希表和查询数据上,比传统的CPU方案性能分别提高了约25倍和38倍,充分显示出提出的方案在处理多维数据时的优势。 展开更多
关键词 异构平台 图形处理器 多维线性哈希 计算统一设备架构
在线阅读 下载PDF
分布异构工作站上的任务调度算法
18
作者 邬延辉 陆鑫达 曾志勇 《小型微型计算机系统》 CSCD 北大核心 2004年第4期733-737,共5页
讨论了在一个由高速局域网连接的高性能异构工作站平台上 ,如何有效地利用空闲工作站来求解计算密集型任务矩阵相乘的问题 .为了获得较好的并行计算性能 ,文中给出了一个异构工作站群之间任务调度的模型和算法 ,算法中考虑了并行计算中... 讨论了在一个由高速局域网连接的高性能异构工作站平台上 ,如何有效地利用空闲工作站来求解计算密集型任务矩阵相乘的问题 .为了获得较好的并行计算性能 ,文中给出了一个异构工作站群之间任务调度的模型和算法 ,算法中考虑了并行计算中协作任务间的通信时间、数据加载时间、结果收集时间和各个异构工作站的任务计算时间 .通过这个模型 ,可以在所有可利用的工作站集合中找出最适合的子集 。 展开更多
关键词 异构 并行计算 工作站 协调调度
在线阅读 下载PDF
向量分组聚集计算技术研究
19
作者 张宇 张延松 《计算机工程与应用》 CSCD 北大核心 2021年第11期84-94,共11页
分组聚集计算是OLAP重要的操作符之一,分组聚集操作是一种数据密集型负载。在内存数据库和GPU数据库应用场景下不仅需要研究其性能优化技术,还需要研究如何优化分配分组聚集计算执行场地以最小化CPU与GPU之间的数据传输代价。针对异构... 分组聚集计算是OLAP重要的操作符之一,分组聚集操作是一种数据密集型负载。在内存数据库和GPU数据库应用场景下不仅需要研究其性能优化技术,还需要研究如何优化分配分组聚集计算执行场地以最小化CPU与GPU之间的数据传输代价。针对异构计算平台的硬件特征提出了向量聚集计算技术,将位于传统流水线末端的分组聚集计算按照"早分组,晚聚集"策略进行分解与下推,实现将数据密集型的分组聚集计算从流水线中分离,将操作与处理器计算特性优化匹配,实现异构计算平台上最优的负载分配。通过将传统基于哈希分组的聚集计算转换为向量分组聚集计算,显著提升了分组聚集计算性能。实验结果表明,向量分组聚集技术相对于具有代表性的高性能内存数据库Hyper、GPU数据库MapD最大达到5~8倍的性能提升。向量聚集计算不仅提高了OLAP聚集计算性能,而且实现了将数据密集型负载从查询计划中分离的目标,使异构计算平台能够根据处理器的硬件特性优化配置计算资源,提高异构计算平台OLAP的整体性能。 展开更多
关键词 CPU-GPU异构计算平台 向量分组聚集 分组向量索引 数据密集型负载
在线阅读 下载PDF
基于ARM+FPGA异构平台的目标检测加速模块设计与实现 被引量:4
20
作者 李放 曹健 +4 位作者 李普 谢豪 赵雄波 王源 张兴 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第6期1035-1041,共7页
为解决基于深度学习目标检测模型规模大、在边缘设备上难以部署的问题,以YOLO目标检测模型为例,设计实现基于ARM+FPGA异构平台的目标检测加速模块。该系统使用剪枝、量化后的压缩模型,在FPGA实现神经网络前向推理加速,在ARM中实现加速... 为解决基于深度学习目标检测模型规模大、在边缘设备上难以部署的问题,以YOLO目标检测模型为例,设计实现基于ARM+FPGA异构平台的目标检测加速模块。该系统使用剪枝、量化后的压缩模型,在FPGA实现神经网络前向推理加速,在ARM中实现加速器调度。实验结果表明,部署至Xilinx ZCU102开发板上,该模块在200 MHz工作频率下,平均计算性能达到425.8 GOP/s,推理压缩模型速度达到30.3 fps,模块功耗为3.56 W,证明该加速模块具备可配置性。 展开更多
关键词 深度学习 目标检测 模型剪枝量化 异构平台 边缘计算
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部