期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
Programming for scientific computing on peta-scale heterogeneous parallel systems 被引量:1
1
作者 杨灿群 吴强 +2 位作者 唐滔 王锋 薛京灵 《Journal of Central South University》 SCIE EI CAS 2013年第5期1189-1203,共15页
Peta-scale high-perfomlance computing systems are increasingly built with heterogeneous CPU and GPU nodes to achieve higher power efficiency and computation throughput. While providing unprecedented capabilities to co... Peta-scale high-perfomlance computing systems are increasingly built with heterogeneous CPU and GPU nodes to achieve higher power efficiency and computation throughput. While providing unprecedented capabilities to conduct computational experiments of historic significance, these systems are presently difficult to program. The users, who are domain experts rather than computer experts, prefer to use programming models closer to their domains (e.g., physics and biology) rather than MPI and OpenME This has led the development of domain-specific programming that provides domain-specific programming interfaces but abstracts away some performance-critical architecture details. Based on experience in designing large-scale computing systems, a hybrid programming framework for scientific computing on heterogeneous architectures is proposed in this work. Its design philosophy is to provide a collaborative mechanism for domain experts and computer experts so that both domain-specific knowledge and performance-critical architecture details can be adequately exploited. Two real-world scientific applications have been evaluated on TH-IA, a peta-scale CPU-GPU heterogeneous system that is currently the 5th fastest supercomputer in the world. The experimental results show that the proposed framework is well suited for developing large-scale scientific computing applications on peta-scale heterogeneous CPU/GPU systems. 展开更多
关键词 heterogeneous parallel system programming framework scientific computing GPU computing molecular dynamic
在线阅读 下载PDF
OODAFlow:面向智能无人系统的流式数据处理框架
2
作者 全振宇 尹龙祥 +1 位作者 陈晓明 韩银和 《高技术通讯》 CAS 北大核心 2024年第9期905-920,共16页
智能无人系统是一种能够在复杂环境中自主进行实时推理、决策和制定行动方案的计算系统。智能无人系统实现实时决策的关键在于对流式数据的实时处理,然而随着人工智能技术和传感器技术的快速发展,智能无人系统需要处理的数据规模不断增... 智能无人系统是一种能够在复杂环境中自主进行实时推理、决策和制定行动方案的计算系统。智能无人系统实现实时决策的关键在于对流式数据的实时处理,然而随着人工智能技术和传感器技术的快速发展,智能无人系统需要处理的数据规模不断增长,数据类型变得更加复杂。面对不断增长的数据处理性能需求,智能无人系统需要一个充分优化的专用流式数据处理框架来提升其数据处理性能。针对该问题,本文提出了一种面向智能无人系统的流式数据处理框架OODAFlow,该框架将智能无人系统的硬件特征和智能计算任务的数据特征与观察-判断-决策-行动(OODA)模型思想相融合,实现了OODA任务创建、任务调度、资源调度等功能,能够实现对智能无人系统异构资源的调度和智能计算任务的处理。本文在智能无人系统上搭建了一套OODA任务处理系统,验证了所提OODAFlow框架的可行性。通过提出的图像预处理过程优化、流水线优化以及判断节点并行加速优化等方法,提高了系统的数据吞吐性能和资源利用率。无人机智能控制任务的实验表明,采用本文提出的OODAFlow框架后,智能无人系统的数据处理性能提升了73倍。 展开更多
关键词 智能无人系统 深度学习加速卡 观察-判断-决策-行动(OODA) 流式数据处理框架 异构计算资源
在线阅读 下载PDF
基于异构设备的自适应分配编码器的联邦学习
3
作者 刘乐 武淑红 +2 位作者 于丹 马垚 陈永乐 《计算机工程与设计》 北大核心 2024年第9期2569-2576,共8页
在联邦学习中,不同用户的设备计算、通信、储存能力存在很大差别,容易产生掉队等不公平问题,对现有的联邦学习提出重大挑战。为解决这一问题,提出一种自适应编码器分配模型(federated learning adaptive encoders,FedAE),根据设备的性... 在联邦学习中,不同用户的设备计算、通信、储存能力存在很大差别,容易产生掉队等不公平问题,对现有的联邦学习提出重大挑战。为解决这一问题,提出一种自适应编码器分配模型(federated learning adaptive encoders,FedAE),根据设备的性能将不同编码器组合发送给用户进行本地更新,在服务器端对相应的编码器进行参数聚合。通过这样按需分配,使得所有设备充分发挥设备性能,保证公平。FedAE通过级联分类器进行分类处理,提高模型整体的准确性,节省计算资源。通过实验对比准确度、收敛性快慢等方面,FedAE在解决设备异构问题上提供了更好的方案。 展开更多
关键词 联邦学习 数据异质性 设备异构 自适应分配 异构框架 编码器 计算资源
在线阅读 下载PDF
信号级协同计算平台架构及应用思考 被引量:5
4
作者 贾明权 钟瑜 +1 位作者 潘灵 陈颖 《电讯技术》 北大核心 2019年第6期627-634,共8页
针对智能化作战对军事电子信息系统计算能力提升的迫切需求,结合云计算的资源虚拟化、大数据的分布式计算等技术,提出了基于嵌入式CPU+ALL(DSP、FPGA、PPC、GPU、AI处理器等)的异构处理的信号级协同计算平台架构,包括弹性、轻量级异构... 针对智能化作战对军事电子信息系统计算能力提升的迫切需求,结合云计算的资源虚拟化、大数据的分布式计算等技术,提出了基于嵌入式CPU+ALL(DSP、FPGA、PPC、GPU、AI处理器等)的异构处理的信号级协同计算平台架构,包括弹性、轻量级异构资源虚拟化模型、分布式实时计算框架和智能计算框架等,形成了一套架构统一、资源共用、使用简便的协同计算和智能计算环境。通过战术级无线电认知和智能信号与信息处理两个典型应用场景,探讨了该信号级协同计算平台可能带来的颠覆性效用。 展开更多
关键词 军事电子装备 嵌入式异构处理 协同计算 实时计算框架
在线阅读 下载PDF
国产高性能智能计算服务器研究 被引量:3
5
作者 靳文兵 郭江宇 +2 位作者 郭潇 王高峰 郝志超 《火力与指挥控制》 CSCD 北大核心 2022年第11期139-146,共8页
针对下一代智能化军事信息系统对智能计算、深度学习等复杂密集计算能力的迫切需求,基于自主可控关键软硬件及智能计算协处理加速部件,突破新一代智能异构可扩展体系结构、多层次异构加速计算技术、多异构资源管理、智能计算运行支撑技... 针对下一代智能化军事信息系统对智能计算、深度学习等复杂密集计算能力的迫切需求,基于自主可控关键软硬件及智能计算协处理加速部件,突破新一代智能异构可扩展体系结构、多层次异构加速计算技术、多异构资源管理、智能计算运行支撑技术等关键技术,研究高性能智能计算服务器,实现智能计算服务能力的显著提升,为典型复杂军事应用系统智能计算业务提供强大(核心节点)和高效(边缘和端)算力支撑,从根本上解决国产通用CPU算力不足问题。 展开更多
关键词 异构 可重构 智能计算 人工智能框架 多层次加速
在线阅读 下载PDF
基于边云协同框架的煤矿井下实时视频处理系统 被引量:8
6
作者 李敬兆 秦晓伟 汪磊 《工矿自动化》 北大核心 2021年第12期1-7,共7页
目前煤矿井下智能视频监控主要采用云计算方式处理实时视频,视频传输占用的网络资源多,时延高,无法实时响应监控区域发生的紧急事件。针对该问题,提出了基于边云协同框架的煤矿井下实时视频处理系统,将实时性强的目标识别任务下放至边缘... 目前煤矿井下智能视频监控主要采用云计算方式处理实时视频,视频传输占用的网络资源多,时延高,无法实时响应监控区域发生的紧急事件。针对该问题,提出了基于边云协同框架的煤矿井下实时视频处理系统,将实时性强的目标识别任务下放至边缘端,将计算量大且实时性弱的边缘设备整合等任务放至云端处理。在视频监控现场,利用部署在边缘设备上的神经网络模型对视频监控图像进行本地处理;通过井下异构融合网络将不同网络环境中边缘设备的处理结果和模型参数等信息发送给云服务器;云服务器针对性地对各场景中的边缘设备进行模型更新、推送,最终实现边云数据实时交互和边缘端服务的在线优化。针对目标检测模型Tiny-YOLOv3无法提取到图片的深层特征、易出现梯度消失和过拟合现象等问题,依据残差结构设计了下采样残差模块,对Tiny-YOLOv3进行改进,以提高模型的深度特征提取和泛化能力。在边云数据交互的基础上,对边缘设备上的目标检测模型进行针对性场景优化,以提高边缘设备端模型检测的准确率。测试结果表明:改进型Tiny-YOLOv3模型的稳定性与数据泛化能力优于YOLO和Tiny-YOLOv3;经过单一场景的特化训练后,改进型Tiny-YOLOv3模型的目标识别更加精准;与云计算相比,边云协同框架可显著降低监控视频处理时延。 展开更多
关键词 井下智能视频监控 边云协同框架 边缘计算 云计算 井下异构融合网络 Tiny-YOLOv3 下采样残差模块
在线阅读 下载PDF
面向网格计算的动态容错服务框架设计(英文)
7
作者 雷正桥 伍文棣 +1 位作者 郭凯旋 刘珊 《机床与液压》 北大核心 2016年第24期138-145,共8页
网格计算在研究复杂问题求解和解决大型科学计算方面有重要应用,针对高度异构网格本身导致的容错服务难题,探讨了一种面向网格计算的动态容错服务排序框架设计。分析和总结了网格计算的容错要求,给出了基于网格环境的相关故障定义,建立... 网格计算在研究复杂问题求解和解决大型科学计算方面有重要应用,针对高度异构网格本身导致的容错服务难题,探讨了一种面向网格计算的动态容错服务排序框架设计。分析和总结了网格计算的容错要求,给出了基于网格环境的相关故障定义,建立了故障的分类模型,提出了一种包括电网故障检测和故障管理内容在内的动态容错服务框架,最后给出了详细的故障容错服务流程。借助仿真实验,初步验证了所提出设计框架的合理性和可行性。研究结果表明:该设计可为面向网格计算的动态容错服务提供一个新的参考框架。 展开更多
关键词 网格计算 异构网格 动态容错 服务框架
在线阅读 下载PDF
面向大数据处理的基于Spark的异质内存编程框架 被引量:9
8
作者 王晨曦 吕方 +4 位作者 崔慧敏 曹婷 John Zigman 庄良吉 冯晓兵 《计算机研究与发展》 EI CSCD 北大核心 2018年第2期246-264,共19页
随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于DRAM的功耗、容量... 随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于DRAM的功耗、容量密度受限于工艺瓶颈,无法满足内存计算快速增长的内存需求,因此研发人员将目光逐渐移向了新型的非易失性内存(non-volatile memory,NVM).由DRAM和NVM共同构成的异质内存,具有低成本、低功耗、高容量密度等特点,但由于NVM读写性能较差,如何合理布局数据到异质内存是一个关键的研究问题.系统分析了Spark应用的访存特征,并结合OpenJDK的内存使用特点,提出了一套管理数据在DRAM和NVM之间布局的编程框架.应用开发者通过对本文提供接口的简单调用,便可将数据合理布局在异质内存之中.仅需20%~25%的DRAM和大量的NVM,便可以达到使用等量的DRAM时90%左右的性能.该框架可以通过有效利用异质内存来满足内存计算不断增长的计算规模.同时,"性能/价格"比仅用DRAM时提高了数倍. 展开更多
关键词 内存计算 SPARK 异质内存 非易失性内存 编程框架
在线阅读 下载PDF
一种面向异构计算的结构化并行编程框架 被引量:5
9
作者 李安民 计卫星 +4 位作者 廖心怡 高建花 谈兆年 王一拙 石峰 《计算机工程与科学》 CSCD 北大核心 2019年第3期424-432,共9页
随着人工智能时代的到来,异构计算在深度学习、科学计算等领域发挥着越来越重要的作用。目前异构计算系统在应用上的瓶颈之一在于缺少高效的软件开发框架,已有的OpenCL、CUDA等支持GPU、DSP及FPGA的编程框架基于C/C++语言和传统的并行... 随着人工智能时代的到来,异构计算在深度学习、科学计算等领域发挥着越来越重要的作用。目前异构计算系统在应用上的瓶颈之一在于缺少高效的软件开发框架,已有的OpenCL、CUDA等支持GPU、DSP及FPGA的编程框架基于C/C++语言和传统的并行编程方法,导致软件开发效率较低,软件推理和调试困难,难以灵活处理计算设备之间的协作和调度。提出一种面向异构计算平台的基于脚本语言的结构化并行编程框架,提供结构化的并行编程接口,支持计算任务到异构计算设备的映射,便于并行程序的推理和验证。设计并实现了基于遗传算法的结构化调度算法,充分利用异构计算系统的计算能力,提高了异构计算系统的软件开发效率。实验结果表明,提出的编程框架在CPU+GPU平台上实现了相对于单处理器1.5到2.5倍的加速比。 展开更多
关键词 异构计算 并行计算 编程框架 结构化编程
在线阅读 下载PDF
基于GPU加速的大电网N-1故障扫描批量计算方法 被引量:7
10
作者 张宸赓 许寅 +3 位作者 陈颖 苏大威 李一 刘思言 《电力自动化设备》 EI CSCD 北大核心 2020年第8期167-173,共7页
随着电网规模的不断扩大,从各种可能的设备开断情况中筛选出严重故障集成为N-1安全校验的重要耗时部分。为了加速大电网N-1安全校验的故障筛选,提出了一种基于中央处理器-图形处理器(CPU-GPU)异构计算框架的实时N-1故障扫描批量计算方... 随着电网规模的不断扩大,从各种可能的设备开断情况中筛选出严重故障集成为N-1安全校验的重要耗时部分。为了加速大电网N-1安全校验的故障筛选,提出了一种基于中央处理器-图形处理器(CPU-GPU)异构计算框架的实时N-1故障扫描批量计算方法。考虑到不同工况下的计算存在粗粒度并行性,进一步挖掘计算中的细粒度并行性是提高计算效率的有效途径。提出了同时考虑断线故障和发电机开断故障这2种预想事故下的细粒度并行计算方法,并设计了关键计算步骤的核函数。增加考虑了网络拓扑中的移相器,使得计算精度更高,通过与IEEE标准算例和欧洲真实电网算例对比,验证了各工况下批量计算方法的正确性,并取得了显著的加速效果。 展开更多
关键词 电力系统 静态安全分析 GPU N-1故障扫描 cpu-gpu异构计算框架
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部