随着高性能计算体系结构的发展,软件与硬件都具有多层的并行结构。当不同纵向层级与横向分组的计算任务被划分到不同节点的不同处理器时,存在非常多的分配方式。这些分配方式一般在运行时由用户输入的多个并行参数来确定,并对计算效率...随着高性能计算体系结构的发展,软件与硬件都具有多层的并行结构。当不同纵向层级与横向分组的计算任务被划分到不同节点的不同处理器时,存在非常多的分配方式。这些分配方式一般在运行时由用户输入的多个并行参数来确定,并对计算效率影响很大。随着计算规模与复杂度的提升,多个并行参数的可配置空间越来越大,用户越来越难以确定最佳的并行参数值。这类运行时优化问题在科学计算应用中较为普遍,但相关的研究与解决方法比较少见。以VASP(Vienna Ab initio Simulation Package)应用为例,首先分析了该应用的多层并行结构,展示了不同并行参数配置引发的巨大运行速度差异。然后提出了一个基于约化并行效率指标的全自动运行优化方法,其不仅可以帮助用户简单快捷地确定最佳应用并行参数,而且可以帮助用户确定最佳的计算资源使用量,使应用可以高效率地扩展到大规模的并行计算中。最后将该优化方法与计算集群作业调度系统相融合应用于用户提交的真实VASP计算作业。统计结果表明,该方法显著提升了作业运行速度与超算资源的使用效率,具有很好的工程应用前景。展开更多
随着云计算技术的发展与成熟,并行计算在云环境中得到了越来越多的实践。服务器无感知计算作为云计算中的一种新型的应用部署与计算方式,允许用户弹性分配资源并实现负载均衡,并提供了更强的可扩展性和更大的灵活性。然而,无状态的特性...随着云计算技术的发展与成熟,并行计算在云环境中得到了越来越多的实践。服务器无感知计算作为云计算中的一种新型的应用部署与计算方式,允许用户弹性分配资源并实现负载均衡,并提供了更强的可扩展性和更大的灵活性。然而,无状态的特性导致服务器无感知计算框架并不完全适用于传统并行计算,其中通信是一个关键问题。本文提出了一个具有服务质量(quality of service,QoS)保障的通信框架FreeParallel,旨在基于服务器无感知计算中的函数即服务(function as a service,FaaS)平台构建面向并行计算的通信能力。FreeParallel结合了消息传递接口(message passing interface,MPI)并行计算编程模型,有效地保证了通信服务的质量;并采用代理模型来支持并行函数的识别和转换,并以服务形式灵活部署在多个FaaS或虚拟化平台上。此外,本研究还提出了函数间通信流量的QoS管理策略fm Clock,在保证传输公平性的前提下,实现基于请求和限制的通信原语级网络资源分配。实验结果表明,点对点通信场景下FreeParallel与虚拟化平台的覆盖网络相比传输性能略有不足,但比当前服务器无感知计算状态共享方案的传输效率有至少89.5%的提升。并且FreeParallel在集合通信场景下表现极佳,比基线方法提升了59.9%~83.1%。同时,带有fm Clock策略的FreeParallel能够实现原语级按比例分配策略,避免了不同原语间请求的交叉干扰,案例表明,策略的加入降低了应用25.0%的完成时间。展开更多
为解决混合云环境下科学工作流数据布局问题,在考虑数据的安全需求的前提下,以优化跨数据中心传输时延为目标,提出了一种混合云环境下面向安全的科学工作流布局策略。分析数据集的安全需求以及数据中心所能提供的安全服务,提出安全等级...为解决混合云环境下科学工作流数据布局问题,在考虑数据的安全需求的前提下,以优化跨数据中心传输时延为目标,提出了一种混合云环境下面向安全的科学工作流布局策略。分析数据集的安全需求以及数据中心所能提供的安全服务,提出安全等级分级规则;设计并提出基于遗传算法和模拟退火算法的自适应粒子群优化算法(adaptive particle swarm optimization algorithm based on SA and GA,SAGA-PSO),避免算法陷入局部极值,有效提高种群多样性;与其它经典布局算法对比,基于SAGA-PSO的数据布局策略在满足数据安全需求的同时能够大大降低传输时延。展开更多
文摘随着高性能计算体系结构的发展,软件与硬件都具有多层的并行结构。当不同纵向层级与横向分组的计算任务被划分到不同节点的不同处理器时,存在非常多的分配方式。这些分配方式一般在运行时由用户输入的多个并行参数来确定,并对计算效率影响很大。随着计算规模与复杂度的提升,多个并行参数的可配置空间越来越大,用户越来越难以确定最佳的并行参数值。这类运行时优化问题在科学计算应用中较为普遍,但相关的研究与解决方法比较少见。以VASP(Vienna Ab initio Simulation Package)应用为例,首先分析了该应用的多层并行结构,展示了不同并行参数配置引发的巨大运行速度差异。然后提出了一个基于约化并行效率指标的全自动运行优化方法,其不仅可以帮助用户简单快捷地确定最佳应用并行参数,而且可以帮助用户确定最佳的计算资源使用量,使应用可以高效率地扩展到大规模的并行计算中。最后将该优化方法与计算集群作业调度系统相融合应用于用户提交的真实VASP计算作业。统计结果表明,该方法显著提升了作业运行速度与超算资源的使用效率,具有很好的工程应用前景。
文摘随着云计算技术的发展与成熟,并行计算在云环境中得到了越来越多的实践。服务器无感知计算作为云计算中的一种新型的应用部署与计算方式,允许用户弹性分配资源并实现负载均衡,并提供了更强的可扩展性和更大的灵活性。然而,无状态的特性导致服务器无感知计算框架并不完全适用于传统并行计算,其中通信是一个关键问题。本文提出了一个具有服务质量(quality of service,QoS)保障的通信框架FreeParallel,旨在基于服务器无感知计算中的函数即服务(function as a service,FaaS)平台构建面向并行计算的通信能力。FreeParallel结合了消息传递接口(message passing interface,MPI)并行计算编程模型,有效地保证了通信服务的质量;并采用代理模型来支持并行函数的识别和转换,并以服务形式灵活部署在多个FaaS或虚拟化平台上。此外,本研究还提出了函数间通信流量的QoS管理策略fm Clock,在保证传输公平性的前提下,实现基于请求和限制的通信原语级网络资源分配。实验结果表明,点对点通信场景下FreeParallel与虚拟化平台的覆盖网络相比传输性能略有不足,但比当前服务器无感知计算状态共享方案的传输效率有至少89.5%的提升。并且FreeParallel在集合通信场景下表现极佳,比基线方法提升了59.9%~83.1%。同时,带有fm Clock策略的FreeParallel能够实现原语级按比例分配策略,避免了不同原语间请求的交叉干扰,案例表明,策略的加入降低了应用25.0%的完成时间。
文摘为解决混合云环境下科学工作流数据布局问题,在考虑数据的安全需求的前提下,以优化跨数据中心传输时延为目标,提出了一种混合云环境下面向安全的科学工作流布局策略。分析数据集的安全需求以及数据中心所能提供的安全服务,提出安全等级分级规则;设计并提出基于遗传算法和模拟退火算法的自适应粒子群优化算法(adaptive particle swarm optimization algorithm based on SA and GA,SAGA-PSO),避免算法陷入局部极值,有效提高种群多样性;与其它经典布局算法对比,基于SAGA-PSO的数据布局策略在满足数据安全需求的同时能够大大降低传输时延。
文摘为解决智算中心超大规模算力集群算力可用率低、国产技术成熟度低、大规模组网效率存在瓶颈、运营运维复杂等问题,提出了一种基于云计算技术构建智算中心万卡集群的系统。采用18432块神经网络处理单元(neural processing unit,NPU)卡和优化后的基于以太网的远程直接内存访问(remote direct memory access,RDMA)网络构建云化的智算中心万卡集群,结合软件定义网络(software defined network,SDN)技术实现RDMA网络租户隔离,实现了链路负载均衡误差小于10%,集群All-Reduce带宽达35 GB/s以上。采用优化后的分布式存储协议,实现模型断点恢复时长缩短为原来的1/2。验证结果表明,经过软硬件协同优化,国产化的NPU万卡集群不仅能够满足千亿参数大模型训练的需求,未来更可以支撑万亿参数大模型训练任务。