随着大规模人工智能应用的普及与发展,工业界和学术界对于人工智能算力的需求逐渐提升,结合了异构计算技术与缓存一致性技术的异构一致性融合计算系统逐渐成为未来构建智算中心的重要解决方案.然而,由于异构计算和一致性互连技术尚不成...随着大规模人工智能应用的普及与发展,工业界和学术界对于人工智能算力的需求逐渐提升,结合了异构计算技术与缓存一致性技术的异构一致性融合计算系统逐渐成为未来构建智算中心的重要解决方案.然而,由于异构计算和一致性互连技术尚不成熟,现有工作难以实现对该系统进行性能建模,导致研究者无法以低成本完成异构一致性融合计算系统的建设方案评估、计算性能预测以及系统优化方法评测等工作.提出了一种面向异构一致性融合计算系统的性能建模工具HCSim,解决了现有建模仿真研究中对该系统拓扑架构建模困难、对一致性系统中工作负载建模不准确等问题,为研究者提供了一个可灵活建模、评估互连拓扑与AI计算任务的低成本、高效建模仿真工具.利用HCSim,建模了千卡互连的异构一致性融合计算系统,并在该系统上模拟了LLAMA2-13B大语言模型(large language model,LLM)的数据并行分布式训练任务,探究了异构算力分布、带宽、时延和任务规模等变量对系统性能与任务执行效率的影响.进一步地,针对异构一致性融合计算系统的通信问题,设计了相应的优化方案,并利用HCSim进行了效果验证.仿真结果说明HCSim不仅能够满足异构一致性融合计算系统的性能建模需求,同时也可以被应用于评估、验证异构一致性融合计算系统的优化方案.展开更多
文摘随着大规模人工智能应用的普及与发展,工业界和学术界对于人工智能算力的需求逐渐提升,结合了异构计算技术与缓存一致性技术的异构一致性融合计算系统逐渐成为未来构建智算中心的重要解决方案.然而,由于异构计算和一致性互连技术尚不成熟,现有工作难以实现对该系统进行性能建模,导致研究者无法以低成本完成异构一致性融合计算系统的建设方案评估、计算性能预测以及系统优化方法评测等工作.提出了一种面向异构一致性融合计算系统的性能建模工具HCSim,解决了现有建模仿真研究中对该系统拓扑架构建模困难、对一致性系统中工作负载建模不准确等问题,为研究者提供了一个可灵活建模、评估互连拓扑与AI计算任务的低成本、高效建模仿真工具.利用HCSim,建模了千卡互连的异构一致性融合计算系统,并在该系统上模拟了LLAMA2-13B大语言模型(large language model,LLM)的数据并行分布式训练任务,探究了异构算力分布、带宽、时延和任务规模等变量对系统性能与任务执行效率的影响.进一步地,针对异构一致性融合计算系统的通信问题,设计了相应的优化方案,并利用HCSim进行了效果验证.仿真结果说明HCSim不仅能够满足异构一致性融合计算系统的性能建模需求,同时也可以被应用于评估、验证异构一致性融合计算系统的优化方案.
文摘近年来,移动边缘计算(Mobile Edge Computing,MEC)技术的持续发展和应用成功地应对了随着终端用户数量急剧增加而导致网络边缘数据量爆炸性增长的用户服务需求.然而,如何实时优化分配这些服务器给不同用户仍然是一个亟待解决的紧迫问题.本文专注于多用户多MEC服务器场景中任务缓存和计算卸载策略的联合优化问题,借助于强化学习算法分别解决这两个子问题.在任务缓存方面,本文以最大化系统缓存命中率为目标,引入了基于Gomory割平面的多臂选择算法(Gomory Based Multi-Arm Selection,GMAS)来适应不同任务数据量的差异,并通过理论证明了算法遗憾上界的对数性.而在任务卸载方面,提出了Dueling架构的双重Q网络(Double DQN with Dueling architecture,D3QN)算法以应对多用户多MEC服务器中的任务卸载问题,该算法在保证任务性能的同时有效规避了DQN算法中Q值过估计的问题.仿真结果表明,本文所提出的算法在时延和能耗等方面相较A3C和DQN算法表现出明显的优势.