提出了一种基于Vulkan架构的弹跳射线(shooting and bouncing ray,SBR)加速计算方法,用于电大复杂目标雷达散射截面的快速计算。设计了高效的Vulkan计算着色器,充分利用GPU硬件光追,显著提升了SBR法中光线求交的计算速度;引入了双命令...提出了一种基于Vulkan架构的弹跳射线(shooting and bouncing ray,SBR)加速计算方法,用于电大复杂目标雷达散射截面的快速计算。设计了高效的Vulkan计算着色器,充分利用GPU硬件光追,显著提升了SBR法中光线求交的计算速度;引入了双命令缓冲机制,使得CPU与GPU能够高效协同工作,从而加速多角度扫描任务的执行;在虚拟孔径面上划分互不干扰的子任务,进一步提升了多GPU并行的利用效率。实验结果表明:所提出方法在计算电大复杂目标雷达散射截面时相较于FEKO RL-GO方法实现了40倍以上的加速;双命令缓冲机制提升了约42%的多角度扫描速度;双GPU计算并行效率超过90%。展开更多
针对自动驾驶边缘计算场景中行人车辆检测任务面临的模型计算复杂度高、参数量大导致的部署难题,该文提出一种轻量化神经网络模型YOMANet(Yolo Model Adaptation Network),基于异构FPGA平台设计YOMANet加速器(YOMANet-Accel),实现边缘...针对自动驾驶边缘计算场景中行人车辆检测任务面临的模型计算复杂度高、参数量大导致的部署难题,该文提出一种轻量化神经网络模型YOMANet(Yolo Model Adaptation Network),基于异构FPGA平台设计YOMANet加速器(YOMANet-Accel),实现边缘端人车检测的算法加速。YOMANet算法的主干网络采用轻量型网络MobileNetv2以大幅压缩模型参数量,颈部网络使用深度可分离卷积来代替常规卷积以提升训练速度,并在头部网络嵌入基于归一化的注意力模块(NAM)以增强网络对细节信息的捕获能力。为将YOMANet算法部署到现场可编程门阵列(FPGA)平台,该文针对卷积运算在任务层设计循环分块以调整内循环和外循环的顺序,在运算层对处理引擎单元(PE)设计乘加树,使得多个乘加运算可以同时执行,提高数据的并行计算效率。同时,针对数据存储过程采用双缓存机制来减少数据传输时延,对权重参数和激活函数进行int8数据量化以降低资源消耗。实验结果表明,YOMANet算法在训练平台上的检测精度和检测速度表现优异,对小目标和遮挡目标具备较好的检测能力,有效减少了误检和漏检情况的发生。算法部署到硬件平台后,YOMANet-Accel的目标检测效果保持在较高水平,硬件资源的能效比表现良好,有效发挥了FPGA的并行优势。展开更多
构建数据中心加速服务的软硬件系统级原型平台,需要考虑高计算能力、扩展性、灵活性和低成本等因素.为了提高数据中心的能力,从软硬件协同的角度研究数据中心异构计算在云平台架构、硬件实现、高速互连和应用等方面的创新,研究设计并构...构建数据中心加速服务的软硬件系统级原型平台,需要考虑高计算能力、扩展性、灵活性和低成本等因素.为了提高数据中心的能力,从软硬件协同的角度研究数据中心异构计算在云平台架构、硬件实现、高速互连和应用等方面的创新,研究设计并构建了一个可重构组合的软硬件加速原型系统,简化了现有以处理器为中心的系统级计算平台构建方法,实现目标软硬件设计的快速部署与系统级原型验证.针对以上目标,通过解耦的可重构架构设备虚拟化和远程映射等方法,发掘独立计算单元的潜力,构建了一套ISOF(independent system of FPGA(field programmable gate arrays))软硬件计算平台系统,可使其超越普通服务器设计所能提供的能力,实现计算单元低成本高效扩展,使客户端可灵活使用外设资源,并且为满足系统级通信挑战,设计了一套计算单元之间的通信硬件平台和交互机制.此外,为提升软硬件系统级平台的敏捷性,ISOF提供了灵活统一的调用接口.最后,通过对平台目标系统级的分析评估,验证了该平台在满足了当下计算与加速需求下,保证了高速、低延时的通信,以及良好的吞吐率和弹性扩容效率,另外在高速通信的基础上改进的拥塞避免和丢包恢复机制,满足了数据中心规模通信的稳定性需求.展开更多
文摘提出了一种基于Vulkan架构的弹跳射线(shooting and bouncing ray,SBR)加速计算方法,用于电大复杂目标雷达散射截面的快速计算。设计了高效的Vulkan计算着色器,充分利用GPU硬件光追,显著提升了SBR法中光线求交的计算速度;引入了双命令缓冲机制,使得CPU与GPU能够高效协同工作,从而加速多角度扫描任务的执行;在虚拟孔径面上划分互不干扰的子任务,进一步提升了多GPU并行的利用效率。实验结果表明:所提出方法在计算电大复杂目标雷达散射截面时相较于FEKO RL-GO方法实现了40倍以上的加速;双命令缓冲机制提升了约42%的多角度扫描速度;双GPU计算并行效率超过90%。
文摘针对自动驾驶边缘计算场景中行人车辆检测任务面临的模型计算复杂度高、参数量大导致的部署难题,该文提出一种轻量化神经网络模型YOMANet(Yolo Model Adaptation Network),基于异构FPGA平台设计YOMANet加速器(YOMANet-Accel),实现边缘端人车检测的算法加速。YOMANet算法的主干网络采用轻量型网络MobileNetv2以大幅压缩模型参数量,颈部网络使用深度可分离卷积来代替常规卷积以提升训练速度,并在头部网络嵌入基于归一化的注意力模块(NAM)以增强网络对细节信息的捕获能力。为将YOMANet算法部署到现场可编程门阵列(FPGA)平台,该文针对卷积运算在任务层设计循环分块以调整内循环和外循环的顺序,在运算层对处理引擎单元(PE)设计乘加树,使得多个乘加运算可以同时执行,提高数据的并行计算效率。同时,针对数据存储过程采用双缓存机制来减少数据传输时延,对权重参数和激活函数进行int8数据量化以降低资源消耗。实验结果表明,YOMANet算法在训练平台上的检测精度和检测速度表现优异,对小目标和遮挡目标具备较好的检测能力,有效减少了误检和漏检情况的发生。算法部署到硬件平台后,YOMANet-Accel的目标检测效果保持在较高水平,硬件资源的能效比表现良好,有效发挥了FPGA的并行优势。
文摘构建数据中心加速服务的软硬件系统级原型平台,需要考虑高计算能力、扩展性、灵活性和低成本等因素.为了提高数据中心的能力,从软硬件协同的角度研究数据中心异构计算在云平台架构、硬件实现、高速互连和应用等方面的创新,研究设计并构建了一个可重构组合的软硬件加速原型系统,简化了现有以处理器为中心的系统级计算平台构建方法,实现目标软硬件设计的快速部署与系统级原型验证.针对以上目标,通过解耦的可重构架构设备虚拟化和远程映射等方法,发掘独立计算单元的潜力,构建了一套ISOF(independent system of FPGA(field programmable gate arrays))软硬件计算平台系统,可使其超越普通服务器设计所能提供的能力,实现计算单元低成本高效扩展,使客户端可灵活使用外设资源,并且为满足系统级通信挑战,设计了一套计算单元之间的通信硬件平台和交互机制.此外,为提升软硬件系统级平台的敏捷性,ISOF提供了灵活统一的调用接口.最后,通过对平台目标系统级的分析评估,验证了该平台在满足了当下计算与加速需求下,保证了高速、低延时的通信,以及良好的吞吐率和弹性扩容效率,另外在高速通信的基础上改进的拥塞避免和丢包恢复机制,满足了数据中心规模通信的稳定性需求.