期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
面向大规模异构计算平台的MiniGo高效训练方法
1
作者 李荣春 贺周雨 +3 位作者 乔鹏 姜晶菲 窦勇 李东升 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第5期209-218,共10页
提出一种适用于大规模异构计算平台训练MiniGo智能体的高效多级并行训练方法,包括节点间任务级并行、中央处理器-数字信号处理器(central processing unit-digital signal processor, CPU-DSP)异构并行、DSP核内并行。实现了高效的输入... 提出一种适用于大规模异构计算平台训练MiniGo智能体的高效多级并行训练方法,包括节点间任务级并行、中央处理器-数字信号处理器(central processing unit-digital signal processor, CPU-DSP)异构并行、DSP核内并行。实现了高效的输入/输出部署,消除网络通信瓶颈。提出了面向CPU-DSP共享内存结构的异构计算内存管理,减少异构设备间的数据搬运。实现了共享内存编程优化,并利用DSP实现密集卷积计算算子加速优化。结果表明,与16核CPU计算相比,单核DSP算子加速最大加速比达16.44;该方法实现计算节点规模从1 067扩展至4 139,得到达到给定终止条件所需时间从43.02 h降至16.05 h,可扩展效率为69.1%。评估表明,该方法能够实现MiniGo在大规模异构计算平台的高效并行训练。 展开更多
关键词 MiniGo 大规模异构计算平台 数字信号处理器
在线阅读 下载PDF
异构计算平台图像边缘检测算法优化研究 被引量:5
2
作者 魏秋明 梁军 +2 位作者 鲍泓 王晶 李论 《计算机工程》 CAS CSCD 北大核心 2017年第5期240-247,共8页
随着实际应用中图像数据规模的增大和分辨率的提高,图像边缘检测算法的性能成为制约图像实时处理的关键。从向量化访存、数据本地化以及条件分支优化3个方面出发,结合算法特性和底层硬件架构特征,研究Canny边缘检测算法在NVIDIA Tegra K... 随着实际应用中图像数据规模的增大和分辨率的提高,图像边缘检测算法的性能成为制约图像实时处理的关键。从向量化访存、数据本地化以及条件分支优化3个方面出发,结合算法特性和底层硬件架构特征,研究Canny边缘检测算法在NVIDIA Tegra K1异构计算平台上的GPU性能优化。实验结果表明,与基于Open CV3.0CPU的Canny边缘检测算法相比,优化后的Canny边缘检测算法在不同图像数据规模下可达13.2倍~17.8倍的性能加速比,具有较好的检测性能。 展开更多
关键词 图像边缘检测 异构计算平台 向量化访存 数据本地化 条件分支优化
在线阅读 下载PDF
异构计算平台激光雷达算法优化研究 被引量:3
3
作者 许武 梁军 +3 位作者 李威 徐鹏飞 徐圣瑞 张福贵 《计算机工程》 CAS CSCD 北大核心 2018年第7期1-7,共7页
单纯采用CPU处理激光雷达点云数据已无法满足其实时性需求。为此,选用NVIDIA Tegra X1作为异构计算平台,对激光雷达数据处理算法进行加速。结合硬件架构特征和激光雷达数据处理算法的特性,通过粗粒度并行解决GPU优化过程中出现的负载不... 单纯采用CPU处理激光雷达点云数据已无法满足其实时性需求。为此,选用NVIDIA Tegra X1作为异构计算平台,对激光雷达数据处理算法进行加速。结合硬件架构特征和激光雷达数据处理算法的特性,通过粗粒度并行解决GPU优化过程中出现的负载不均衡问题。同时采用零复制和数据本地化的方法进行数据的精细优化。实验结果表明,相较于目前智能车上使用的工控机,优化后的激光雷达数据处理算法能够加速5倍~6倍,提高了智能车对雷达数据处理的实时性。 展开更多
关键词 粗粒度并行 负载不均衡 零复制 数据本地化 GPU优化 异构计算平台
在线阅读 下载PDF
向量分组聚集计算技术研究
4
作者 张宇 张延松 《计算机工程与应用》 CSCD 北大核心 2021年第11期84-94,共11页
分组聚集计算是OLAP重要的操作符之一,分组聚集操作是一种数据密集型负载。在内存数据库和GPU数据库应用场景下不仅需要研究其性能优化技术,还需要研究如何优化分配分组聚集计算执行场地以最小化CPU与GPU之间的数据传输代价。针对异构... 分组聚集计算是OLAP重要的操作符之一,分组聚集操作是一种数据密集型负载。在内存数据库和GPU数据库应用场景下不仅需要研究其性能优化技术,还需要研究如何优化分配分组聚集计算执行场地以最小化CPU与GPU之间的数据传输代价。针对异构计算平台的硬件特征提出了向量聚集计算技术,将位于传统流水线末端的分组聚集计算按照"早分组,晚聚集"策略进行分解与下推,实现将数据密集型的分组聚集计算从流水线中分离,将操作与处理器计算特性优化匹配,实现异构计算平台上最优的负载分配。通过将传统基于哈希分组的聚集计算转换为向量分组聚集计算,显著提升了分组聚集计算性能。实验结果表明,向量分组聚集技术相对于具有代表性的高性能内存数据库Hyper、GPU数据库MapD最大达到5~8倍的性能提升。向量聚集计算不仅提高了OLAP聚集计算性能,而且实现了将数据密集型负载从查询计划中分离的目标,使异构计算平台能够根据处理器的硬件特性优化配置计算资源,提高异构计算平台OLAP的整体性能。 展开更多
关键词 CPU-GPU异构计算平台 向量分组聚集 分组向量索引 数据密集型负载
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部