期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向大规模异构计算平台的MiniGo高效训练方法
1
作者
李荣春
贺周雨
+3 位作者
乔鹏
姜晶菲
窦勇
李东升
《国防科技大学学报》
EI
CAS
CSCD
北大核心
2024年第5期209-218,共10页
提出一种适用于大规模异构计算平台训练MiniGo智能体的高效多级并行训练方法,包括节点间任务级并行、中央处理器-数字信号处理器(central processing unit-digital signal processor, CPU-DSP)异构并行、DSP核内并行。实现了高效的输入...
提出一种适用于大规模异构计算平台训练MiniGo智能体的高效多级并行训练方法,包括节点间任务级并行、中央处理器-数字信号处理器(central processing unit-digital signal processor, CPU-DSP)异构并行、DSP核内并行。实现了高效的输入/输出部署,消除网络通信瓶颈。提出了面向CPU-DSP共享内存结构的异构计算内存管理,减少异构设备间的数据搬运。实现了共享内存编程优化,并利用DSP实现密集卷积计算算子加速优化。结果表明,与16核CPU计算相比,单核DSP算子加速最大加速比达16.44;该方法实现计算节点规模从1 067扩展至4 139,得到达到给定终止条件所需时间从43.02 h降至16.05 h,可扩展效率为69.1%。评估表明,该方法能够实现MiniGo在大规模异构计算平台的高效并行训练。
展开更多
关键词
MiniGo
大规模
异构计算平台
数字信号处理器
在线阅读
下载PDF
职称材料
异构计算平台图像边缘检测算法优化研究
被引量:
5
2
作者
魏秋明
梁军
+2 位作者
鲍泓
王晶
李论
《计算机工程》
CAS
CSCD
北大核心
2017年第5期240-247,共8页
随着实际应用中图像数据规模的增大和分辨率的提高,图像边缘检测算法的性能成为制约图像实时处理的关键。从向量化访存、数据本地化以及条件分支优化3个方面出发,结合算法特性和底层硬件架构特征,研究Canny边缘检测算法在NVIDIA Tegra K...
随着实际应用中图像数据规模的增大和分辨率的提高,图像边缘检测算法的性能成为制约图像实时处理的关键。从向量化访存、数据本地化以及条件分支优化3个方面出发,结合算法特性和底层硬件架构特征,研究Canny边缘检测算法在NVIDIA Tegra K1异构计算平台上的GPU性能优化。实验结果表明,与基于Open CV3.0CPU的Canny边缘检测算法相比,优化后的Canny边缘检测算法在不同图像数据规模下可达13.2倍~17.8倍的性能加速比,具有较好的检测性能。
展开更多
关键词
图像边缘检测
异构计算平台
向量化访存
数据本地化
条件分支优化
在线阅读
下载PDF
职称材料
异构计算平台激光雷达算法优化研究
被引量:
3
3
作者
许武
梁军
+3 位作者
李威
徐鹏飞
徐圣瑞
张福贵
《计算机工程》
CAS
CSCD
北大核心
2018年第7期1-7,共7页
单纯采用CPU处理激光雷达点云数据已无法满足其实时性需求。为此,选用NVIDIA Tegra X1作为异构计算平台,对激光雷达数据处理算法进行加速。结合硬件架构特征和激光雷达数据处理算法的特性,通过粗粒度并行解决GPU优化过程中出现的负载不...
单纯采用CPU处理激光雷达点云数据已无法满足其实时性需求。为此,选用NVIDIA Tegra X1作为异构计算平台,对激光雷达数据处理算法进行加速。结合硬件架构特征和激光雷达数据处理算法的特性,通过粗粒度并行解决GPU优化过程中出现的负载不均衡问题。同时采用零复制和数据本地化的方法进行数据的精细优化。实验结果表明,相较于目前智能车上使用的工控机,优化后的激光雷达数据处理算法能够加速5倍~6倍,提高了智能车对雷达数据处理的实时性。
展开更多
关键词
粗粒度并行
负载不均衡
零复制
数据本地化
GPU优化
异构计算平台
在线阅读
下载PDF
职称材料
向量分组聚集计算技术研究
4
作者
张宇
张延松
《计算机工程与应用》
CSCD
北大核心
2021年第11期84-94,共11页
分组聚集计算是OLAP重要的操作符之一,分组聚集操作是一种数据密集型负载。在内存数据库和GPU数据库应用场景下不仅需要研究其性能优化技术,还需要研究如何优化分配分组聚集计算执行场地以最小化CPU与GPU之间的数据传输代价。针对异构...
分组聚集计算是OLAP重要的操作符之一,分组聚集操作是一种数据密集型负载。在内存数据库和GPU数据库应用场景下不仅需要研究其性能优化技术,还需要研究如何优化分配分组聚集计算执行场地以最小化CPU与GPU之间的数据传输代价。针对异构计算平台的硬件特征提出了向量聚集计算技术,将位于传统流水线末端的分组聚集计算按照"早分组,晚聚集"策略进行分解与下推,实现将数据密集型的分组聚集计算从流水线中分离,将操作与处理器计算特性优化匹配,实现异构计算平台上最优的负载分配。通过将传统基于哈希分组的聚集计算转换为向量分组聚集计算,显著提升了分组聚集计算性能。实验结果表明,向量分组聚集技术相对于具有代表性的高性能内存数据库Hyper、GPU数据库MapD最大达到5~8倍的性能提升。向量聚集计算不仅提高了OLAP聚集计算性能,而且实现了将数据密集型负载从查询计划中分离的目标,使异构计算平台能够根据处理器的硬件特性优化配置计算资源,提高异构计算平台OLAP的整体性能。
展开更多
关键词
CPU-GPU
异构计算平台
向量分组聚集
分组向量索引
数据密集型负载
在线阅读
下载PDF
职称材料
题名
面向大规模异构计算平台的MiniGo高效训练方法
1
作者
李荣春
贺周雨
乔鹏
姜晶菲
窦勇
李东升
机构
国防科技大学并行与分布计算全国重点实验室
出处
《国防科技大学学报》
EI
CAS
CSCD
北大核心
2024年第5期209-218,共10页
基金
国家自然科学基金资助项目(61902415)。
文摘
提出一种适用于大规模异构计算平台训练MiniGo智能体的高效多级并行训练方法,包括节点间任务级并行、中央处理器-数字信号处理器(central processing unit-digital signal processor, CPU-DSP)异构并行、DSP核内并行。实现了高效的输入/输出部署,消除网络通信瓶颈。提出了面向CPU-DSP共享内存结构的异构计算内存管理,减少异构设备间的数据搬运。实现了共享内存编程优化,并利用DSP实现密集卷积计算算子加速优化。结果表明,与16核CPU计算相比,单核DSP算子加速最大加速比达16.44;该方法实现计算节点规模从1 067扩展至4 139,得到达到给定终止条件所需时间从43.02 h降至16.05 h,可扩展效率为69.1%。评估表明,该方法能够实现MiniGo在大规模异构计算平台的高效并行训练。
关键词
MiniGo
大规模
异构计算平台
数字信号处理器
Keywords
MiniGo
large-scale heterogeneous computing platform
DSP
分类号
TP39 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
异构计算平台图像边缘检测算法优化研究
被引量:
5
2
作者
魏秋明
梁军
鲍泓
王晶
李论
机构
北京联合大学电子信息技术实验实训基地
北京联合大学北京市信息服务工程重点实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第5期240-247,共8页
基金
国家自然科学基金(NSFC61271370)
北京市教育委员会科技计划面上项目(SQKM201411417010
KM201311417001)
文摘
随着实际应用中图像数据规模的增大和分辨率的提高,图像边缘检测算法的性能成为制约图像实时处理的关键。从向量化访存、数据本地化以及条件分支优化3个方面出发,结合算法特性和底层硬件架构特征,研究Canny边缘检测算法在NVIDIA Tegra K1异构计算平台上的GPU性能优化。实验结果表明,与基于Open CV3.0CPU的Canny边缘检测算法相比,优化后的Canny边缘检测算法在不同图像数据规模下可达13.2倍~17.8倍的性能加速比,具有较好的检测性能。
关键词
图像边缘检测
异构计算平台
向量化访存
数据本地化
条件分支优化
Keywords
image edge detection
heterogeneous computing platform
quantitative acess memory
data localization
conditional branch optimization
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
异构计算平台激光雷达算法优化研究
被引量:
3
3
作者
许武
梁军
李威
徐鹏飞
徐圣瑞
张福贵
机构
北京联合大学北京市信息服务工程重点实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2018年第7期1-7,共7页
基金
国家自然科学基金"视听觉信息的认知计算"重大研究计划重点支持项目"智能车驾驶脑认知技术
平台与转化研究"(91420202)
+8 种基金
由北京联合大学和原总参61所合作承担
鲍泓教授为项目负责人
李德毅院士为首席专家
横向建立了十三个课题组群
纵向建立了"猛狮""京龙"和宇通等六个车队群
全过程实行有效的矩阵式管理。该项目的核心是研究"如何在开放道路条件下
自主完成各类驾驶行为
可用于深度学习和自学习的机器驾驶脑/不确定性驾驶环境的认知"这一系列科学问题
北京市教委科研计划项目(KM201811417006)
文摘
单纯采用CPU处理激光雷达点云数据已无法满足其实时性需求。为此,选用NVIDIA Tegra X1作为异构计算平台,对激光雷达数据处理算法进行加速。结合硬件架构特征和激光雷达数据处理算法的特性,通过粗粒度并行解决GPU优化过程中出现的负载不均衡问题。同时采用零复制和数据本地化的方法进行数据的精细优化。实验结果表明,相较于目前智能车上使用的工控机,优化后的激光雷达数据处理算法能够加速5倍~6倍,提高了智能车对雷达数据处理的实时性。
关键词
粗粒度并行
负载不均衡
零复制
数据本地化
GPU优化
异构计算平台
Keywords
coarse-grained parallelism ( load imbalance ( zero copy
data locality
GPU optimization
heterogeneouscomputing platform
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
向量分组聚集计算技术研究
4
作者
张宇
张延松
机构
国家卫星气象中心
中国人民大学信息学院
出处
《计算机工程与应用》
CSCD
北大核心
2021年第11期84-94,共11页
基金
国家自然科学基金(61772533)
北京市自然科学基金(4192066)。
文摘
分组聚集计算是OLAP重要的操作符之一,分组聚集操作是一种数据密集型负载。在内存数据库和GPU数据库应用场景下不仅需要研究其性能优化技术,还需要研究如何优化分配分组聚集计算执行场地以最小化CPU与GPU之间的数据传输代价。针对异构计算平台的硬件特征提出了向量聚集计算技术,将位于传统流水线末端的分组聚集计算按照"早分组,晚聚集"策略进行分解与下推,实现将数据密集型的分组聚集计算从流水线中分离,将操作与处理器计算特性优化匹配,实现异构计算平台上最优的负载分配。通过将传统基于哈希分组的聚集计算转换为向量分组聚集计算,显著提升了分组聚集计算性能。实验结果表明,向量分组聚集技术相对于具有代表性的高性能内存数据库Hyper、GPU数据库MapD最大达到5~8倍的性能提升。向量聚集计算不仅提高了OLAP聚集计算性能,而且实现了将数据密集型负载从查询计划中分离的目标,使异构计算平台能够根据处理器的硬件特性优化配置计算资源,提高异构计算平台OLAP的整体性能。
关键词
CPU-GPU
异构计算平台
向量分组聚集
分组向量索引
数据密集型负载
Keywords
CPU-GPU heterogeneous computing platform
vector grouping&aggregation
group vector index
computingintensive workload
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向大规模异构计算平台的MiniGo高效训练方法
李荣春
贺周雨
乔鹏
姜晶菲
窦勇
李东升
《国防科技大学学报》
EI
CAS
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
2
异构计算平台图像边缘检测算法优化研究
魏秋明
梁军
鲍泓
王晶
李论
《计算机工程》
CAS
CSCD
北大核心
2017
5
在线阅读
下载PDF
职称材料
3
异构计算平台激光雷达算法优化研究
许武
梁军
李威
徐鹏飞
徐圣瑞
张福贵
《计算机工程》
CAS
CSCD
北大核心
2018
3
在线阅读
下载PDF
职称材料
4
向量分组聚集计算技术研究
张宇
张延松
《计算机工程与应用》
CSCD
北大核心
2021
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部