期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
13
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
奇偶合并排序的数据级并行实现
1
作者
张珂良
李佳佳
+1 位作者
陈钢
吴百锋
《小型微型计算机系统》
CSCD
北大核心
2012年第6期1343-1349,共7页
针对奇偶合并排序中存在的巨大数据级并行性潜力,通过将其实现于提供了强大数据级并行性的GPU处理器之上而获取较高的加速比.同时,针对OpenCL不支持各工作组间的工作线程的同步问题,提出两种解决方法,一种是通过主机程序控制迭代过程,...
针对奇偶合并排序中存在的巨大数据级并行性潜力,通过将其实现于提供了强大数据级并行性的GPU处理器之上而获取较高的加速比.同时,针对OpenCL不支持各工作组间的工作线程的同步问题,提出两种解决方法,一种是通过主机程序控制迭代过程,从而完全避免所有工作线程对于同步操作的需求;另一种是通过桶划分预处理技术将对于同步操作的需求控制在单个工作组,然后利用单个工作组提供的各工作线程间的同步机制以正确的处理同步操作.实验结果表明,按照本文方法实现的程序性能相对于C++STL库中的sort实现有着明显的提高.
展开更多
关键词
奇偶合并排序
数据级并行
通用目的计算
图形处理器
OPENCL
在线阅读
下载PDF
职称材料
基于数据级任务分解的配电网分布式并行计算平台
被引量:
14
2
作者
黄伟
庞琳
+1 位作者
曹彬
焦润海
《电网技术》
EI
CSCD
北大核心
2014年第4期1103-1108,共6页
为实现大规模配电网的实时分析计算,构建了基于数据级任务分解的配电网分布式并行计算平台。结合配电网运行结构和设备配置,以配电网馈线作为分析单元,采用数据级并行计算方式对配电网计算任务进行分解。配置管理模块、实例、执行端和...
为实现大规模配电网的实时分析计算,构建了基于数据级任务分解的配电网分布式并行计算平台。结合配电网运行结构和设备配置,以配电网馈线作为分析单元,采用数据级并行计算方式对配电网计算任务进行分解。配置管理模块、实例、执行端和客户端4个子系统,分别实现任务生成、任务分解、任务派发以及子任务计算等功能,形成分布式并行计算平台框架。引入消息中间件ZeroMQ技术,采用不同类型套接字的组合实现分布式系统内部的N-N高效通信及与外部系统的数据交互。为验证该平台的实用性及并行计算性能,在平台上实现了山东省某市的城市配电网全局状态估计的分布式并行计算。算例分析表明:在配电网节点达到一定规模时,采用该平台进行分布式并行计算具有明显的速度优势。
展开更多
关键词
数据级并行
分布式
并行
计算平台
配电网
分布式通信架构
在线阅读
下载PDF
职称材料
面向科学计算可视化的两级并行数据读取加速方法
被引量:
3
3
作者
石刘
肖丽
+1 位作者
曹立强
莫则尧
《计算机研究与发展》
EI
CSCD
北大核心
2017年第4期844-854,共11页
为了匹配超级计算机的整体计算能力,超级计算机存储子系统通常具有良好的I/O性能可扩展性,表现为:应用获得存储子系统最佳性能时的I/O访问并发度,与超级计算机系统总计算核数(可达数万至数百万)通常处于同一数量级.然而,科学计算可视化...
为了匹配超级计算机的整体计算能力,超级计算机存储子系统通常具有良好的I/O性能可扩展性,表现为:应用获得存储子系统最佳性能时的I/O访问并发度,与超级计算机系统总计算核数(可达数万至数百万)通常处于同一数量级.然而,科学计算可视化应用通常使用的进程数(等于I/O访问并发度)相对较小(经验上常设为计算进程数的1%,典型值为数个至数百个),因此无法充分发挥超级计算机存储子系统的最佳I/O性能.提出了一种面向科学计算可视化的两级并行数据读取加速方法,在可视化进程内部引入多线程并行数据读取,通过进程间和进程内两级并行,增加超级计算机存储子系统的I/O访问并发度,提升可视化应用数据读取速率.测试结果表明:在不同的可视化进程规模下,两级并行比单级并行峰值数据读取速率提高33.5%~269.5%,均值数据读取速率提高26.6%~232.2%;随着科学计算应用种类以及应用规模的变化,两级并行数据读取可使可视化应用整体峰值运行速度加速19.5%~225.7%,均值运行速度加速15.8%~197.6%.
展开更多
关键词
两
级
并行
数据
读取
科学计算可视化
数据
访问模式
存储子系统
I/O性能特征
在线阅读
下载PDF
职称材料
流处理器结构上数据并行类应用的开发和评估
被引量:
1
4
作者
王其刚
安虹
+2 位作者
徐光
周丽萍
汪芳
《小型微型计算机系统》
CSCD
北大核心
2008年第9期1698-1703,共6页
流处理器体系结构是一种针对流应用中固有的计算和数据流动特点提出的一种新型的处理器体系结构,它结合了向量和超长指令字体系结构的特点,能有效地加速流应用的执行,而它的适用领域一直是当前国际上的热点讨论问题.本文从数据并行应用...
流处理器体系结构是一种针对流应用中固有的计算和数据流动特点提出的一种新型的处理器体系结构,它结合了向量和超长指令字体系结构的特点,能有效地加速流应用的执行,而它的适用领域一直是当前国际上的热点讨论问题.本文从数据并行应用4个不同领域——数字信号处理、科学计算、网络和安全、以及多媒体处理选取了4个典型应用,详细剖析了这些应用在流体系结构上的流并行程序设计过程,归纳出数据并行类应用的流化步骤和方法,通过实验对这类应用在流体系结构上的适用性做出评估.
展开更多
关键词
数据级并行
应用
流编程模型
适用性
在线阅读
下载PDF
职称材料
萤火虫2:一种多态并行机的硬件体系结构
被引量:
16
5
作者
李涛
杨婷
+5 位作者
易学渊
蒲林
钱博文
黄光新
黄虎才
韩俊刚
《计算机工程与科学》
CSCD
北大核心
2014年第2期191-200,共10页
提出了一种新型的多态高效并行阵列机结构——萤火虫2号阵列机。该结构的处理单元可以在SIMD和MIMD两种模式下运行,兼有异步执行机制,还可以实现分布式指令级并行处理。采用了硬件的多线程管理器和高效通信机制,这些机制使得此种阵列机...
提出了一种新型的多态高效并行阵列机结构——萤火虫2号阵列机。该结构的处理单元可以在SIMD和MIMD两种模式下运行,兼有异步执行机制,还可以实现分布式指令级并行处理。采用了硬件的多线程管理器和高效通信机制,这些机制使得此种阵列机能够实现效率很高的线程级并行运算、数据级并行运算和分布式指令级并行运算。尤其值得指出的是,此种阵列机的流处理性能堪与专用集成电路匹敌。该结构还能有效实现静态与动态数据流计算,可以高效实现图形、图像和数字信号处理任务。
展开更多
关键词
阵列机
多态处理器
计算机图形
图像处理
信号处理
数据级并行
线程
级
并行
在线阅读
下载PDF
职称材料
面向RISC-V向量扩展的高性能算法库优化方法
6
作者
韩柳彤
张洪滨
+2 位作者
邢明杰
武延军
赵琛
《软件学报》
北大核心
2025年第9期3985-4005,共21页
高性能算法库可以通过向量化的方式高效地利用单指令多数据(SIMD)硬件的能力,从而提升其在CPU上的执行性能.其中,向量化的实现需要使用目标SIMD硬件的特定编程方法,而不同SIMD扩展的编程模型和编程方法均存在较大差异.为了避免优化算法...
高性能算法库可以通过向量化的方式高效地利用单指令多数据(SIMD)硬件的能力,从而提升其在CPU上的执行性能.其中,向量化的实现需要使用目标SIMD硬件的特定编程方法,而不同SIMD扩展的编程模型和编程方法均存在较大差异.为了避免优化算法在不同平台上的重复实现,提高算法库的可维护性,在高性能算法库的开发过程中通常需要引入硬件抽象层.由于目前主流SIMD扩展指令集均被设计为具有固定长度的向量寄存器,多数硬件抽象层也是基于定长向量的硬件特性而设计,无法包含RISC-V向量扩展所引入的可变向量寄存器长度的硬件特性.而若将RISC-V向量扩展视作定长向量扩展引入现有硬件抽象层设计中,会产生不必要的开销,造成性能损失.为此,提出了一种面向可变长向量扩展平台和固定长度SIMD扩展平台的硬件抽象层设计方法.基于此方法,重新设计和优化了OpenCV算法库中的通用内建函数,使其在兼容现有SIMD平台的基础上,更好地支持RISC-V向量扩展设备.将采用优化方法的OpenCV算法库与原版算法库进行性能比较,实验结果表明,运用该方法设计的通用内建函数能够将RISC-V向量扩展高效地融入算法库的硬件抽象层优化框架中,并在核心模块中获得3.93倍的性能提升,显著优化了高性能算法库在RISC-V设备上的执行性能,从而验证了该方法的有效性.此外,工作已经开源并被OpenCV社区集成到其源代码之中,证明了方法的实用性和应用价值.
展开更多
关键词
RISC-V向量扩展
数据级并行
高性能库优化
开源计算机视觉算法库(OpenCV)
在线阅读
下载PDF
职称材料
基于异构GPU集群的并行分布式编程解决方案
被引量:
1
7
作者
李佳佳
胡新明
吴百锋
《计算机应用与软件》
CSCD
北大核心
2014年第9期28-31,176,共5页
由于超强的计算能力、高速访存带宽、支持大规模数据级并行程序设计等特点,GPU已经成为超级计算机和高性能计算(HPC)集群的主流加速器。随着处理单元的发展和集群节点的拓展,GPU集群不仅在节点层面呈现异构化,节点内也趋于异构化,大大...
由于超强的计算能力、高速访存带宽、支持大规模数据级并行程序设计等特点,GPU已经成为超级计算机和高性能计算(HPC)集群的主流加速器。随着处理单元的发展和集群节点的拓展,GPU集群不仅在节点层面呈现异构化,节点内也趋于异构化,大大提高了在GPU集群中编程的复杂度。主流GPU异构集群系统大多采用针对GPU的异构计算编程模型与面向分布式内存的消息传递模型的简单结合方式,这种方式使得GPU集群程序设计缺乏确定的准则,往往是低效而且易错的。为了提高在GPU集群中编程的效率,降低编程复杂度,以及实现平台无关性,提出一套异构GPU集群的并行分布式编程的解决方案。该方案通过采用扩展语言方法提出了编程框架DISPAR,并实现了预处理器系统StreamCC。实验证明了其可行性。
展开更多
关键词
GPU集群
编程模型
数据级并行
在线阅读
下载PDF
职称材料
动态图上的最短路径距离并行算法
被引量:
4
8
作者
韩硕
邹磊
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2020年第1期112-122,共11页
设计动态图上最短路径距离查询的并行计算框架。通过构建增量图的方法,实现一个批次内的多个查询在不同数据图版本的多线程并发执行。对于每个查询,使用双向宽度优先搜索算法来减少搜索空间,并提出搜索过程中扩展方向的决策函数。利用BS...
设计动态图上最短路径距离查询的并行计算框架。通过构建增量图的方法,实现一个批次内的多个查询在不同数据图版本的多线程并发执行。对于每个查询,使用双向宽度优先搜索算法来减少搜索空间,并提出搜索过程中扩展方向的决策函数。利用BSR对数据图邻接表进行编码,结合SIMD指令和图顶点重标号算法,进一步提升数据级并行度。在真实图数据集下的大量实验验证了所提方法的高效性。
展开更多
关键词
动态图
最短路径距离
增量图
线程
级
并行
数据级并行
双向宽度优先搜索
SIMD
在线阅读
下载PDF
职称材料
面向FT-M7002的阈值分割算法优化实现
9
作者
陈云
胡伟方
+1 位作者
王梦园
商建东
《计算机应用与软件》
北大核心
2024年第8期254-258,310,共6页
在国产高性能DSP的快速发展过程中,缺乏能充分发挥其体系结构优势的高性能图像处理算法。针对以上问题,对应用比较广泛的Otsu阈值分割算法进行面向FT平台的并行优化。在分析FT-M7002体系结构以及Otsu阈值分割算法的基础上,使用飞腾向量...
在国产高性能DSP的快速发展过程中,缺乏能充分发挥其体系结构优势的高性能图像处理算法。针对以上问题,对应用比较广泛的Otsu阈值分割算法进行面向FT平台的并行优化。在分析FT-M7002体系结构以及Otsu阈值分割算法的基础上,使用飞腾向量指令集进行手工向量化改写以充分利用FT-M7002平台超长向量寄存器,从而减少数据访存次数提高数据级并行性。在多种图像矩阵规模下进行性能测试,结果显示,阈值分割中的阈值比较模块优化后获得了3.74~4.39倍的加速效果,Otsu阈值分割算法总体优化实现获得了1.77~1.87倍的加速效果。
展开更多
关键词
FT-M7002
Otsu阈值分割
手工向量化
循环展开
数据级并行
在线阅读
下载PDF
职称材料
SIMD自动向量化编译优化概述
被引量:
36
10
作者
高伟
赵荣彩
+2 位作者
韩林
庞建民
丁锐
《软件学报》
EI
CSCD
北大核心
2015年第6期1265-1284,共20页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研...
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向.
展开更多
关键词
SIMD扩展部件
自动向量化
数据级并行
编译优化
在线阅读
下载PDF
职称材料
DSP体系结构发展的新趋势
被引量:
5
11
作者
黄 峰
李胜平
+2 位作者
朱全庆
熊召新
邹雪城
《计算机工程》
CAS
CSCD
北大核心
2002年第4期1-2,218,共3页
CISC→RISC设计思想对DSP体系结构设计中数据和指令级并行性开发产生了深刻影响,融合RISC和SIMD技术的单核处理器已经成为DSP体系结构设计的新趋势。
关键词
超长指令字
单指令多
数据
流
数据级并行
性
指令
级
并行
性
DSP
数字信号处理器
体系结构
单核处理器
在线阅读
下载PDF
职称材料
自动向量化:近期进展与展望
被引量:
10
12
作者
冯竞舸
贺也平
陶秋铭
《通信学报》
EI
CSCD
北大核心
2022年第3期180-195,共16页
随着单指令流多数据流(SIMD)技术的迅速发展,近年来许多面向SIMD扩展部件的自动向量化编译方法被提出,有效缓解了程序员手写向量程序的压力,并发挥了SIMD扩展部件的加速效能。基于此,分析总结了自动向量化领域近10年的研究成果,从保义...
随着单指令流多数据流(SIMD)技术的迅速发展,近年来许多面向SIMD扩展部件的自动向量化编译方法被提出,有效缓解了程序员手写向量程序的压力,并发挥了SIMD扩展部件的加速效能。基于此,分析总结了自动向量化领域近10年的研究成果,从保义分析和变换、向量化分组分析和变换、面向处理器支持特性的分析和变换以及性能评估分析这4个方面分类归纳了自动向量化的关键问题和主要突破,进而对4个方面的发展趋势和研究方向进行了展望。
展开更多
关键词
自动向量化
SIMD扩展
编译技术
数据级并行
性能优化
在线阅读
下载PDF
职称材料
SIMD非对齐访存结构设计与实现
被引量:
3
13
作者
余成龙
王永文
《计算机工程》
CAS
CSCD
北大核心
2016年第9期1-4,共4页
单指令流多数据流(SIMD)是实现数据级并行的有效方法,但访问地址非对齐的数据严重影响程序的向量化,造成处理器性能下降。为降低非对齐访存延时,对高性能应用程序的访存结构进行建模,设计并实现SIMD分离缓冲行非对齐访存结构与双体cach...
单指令流多数据流(SIMD)是实现数据级并行的有效方法,但访问地址非对齐的数据严重影响程序的向量化,造成处理器性能下降。为降低非对齐访存延时,对高性能应用程序的访存结构进行建模,设计并实现SIMD分离缓冲行非对齐访存结构与双体cache非对齐访存结构。实验结果表明,在双体cache非对齐访存结构下,通过两数组相加与SIMD向量化实现的非对齐访存代码可达到对齐访存代码性能的99%,提高了SIMD向量化的访存效率。
展开更多
关键词
高性能计算
数据级并行
向量化
单指令流多
数据
流扩展
非对齐访存
Gem5模拟器
在线阅读
下载PDF
职称材料
题名
奇偶合并排序的数据级并行实现
1
作者
张珂良
李佳佳
陈钢
吴百锋
机构
复旦大学计算机科学技术学院
出处
《小型微型计算机系统》
CSCD
北大核心
2012年第6期1343-1349,共7页
基金
专用集成电路与系统国家重点实验室(复旦大学)和AMD大学合作计划基金项目资助
文摘
针对奇偶合并排序中存在的巨大数据级并行性潜力,通过将其实现于提供了强大数据级并行性的GPU处理器之上而获取较高的加速比.同时,针对OpenCL不支持各工作组间的工作线程的同步问题,提出两种解决方法,一种是通过主机程序控制迭代过程,从而完全避免所有工作线程对于同步操作的需求;另一种是通过桶划分预处理技术将对于同步操作的需求控制在单个工作组,然后利用单个工作组提供的各工作线程间的同步机制以正确的处理同步操作.实验结果表明,按照本文方法实现的程序性能相对于C++STL库中的sort实现有着明显的提高.
关键词
奇偶合并排序
数据级并行
通用目的计算
图形处理器
OPENCL
Keywords
odd-even merge sort
data level parallelism
GPGPU
GPU
OpenCL
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于数据级任务分解的配电网分布式并行计算平台
被引量:
14
2
作者
黄伟
庞琳
曹彬
焦润海
机构
华北电力大学电气与电子工程学院
华北电力大学控制与计算机工程学院
出处
《电网技术》
EI
CSCD
北大核心
2014年第4期1103-1108,共6页
基金
中央高校基本科研业务费专项资金资助项目(11MG13)~~
文摘
为实现大规模配电网的实时分析计算,构建了基于数据级任务分解的配电网分布式并行计算平台。结合配电网运行结构和设备配置,以配电网馈线作为分析单元,采用数据级并行计算方式对配电网计算任务进行分解。配置管理模块、实例、执行端和客户端4个子系统,分别实现任务生成、任务分解、任务派发以及子任务计算等功能,形成分布式并行计算平台框架。引入消息中间件ZeroMQ技术,采用不同类型套接字的组合实现分布式系统内部的N-N高效通信及与外部系统的数据交互。为验证该平台的实用性及并行计算性能,在平台上实现了山东省某市的城市配电网全局状态估计的分布式并行计算。算例分析表明:在配电网节点达到一定规模时,采用该平台进行分布式并行计算具有明显的速度优势。
关键词
数据级并行
分布式
并行
计算平台
配电网
分布式通信架构
Keywords
ZeroMQ
data-level parallel
distributed and parallel computing platform
distribution network
ZeroMQ
distributed communication architecture
分类号
TM721 [电气工程—电力系统及自动化]
在线阅读
下载PDF
职称材料
题名
面向科学计算可视化的两级并行数据读取加速方法
被引量:
3
3
作者
石刘
肖丽
曹立强
莫则尧
机构
中国舰船研究院
北京应用物理与计算数学研究所
中物院高性能数值模拟软件中心
出处
《计算机研究与发展》
EI
CSCD
北大核心
2017年第4期844-854,共11页
基金
国家自然科学基金重点项目(61232012)
国家重点基础研究专项经费(2011CB309702)
国家"八六三"高技术研究发展计划基金项目(2012AA01A309)~~
文摘
为了匹配超级计算机的整体计算能力,超级计算机存储子系统通常具有良好的I/O性能可扩展性,表现为:应用获得存储子系统最佳性能时的I/O访问并发度,与超级计算机系统总计算核数(可达数万至数百万)通常处于同一数量级.然而,科学计算可视化应用通常使用的进程数(等于I/O访问并发度)相对较小(经验上常设为计算进程数的1%,典型值为数个至数百个),因此无法充分发挥超级计算机存储子系统的最佳I/O性能.提出了一种面向科学计算可视化的两级并行数据读取加速方法,在可视化进程内部引入多线程并行数据读取,通过进程间和进程内两级并行,增加超级计算机存储子系统的I/O访问并发度,提升可视化应用数据读取速率.测试结果表明:在不同的可视化进程规模下,两级并行比单级并行峰值数据读取速率提高33.5%~269.5%,均值数据读取速率提高26.6%~232.2%;随着科学计算应用种类以及应用规模的变化,两级并行数据读取可使可视化应用整体峰值运行速度加速19.5%~225.7%,均值运行速度加速15.8%~197.6%.
关键词
两
级
并行
数据
读取
科学计算可视化
数据
访问模式
存储子系统
I/O性能特征
Keywords
two level parallel data read
visualization in scientific computing
data access pattern
storage subsystem
I/O performance characteristics
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
流处理器结构上数据并行类应用的开发和评估
被引量:
1
4
作者
王其刚
安虹
徐光
周丽萍
汪芳
机构
中国科学技术大学计算机科学技术系
出处
《小型微型计算机系统》
CSCD
北大核心
2008年第9期1698-1703,共6页
基金
国家自然科学基金项目(60633040)资助
国家“九七三”计划项目(2005CB321601)资助
中国科学院计算技术研究所计算机系统结构重点实验室开放课题
文摘
流处理器体系结构是一种针对流应用中固有的计算和数据流动特点提出的一种新型的处理器体系结构,它结合了向量和超长指令字体系结构的特点,能有效地加速流应用的执行,而它的适用领域一直是当前国际上的热点讨论问题.本文从数据并行应用4个不同领域——数字信号处理、科学计算、网络和安全、以及多媒体处理选取了4个典型应用,详细剖析了这些应用在流体系结构上的流并行程序设计过程,归纳出数据并行类应用的流化步骤和方法,通过实验对这类应用在流体系结构上的适用性做出评估.
关键词
数据级并行
应用
流编程模型
适用性
Keywords
data-parallel programs
stream programming model
applicability
分类号
TP303 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
萤火虫2:一种多态并行机的硬件体系结构
被引量:
16
5
作者
李涛
杨婷
易学渊
蒲林
钱博文
黄光新
黄虎才
韩俊刚
机构
西安邮电大学电子工程学院
西安邮电大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2014年第2期191-200,共10页
基金
国家自然科学基金重大项目(61136002)
西安邮电大学陕西省2012重点学科建设西邮计算机体系结构项目
文摘
提出了一种新型的多态高效并行阵列机结构——萤火虫2号阵列机。该结构的处理单元可以在SIMD和MIMD两种模式下运行,兼有异步执行机制,还可以实现分布式指令级并行处理。采用了硬件的多线程管理器和高效通信机制,这些机制使得此种阵列机能够实现效率很高的线程级并行运算、数据级并行运算和分布式指令级并行运算。尤其值得指出的是,此种阵列机的流处理性能堪与专用集成电路匹敌。该结构还能有效实现静态与动态数据流计算,可以高效实现图形、图像和数字信号处理任务。
关键词
阵列机
多态处理器
计算机图形
图像处理
信号处理
数据级并行
线程
级
并行
Keywords
array computer
polymorphous processor
computer graphics
image processing
digital signal processing
data level parallelism
thread level parallelism
instruction level parallelism
分类号
TP303 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
面向RISC-V向量扩展的高性能算法库优化方法
6
作者
韩柳彤
张洪滨
邢明杰
武延军
赵琛
机构
中国科学院软件研究所
中国科学院大学
出处
《软件学报》
北大核心
2025年第9期3985-4005,共21页
基金
中国科学院战略性先导科技专项(A类)(XDA0320200)。
文摘
高性能算法库可以通过向量化的方式高效地利用单指令多数据(SIMD)硬件的能力,从而提升其在CPU上的执行性能.其中,向量化的实现需要使用目标SIMD硬件的特定编程方法,而不同SIMD扩展的编程模型和编程方法均存在较大差异.为了避免优化算法在不同平台上的重复实现,提高算法库的可维护性,在高性能算法库的开发过程中通常需要引入硬件抽象层.由于目前主流SIMD扩展指令集均被设计为具有固定长度的向量寄存器,多数硬件抽象层也是基于定长向量的硬件特性而设计,无法包含RISC-V向量扩展所引入的可变向量寄存器长度的硬件特性.而若将RISC-V向量扩展视作定长向量扩展引入现有硬件抽象层设计中,会产生不必要的开销,造成性能损失.为此,提出了一种面向可变长向量扩展平台和固定长度SIMD扩展平台的硬件抽象层设计方法.基于此方法,重新设计和优化了OpenCV算法库中的通用内建函数,使其在兼容现有SIMD平台的基础上,更好地支持RISC-V向量扩展设备.将采用优化方法的OpenCV算法库与原版算法库进行性能比较,实验结果表明,运用该方法设计的通用内建函数能够将RISC-V向量扩展高效地融入算法库的硬件抽象层优化框架中,并在核心模块中获得3.93倍的性能提升,显著优化了高性能算法库在RISC-V设备上的执行性能,从而验证了该方法的有效性.此外,工作已经开源并被OpenCV社区集成到其源代码之中,证明了方法的实用性和应用价值.
关键词
RISC-V向量扩展
数据级并行
高性能库优化
开源计算机视觉算法库(OpenCV)
Keywords
RISC-V vector extension
data-level parallelism
high-performance library optimization
open source computer vision library(OpenCV)
分类号
TP316 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于异构GPU集群的并行分布式编程解决方案
被引量:
1
7
作者
李佳佳
胡新明
吴百锋
机构
复旦大学计算机科学技术学院
出处
《计算机应用与软件》
CSCD
北大核心
2014年第9期28-31,176,共5页
文摘
由于超强的计算能力、高速访存带宽、支持大规模数据级并行程序设计等特点,GPU已经成为超级计算机和高性能计算(HPC)集群的主流加速器。随着处理单元的发展和集群节点的拓展,GPU集群不仅在节点层面呈现异构化,节点内也趋于异构化,大大提高了在GPU集群中编程的复杂度。主流GPU异构集群系统大多采用针对GPU的异构计算编程模型与面向分布式内存的消息传递模型的简单结合方式,这种方式使得GPU集群程序设计缺乏确定的准则,往往是低效而且易错的。为了提高在GPU集群中编程的效率,降低编程复杂度,以及实现平台无关性,提出一套异构GPU集群的并行分布式编程的解决方案。该方案通过采用扩展语言方法提出了编程框架DISPAR,并实现了预处理器系统StreamCC。实验证明了其可行性。
关键词
GPU集群
编程模型
数据级并行
Keywords
GPU clusters
Programming framework
Data-level parallel
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
在线阅读
下载PDF
职称材料
题名
动态图上的最短路径距离并行算法
被引量:
4
8
作者
韩硕
邹磊
机构
北京大学计算机科学技术研究所
出处
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2020年第1期112-122,共11页
文摘
设计动态图上最短路径距离查询的并行计算框架。通过构建增量图的方法,实现一个批次内的多个查询在不同数据图版本的多线程并发执行。对于每个查询,使用双向宽度优先搜索算法来减少搜索空间,并提出搜索过程中扩展方向的决策函数。利用BSR对数据图邻接表进行编码,结合SIMD指令和图顶点重标号算法,进一步提升数据级并行度。在真实图数据集下的大量实验验证了所提方法的高效性。
关键词
动态图
最短路径距离
增量图
线程
级
并行
数据级并行
双向宽度优先搜索
SIMD
Keywords
dynamic graph
shortest distance
delta graph
thread-level parallelism
data-level parallelism
bidirectional bidirectional breath-first search(BFS)
SIMD
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
面向FT-M7002的阈值分割算法优化实现
9
作者
陈云
胡伟方
王梦园
商建东
机构
郑州大学信息工程学院
郑州大学河南省超级计算中心
出处
《计算机应用与软件》
北大核心
2024年第8期254-258,310,共6页
基金
国家重点研发计划子课题(2018YFB0505000)。
文摘
在国产高性能DSP的快速发展过程中,缺乏能充分发挥其体系结构优势的高性能图像处理算法。针对以上问题,对应用比较广泛的Otsu阈值分割算法进行面向FT平台的并行优化。在分析FT-M7002体系结构以及Otsu阈值分割算法的基础上,使用飞腾向量指令集进行手工向量化改写以充分利用FT-M7002平台超长向量寄存器,从而减少数据访存次数提高数据级并行性。在多种图像矩阵规模下进行性能测试,结果显示,阈值分割中的阈值比较模块优化后获得了3.74~4.39倍的加速效果,Otsu阈值分割算法总体优化实现获得了1.77~1.87倍的加速效果。
关键词
FT-M7002
Otsu阈值分割
手工向量化
循环展开
数据级并行
Keywords
FT-M7002
Otsu threshold segmentation
Manual vectorization
Loop unrolling
Data level parallelism
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
SIMD自动向量化编译优化概述
被引量:
36
10
作者
高伟
赵荣彩
韩林
庞建民
丁锐
机构
数学工程与先进计算国家重点实验室(解放军信息工程大学)
出处
《软件学报》
EI
CSCD
北大核心
2015年第6期1265-1284,共20页
基金
"核高基"国家科技重大专项(2009ZX01036-001-001-2)
文摘
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向.
关键词
SIMD扩展部件
自动向量化
数据级并行
编译优化
Keywords
SIMD extension
auto-veetorization
data level parallelism
compiling optimization
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
DSP体系结构发展的新趋势
被引量:
5
11
作者
黄 峰
李胜平
朱全庆
熊召新
邹雪城
机构
图像信息处理与智能控制教育部重点实验室
华中科技大学电子科学与技术系
出处
《计算机工程》
CAS
CSCD
北大核心
2002年第4期1-2,218,共3页
文摘
CISC→RISC设计思想对DSP体系结构设计中数据和指令级并行性开发产生了深刻影响,融合RISC和SIMD技术的单核处理器已经成为DSP体系结构设计的新趋势。
关键词
超长指令字
单指令多
数据
流
数据级并行
性
指令
级
并行
性
DSP
数字信号处理器
体系结构
单核处理器
Keywords
VLIW
SIMD
Data level parallelism
Instruction level parallelism
分类号
TP332 [自动化与计算机技术—计算机系统结构]
TN911.72 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
自动向量化:近期进展与展望
被引量:
10
12
作者
冯竞舸
贺也平
陶秋铭
机构
中国科学院软件研究所基础软件国家工程研究中心
中国科学院大学研究生院
中国科学院软件研究所计算机科学国家重点实验室
出处
《通信学报》
EI
CSCD
北大核心
2022年第3期180-195,共16页
基金
中国科学院战略性先导科技专项基金资助项目(No.XDA-Y01-01,No.XDC02010600)。
文摘
随着单指令流多数据流(SIMD)技术的迅速发展,近年来许多面向SIMD扩展部件的自动向量化编译方法被提出,有效缓解了程序员手写向量程序的压力,并发挥了SIMD扩展部件的加速效能。基于此,分析总结了自动向量化领域近10年的研究成果,从保义分析和变换、向量化分组分析和变换、面向处理器支持特性的分析和变换以及性能评估分析这4个方面分类归纳了自动向量化的关键问题和主要突破,进而对4个方面的发展趋势和研究方向进行了展望。
关键词
自动向量化
SIMD扩展
编译技术
数据级并行
性能优化
Keywords
auto-vectorization
SIMD extension
compiling technology
data level parallelism
performance optimization
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
SIMD非对齐访存结构设计与实现
被引量:
3
13
作者
余成龙
王永文
机构
国防科学技术大学计算机学院
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第9期1-4,共4页
基金
国家自然科学基金资助项目"面向超高性能计算的众线程宽向量微体系结构研究"(61170045)
文摘
单指令流多数据流(SIMD)是实现数据级并行的有效方法,但访问地址非对齐的数据严重影响程序的向量化,造成处理器性能下降。为降低非对齐访存延时,对高性能应用程序的访存结构进行建模,设计并实现SIMD分离缓冲行非对齐访存结构与双体cache非对齐访存结构。实验结果表明,在双体cache非对齐访存结构下,通过两数组相加与SIMD向量化实现的非对齐访存代码可达到对齐访存代码性能的99%,提高了SIMD向量化的访存效率。
关键词
高性能计算
数据级并行
向量化
单指令流多
数据
流扩展
非对齐访存
Gem5模拟器
Keywords
high-performance computing
Data Level Parallelism ( DLP )
vectorization
Single Instruction Multiple Data (SIMD) extension
unaligned memory access
Gem5 simulator
分类号
TP302.2 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
奇偶合并排序的数据级并行实现
张珂良
李佳佳
陈钢
吴百锋
《小型微型计算机系统》
CSCD
北大核心
2012
0
在线阅读
下载PDF
职称材料
2
基于数据级任务分解的配电网分布式并行计算平台
黄伟
庞琳
曹彬
焦润海
《电网技术》
EI
CSCD
北大核心
2014
14
在线阅读
下载PDF
职称材料
3
面向科学计算可视化的两级并行数据读取加速方法
石刘
肖丽
曹立强
莫则尧
《计算机研究与发展》
EI
CSCD
北大核心
2017
3
在线阅读
下载PDF
职称材料
4
流处理器结构上数据并行类应用的开发和评估
王其刚
安虹
徐光
周丽萍
汪芳
《小型微型计算机系统》
CSCD
北大核心
2008
1
在线阅读
下载PDF
职称材料
5
萤火虫2:一种多态并行机的硬件体系结构
李涛
杨婷
易学渊
蒲林
钱博文
黄光新
黄虎才
韩俊刚
《计算机工程与科学》
CSCD
北大核心
2014
16
在线阅读
下载PDF
职称材料
6
面向RISC-V向量扩展的高性能算法库优化方法
韩柳彤
张洪滨
邢明杰
武延军
赵琛
《软件学报》
北大核心
2025
0
在线阅读
下载PDF
职称材料
7
基于异构GPU集群的并行分布式编程解决方案
李佳佳
胡新明
吴百锋
《计算机应用与软件》
CSCD
北大核心
2014
1
在线阅读
下载PDF
职称材料
8
动态图上的最短路径距离并行算法
韩硕
邹磊
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2020
4
在线阅读
下载PDF
职称材料
9
面向FT-M7002的阈值分割算法优化实现
陈云
胡伟方
王梦园
商建东
《计算机应用与软件》
北大核心
2024
0
在线阅读
下载PDF
职称材料
10
SIMD自动向量化编译优化概述
高伟
赵荣彩
韩林
庞建民
丁锐
《软件学报》
EI
CSCD
北大核心
2015
36
在线阅读
下载PDF
职称材料
11
DSP体系结构发展的新趋势
黄 峰
李胜平
朱全庆
熊召新
邹雪城
《计算机工程》
CAS
CSCD
北大核心
2002
5
在线阅读
下载PDF
职称材料
12
自动向量化:近期进展与展望
冯竞舸
贺也平
陶秋铭
《通信学报》
EI
CSCD
北大核心
2022
10
在线阅读
下载PDF
职称材料
13
SIMD非对齐访存结构设计与实现
余成龙
王永文
《计算机工程》
CAS
CSCD
北大核心
2016
3
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部