期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
面向飞腾处理器平台的快速卷积算法优化
1
作者 赵亚飞 杨耀功 +1 位作者 王永刚 魏继增 《上海理工大学学报》 CAS CSCD 北大核心 2024年第6期610-619,共10页
为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中... 为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中的访存效率。配合分块方案设计实现高性能的矩阵乘法微内核,使用向量外积运算更新数据,提高计算访存比,实现最大程度掩盖访存指令的延迟。最终实验结果表明,FastInfer在FT-2000/4处理器上的峰值计算性能达到99.56 GFLOPS。在不同输入规模的通用矩阵乘法测试中,FastInfer性能是OpenBLAS算法的1.07倍和1.52倍。在卷积测试中,FastInfer性能是ARM Compute Library算法的1.32倍,实现了在FT-2000/4多核处理器上的高性能卷积计算。 展开更多
关键词 深度学习 快速卷积算法 并行计算 通用矩阵乘法
在线阅读 下载PDF
用重叠分块牛顿法计算潮流问题 被引量:17
2
作者 蔡大用 陈玉荣 《电力系统自动化》 EI CSCD 北大核心 2001年第23期1-3,共3页
提出了一种易于并行化的重叠分块牛顿法 ,用它可对潮流方程进行快速求解。算法的关键是将雅可比矩阵划分为一系列带部分重叠的对角块 ,在几种图论方法的基础上给出具体划分的方法。用 IEEE1 1 8节点的电力系统对算法进行了串行实现 ,并... 提出了一种易于并行化的重叠分块牛顿法 ,用它可对潮流方程进行快速求解。算法的关键是将雅可比矩阵划分为一系列带部分重叠的对角块 ,在几种图论方法的基础上给出具体划分的方法。用 IEEE1 1 8节点的电力系统对算法进行了串行实现 ,并与分块简化牛顿法和牛顿法进行了比较。 展开更多
关键词 潮流计算 并行计算 重叠分块牛顿法 电力系统
在线阅读 下载PDF
基于对角划分的矩阵乘并行算法 被引量:6
3
作者 张学波 李晓梅 《计算机工程》 CAS CSCD 北大核心 2004年第6期42-43,共2页
提出了一种新的基于对角划分的矩阵乘并行算法,它在以往行列划分策略的基础上,采用基于对角划分的策略。数值试验表明该算法具有较高的加速比和并行效率。
关键词 矩阵乘 并行算法 加速比
在线阅读 下载PDF
基于FPGA的稀疏矩阵向量乘的设计研究 被引量:9
4
作者 张禾 陈客松 《计算机应用研究》 CSCD 北大核心 2014年第6期1756-1759,共4页
作为典型的不规则算法,稀疏矩阵向量乘的计算过程具有非常低的访存局部性和计算访存比,因此在基于cache的通用处理器上计算效率很低。提出了一种面向可重构计算平台的基于IEEE-754浮点数据格式标准的稀疏矩阵向量乘算法加速器的设计。... 作为典型的不规则算法,稀疏矩阵向量乘的计算过程具有非常低的访存局部性和计算访存比,因此在基于cache的通用处理器上计算效率很低。提出了一种面向可重构计算平台的基于IEEE-754浮点数据格式标准的稀疏矩阵向量乘算法加速器的设计。在一维划分的行压缩稀疏矩阵数据存储技术以及计算部件的流水化设计的基础上,提出了一种基于单个浮点加法器的无阻塞累加器设计。通过实验验证表明,简化了算法的设计提高了算法执行的并行度和外部存储器的带宽利用率,获得了相对于传统处理器1.37-2.60倍的性能加速比。 展开更多
关键词 稀疏矩阵向量乘 现场可编程逻辑门阵列 可重构计算 并行算法
在线阅读 下载PDF
一种基于De Bruijn网络结构的并行矩阵乘算法 被引量:1
5
作者 蔡昭权 魏文红 +2 位作者 王高才 郑宗晖 卢庆武 《计算机应用》 CSCD 北大核心 2009年第3期880-883,887,共5页
在De Bruijn网络中进行并行矩阵乘法运算,算法简单,容易实现。首先介绍了De Bruijn网络结构,然后提出了一种基于De Bruijn网络结构的矩阵乘法的并行算法,分析了它的加速比、效率等性能及可扩展性,通过与Cannon算法的比较,证明它的时间... 在De Bruijn网络中进行并行矩阵乘法运算,算法简单,容易实现。首先介绍了De Bruijn网络结构,然后提出了一种基于De Bruijn网络结构的矩阵乘法的并行算法,分析了它的加速比、效率等性能及可扩展性,通过与Cannon算法的比较,证明它的时间复杂度等效于Cannon算法,最后通过实验验证了这个结论的正确性。 展开更多
关键词 矩阵乘 并行算法 DE Bruijn网络
在线阅读 下载PDF
分布式并行矩阵乘算法分析 被引量:4
6
作者 陈晶 黄曙光 《兵工自动化》 2005年第5期52-54,共3页
分布式并行矩阵乘算法包括简单并行分块乘、Cannon、Fox、矩阵乘并行、B-S、B迁移和C迁移算法。并行分块乘法在同行处理器间进行多到多播送。Cannon算法可有目的地在各行和各列施行循环移位。Fox算法的行处理器施行一到多播送,列处理器... 分布式并行矩阵乘算法包括简单并行分块乘、Cannon、Fox、矩阵乘并行、B-S、B迁移和C迁移算法。并行分块乘法在同行处理器间进行多到多播送。Cannon算法可有目的地在各行和各列施行循环移位。Fox算法的行处理器施行一到多播送,列处理器施行循环单步上移。矩阵乘并行算法采取中子矩阵分配策略对各对应子矩阵相乘。B-S通过消息传递、进行数据迁移。B迁移算法可减少通讯量。C迁移算法可提高并行效率。 展开更多
关键词 矩阵乘 并行计算 算法分析
在线阅读 下载PDF
一种基于Biswapped网络的并行矩阵乘算法 被引量:1
7
作者 魏文红 李清霞 王文丰 《计算机应用》 CSCD 北大核心 2009年第12期3218-3220,共3页
为了解决矩阵乘算法并行化的问题,根据Biswapped网络结构的特点,提出了一种基于Biswapped网络结构的矩阵乘并行算法。该算法采用一种新的矩阵映射方式,该算法操作简单且容易实现。理论分析和实验表明:该算法近似等效于Cannon算法。
关键词 Biswapped网络 OTIS网络 矩阵乘 并行算法
在线阅读 下载PDF
布尔矩阵乘的分布式异构并行优化 被引量:1
8
作者 朱敏 唐波 +2 位作者 赵娟 邹丹 李金才 《计算机工程与科学》 CSCD 北大核心 2017年第4期634-640,共7页
布尔多项式求解是当今密码代数分析中的关键步骤,F4算法是布尔多项式求解的高效算法。分析了Lachartre为F4矩阵专门设计的高斯消去算法,针对其中布尔矩阵乘这一耗时的计算步骤,设计并实现了分布式异构(CPU+MIC)并行算法。布尔矩阵相对... 布尔多项式求解是当今密码代数分析中的关键步骤,F4算法是布尔多项式求解的高效算法。分析了Lachartre为F4矩阵专门设计的高斯消去算法,针对其中布尔矩阵乘这一耗时的计算步骤,设计并实现了分布式异构(CPU+MIC)并行算法。布尔矩阵相对于普通矩阵主要体现在矩阵元素取值区间不一样上,由于布尔矩阵元素(0,1)导致矩阵乘操作的特殊性,普通矩阵乘的优化方法不能很好地满足布尔矩阵乘的需求。分别从布尔矩阵的存储、OpenMP多线程组织、访存、任务划分和调度等方面进行了性能优化,实现了布尔矩阵乘的分布式异构并行算法。通过随机生成布尔矩阵测试,优化后的分布式异构并行程序相较于分布式同构并行程序达到了2.45的加速比,体现了良好的性能提升。 展开更多
关键词 F4算法 二元域 布尔矩阵乘 分布式异构并行
在线阅读 下载PDF
RAPWBN的矩阵乘法并行算法
9
作者 陈宏建 陈崚 +1 位作者 李开荣 陈莉莉 《计算机工程》 CAS CSCD 北大核心 2004年第23期31-33,110,共4页
在介绍带有宽总线网络的可重构计算阵列(RAPWBN)的基本结构及其二进制值的前缀和操作的基础上,提出了 RAPWBN 阵列上的整数求和算法,并由此得到了 RAPWBN 阵列上的两种快速高效的矩阵乘法运算并行算法。在具有 N3个处理器和 N2条行总线... 在介绍带有宽总线网络的可重构计算阵列(RAPWBN)的基本结构及其二进制值的前缀和操作的基础上,提出了 RAPWBN 阵列上的整数求和算法,并由此得到了 RAPWBN 阵列上的两种快速高效的矩阵乘法运算并行算法。在具有 N3个处理器和 N2条行总线的 RAPWBN 阵列上,若总线带宽ω>logN 字节,矩阵乘法可以在 O(1)时间完成;在具有 N2个处理器和 N 条行总线的 RAPWBN 阵列上,矩阵乘法可以在 O(N)时间完成。它们的效率都为 O(N3),达到了最优。 展开更多
关键词 并行算法 阵列 处理器 总线带宽 矩阵乘法 可重构计算 字节 整数 运算 二进制
在线阅读 下载PDF
分布异构工作站上的任务调度算法
10
作者 邬延辉 陆鑫达 曾志勇 《小型微型计算机系统》 CSCD 北大核心 2004年第4期733-737,共5页
讨论了在一个由高速局域网连接的高性能异构工作站平台上 ,如何有效地利用空闲工作站来求解计算密集型任务矩阵相乘的问题 .为了获得较好的并行计算性能 ,文中给出了一个异构工作站群之间任务调度的模型和算法 ,算法中考虑了并行计算中... 讨论了在一个由高速局域网连接的高性能异构工作站平台上 ,如何有效地利用空闲工作站来求解计算密集型任务矩阵相乘的问题 .为了获得较好的并行计算性能 ,文中给出了一个异构工作站群之间任务调度的模型和算法 ,算法中考虑了并行计算中协作任务间的通信时间、数据加载时间、结果收集时间和各个异构工作站的任务计算时间 .通过这个模型 ,可以在所有可利用的工作站集合中找出最适合的子集 。 展开更多
关键词 异构 并行计算 工作站 协调调度
在线阅读 下载PDF
从大型体数据集中生成等值面的并行算法
11
作者 黄朝晖 李晓梅 《计算机工程与科学》 CSCD 1997年第3期47-49,54,共4页
从体数据集中生成等值面是体可视化的主要技术之一。当体数据集的数据量很大时,计算量也随之增大,单处理机的存储与计算能力难以胜任其可视化要求,基于并行与分布式计算环境设计并行可视化算法是有效的办法。本文基于工作站群机系统... 从体数据集中生成等值面是体可视化的主要技术之一。当体数据集的数据量很大时,计算量也随之增大,单处理机的存储与计算能力难以胜任其可视化要求,基于并行与分布式计算环境设计并行可视化算法是有效的办法。本文基于工作站群机系统的PVM环境,设计并实现了一种有效的、从大型体数据集中生成等值面的并行算法。 展开更多
关键词 体可视化 等值面 并行算法 体数据
在线阅读 下载PDF
基于直径为2的摩尔图网络的并行矩阵乘算法
12
作者 张冰 《计算机学报》 EI CSCD 北大核心 2013年第9期1843-1849,共7页
提出了一个并行矩阵乘算法IPBPMM(Interconnected Processor-Based Parallel Matrix Multiplication).该算法运行在以五角形、Petersen图和Hoffman-Singleton图等直径为2的摩尔图(满足n=d2+1,n为节点数,d为度)为拓扑结构的由n个独立处... 提出了一个并行矩阵乘算法IPBPMM(Interconnected Processor-Based Parallel Matrix Multiplication).该算法运行在以五角形、Petersen图和Hoffman-Singleton图等直径为2的摩尔图(满足n=d2+1,n为节点数,d为度)为拓扑结构的由n个独立处理器构成的机群并行计算环境中.与基于二维环绕网孔阵列拓扑结构的Cannon和Fox等并行矩阵乘法算法相比较,IPBPMM算法通信开销较小,加速比更高,同时还具有矩阵分块可随机分布在各个节点中,无需事先按一定规律装入各节点中的特点.同时IPBPMM算法也能很好地扩充到由多个直径为2的摩尔图为拓扑结构组合构成的并行计算环境中,且随着网络的扩大,算法的并行加速比更高. 展开更多
关键词 并行算法 并行矩阵乘法 摩尔图 网络拓扑结构 并行与分布式计算 高性能计算
在线阅读 下载PDF
多核计算机上非递归并行计算矩阵乘积 被引量:5
13
作者 鹿中龙 钟诚 黄华林 《小型微型计算机系统》 CSCD 北大核心 2011年第5期860-866,共7页
提出"延迟隐藏"的数据预取模型,实现计算与访存的重叠操作,以达到共享二级缓存零缺失;给出"基本块"的概念,以简化算法的数据结构和减少存储开销;按基本块连续存储方式存储矩阵元素,从存储层次上优化算法,显著地减... 提出"延迟隐藏"的数据预取模型,实现计算与访存的重叠操作,以达到共享二级缓存零缺失;给出"基本块"的概念,以简化算法的数据结构和减少存储开销;按基本块连续存储方式存储矩阵元素,从存储层次上优化算法,显著地减少页表缓冲缺失;采取非递归调度基本块的策略,充分利用多核计算机的共享二级缓存来减少访问主存的次数,并且不局限于某种特定的存储结构,实现算法缓存无关.多核计算机上的实验结果表明,给出的非递归计算矩阵乘积的线程级并行算法高效、可扩展. 展开更多
关键词 多核计算机 矩阵乘积 并行算法 延迟隐藏 缓存无关
在线阅读 下载PDF
基于FPGA的Systolic乘法技术研究 被引量:6
14
作者 周磊涛 陶耀东 +1 位作者 刘生 李锁 《计算机工程与科学》 CSCD 北大核心 2015年第9期1632-1636,共5页
Systolic乘法是一种基于SIMD-MC2模型的矩阵乘算法,无法直接应用在单独的嵌入式系统中,所以提出一种采用FPGA技术实现Systolic乘法的方法。该方法将FPGA的硬件并行特性与巧妙的并行算法结合起来,利用FPGA灵活可编程的特点,在FPGA内部设... Systolic乘法是一种基于SIMD-MC2模型的矩阵乘算法,无法直接应用在单独的嵌入式系统中,所以提出一种采用FPGA技术实现Systolic乘法的方法。该方法将FPGA的硬件并行特性与巧妙的并行算法结合起来,利用FPGA灵活可编程的特点,在FPGA内部设计了一种基于MC2模型的节点阵列来实现Systolic乘法。实际应用中,可以灵活地修改节点单元的数量和节点的功能来满足不同规模的运算矩阵需求并充分利用FPGA的资源。仿真结果验证了该方法的正确性。实际测试结果表明:该方法具有较快的速度和较高的实时性。 展开更多
关键词 矩阵乘法 现场可编程门阵列 Systolic乘法 并行计算
在线阅读 下载PDF
面向异构架构的传递闭包并行算法 被引量:3
15
作者 肖汉 郭宝云 +1 位作者 李彩林 周清雷 《计算机工程》 CAS CSCD 北大核心 2021年第8期131-139,共9页
传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言(OpenCL)框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于Op... 传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放式计算语言(OpenCL)框架的特征,采用本地存储器优化的并行子矩阵乘和分块的矩阵乘并行计算,提出一种基于OpenCL的传递闭包并行算法。利用本地存储器优化的并行子矩阵乘算法来优化计算步骤,提高图形处理器(GPU)的存储器利用率,降低数据获取延迟。通过分块矩阵乘并行计算算法实现大数据量的矩阵乘,提高GPU计算核心的利用率。数据结果表明,与CPU串行算法、基于开放多处理的并行算法和基于统一设备计算架构的并行算法相比,传递闭包并行算法在OpenCL架构下NVIDIA GeForce GTX 1070计算平台上分别获得了593.14倍、208.62倍和1.05倍的加速比。 展开更多
关键词 矩阵乘 传递闭包 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
异构平台上基于OpenCL的矩阵乘并行算法 被引量:3
16
作者 肖汉 肖诗洋 +1 位作者 李彩林 周清雷 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第11期147-153,共7页
在分析开放式计算语言(OpenCL)平台底层硬件构架的基础上,从数据本地化、计算资源利用率和访存带宽利用率等多个不同角度优化了矩阵乘算法,并实现了矩阵乘算法在OpenCL架构下的加速.实验数据显示,与基于CPU的单线程算法、基于OpenMP多... 在分析开放式计算语言(OpenCL)平台底层硬件构架的基础上,从数据本地化、计算资源利用率和访存带宽利用率等多个不同角度优化了矩阵乘算法,并实现了矩阵乘算法在OpenCL架构下的加速.实验数据显示,与基于CPU的单线程算法、基于OpenMP多线程算法和基于统一计算设备架构(CUDA)并行算法相比,基于OpenCL架构的矩阵乘并行算法效率更高. 展开更多
关键词 矩阵乘 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
一种基于MPICH的高效矩阵相乘并行算法 被引量:2
17
作者 剡公孝 申卫昌 +1 位作者 刘骊 刘伟明 《计算机工程与应用》 CSCD 北大核心 2009年第26期72-73,117,共3页
根据MPICH并行编程环境中任务间通信的特点,设计了一种基于MPICH的矩阵相乘并行算法。根据运行在COW(工作站机群)上的进程数目将矩阵A按行划分成相应数目的子矩阵,每个进程完成一个子矩阵与矩阵B的相乘运算。实验结果表明,该算法提高了... 根据MPICH并行编程环境中任务间通信的特点,设计了一种基于MPICH的矩阵相乘并行算法。根据运行在COW(工作站机群)上的进程数目将矩阵A按行划分成相应数目的子矩阵,每个进程完成一个子矩阵与矩阵B的相乘运算。实验结果表明,该算法提高了机群并行环境中资源的利用率,提高了程序的运行效率。 展开更多
关键词 一种消息传递接口的实现(MPICH) 矩阵相乘并行算法 工作站机群
在线阅读 下载PDF
一种面向OpenCL架构的矩阵-向量乘并行算法与实现 被引量:2
18
作者 肖汉 周清雷 姚鹏姿 《小型微型计算机系统》 CSCD 北大核心 2019年第1期26-30,共5页
矩阵-向量乘法算法的时间复杂度大,传统计算方法的实时性和跨平台性难以保证.本文提出一种基于开放式计算语言(Open Computing Language,OpenCL)的矩阵-向量乘并行算法,矩阵-向量乘法过程被分解成若干具有不同粒度的子任务.根据相应的... 矩阵-向量乘法算法的时间复杂度大,传统计算方法的实时性和跨平台性难以保证.本文提出一种基于开放式计算语言(Open Computing Language,OpenCL)的矩阵-向量乘并行算法,矩阵-向量乘法过程被分解成若干具有不同粒度的子任务.根据相应的并行度,每个工作组进行矩阵中的行块与列向量的乘积,每个工作项进行行块中行向量与列向量的乘积,并把计算任务分别分配到计算单元和处理单元进行处理.实验结果表明,与基于CPU的串行算法、基于OpenMP并行算法和基于统一计算设备架构(Compute Unified Device Architecture,CUDA)并行算法性能相比,矩阵-向量乘并行算法在OpenCL架构下NVIDIA图形处理器(Graphic Processing Unit,GPU)计算平台上分别获得了20. 86倍、6. 39倍和1. 49倍的加速比.验证了提出的并行优化方法的有效性和性能可移植性. 展开更多
关键词 矩阵-向量乘 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
基于BLACS的2.5D并行矩阵乘法 被引量:1
19
作者 廖霞 李胜国 +1 位作者 卢宇彤 杨灿群 《计算机学报》 EI CAS CSCD 北大核心 2021年第5期1037-1050,共14页
并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之... 并行矩阵乘法是线性代数中最重要的基本运算之一,同时也是许多科学应用的基石.随着高性能计算(HPC)向E级计算发展,并行矩阵乘法的通信开销所占比重越来越大.如何降低并行矩阵乘法的通信开销,提高并行矩阵乘的可扩展性是当前研究的热点之一.本文提出一种新型的分布式并行稠密矩阵乘算法,即2.5D版本的PUMMA(Parallel Universal Matrix Multiplication Algorithm)算法,该算法是通过将初始的进程分成c组,利用计算节点的额外内存,在每个进程组上同时存储矩阵A、B和执行1/c的PUMMA算法,最后通过规约操作来得到矩阵乘的最终结果.本文基于BLACS(Basic Linear Algebra Communication Subprograms)通信库实现了一种从2D到2.5D的新型数据重分配算法,与PUMMA算法相结合,最终得到2.5D PUMMA算法,可直接替换PDGEMM(Parallel Double-precision General Matrix-matrix Multiplication),具有良好的可移植性.与国际标准算法库ScaLAPACK(Scalable Linear Algebra PACKage)中的PDGEMM等经典2D算法相比,本文算法缩减了通信次数,提高了数据局部性,具有更好的可扩展性.在进程数较多时,例如4096进程时,系统测试表明相对PDGEMM的加速比可达到2.20~2.93.进一步地,本文将2.5D PUMMA算法应用于加速计算对称三对角矩阵的特征值分解,其加速比可达到1.2以上.本文通过大量数值算例分析了2.5D PUMMA算法的性能,并给出了实用性建议和总结了未来的工作. 展开更多
关键词 2.5D并行矩阵乘算法 SCALAPACK PUMMA矩阵乘算法 SUMMA算法 分布式并行
在线阅读 下载PDF
针对SW26010众核处理器的单精度矩阵乘算法 被引量:1
20
作者 武铮 许乐 +2 位作者 安虹 金旭 文可 《小型微型计算机系统》 CSCD 北大核心 2023年第4期673-681,共9页
矩阵乘作为许多科学应用中被频繁使用的关键部分,其计算量巨大且稠密的本质,使得高性能计算领域中矩阵乘并行算法的研究一直是经久不衰的热门话题.随着我国自主研发的申威众核处理器SW26010在科学计算和人工智能领域的快速发展,对面向SW... 矩阵乘作为许多科学应用中被频繁使用的关键部分,其计算量巨大且稠密的本质,使得高性能计算领域中矩阵乘并行算法的研究一直是经久不衰的热门话题.随着我国自主研发的申威众核处理器SW26010在科学计算和人工智能领域的快速发展,对面向SW26010众核处理器的高性能矩阵乘算法提出了迫切的需求.针对SW26010众核处理器的体系结构特征,首次对单精度矩阵乘实现进行了深入探讨,提出了3种不同存储层次的高性能并行算法.在进行算法设计时,计算方面,结合该处理器的从核双流水,从汇编层面手动控制核心计算任务的指令序列,保证了高效的指令级并行;访存方面,综合考虑了有限片上存储资源的有效使用,以及访存任务和计算任务的交叉并行,实现了计算访存的平衡以及算法整体性能的提升.实验结果显示,与该处理器上最先进的官方数学库xMath中的单精度矩阵乘实现相比,运行时峰值性能提升了6.8%,达到了理论峰值性能的86.17%;在基于不同矩阵乘场景的通用性比较中,95.33%的场景中性能更高,最高性能加速比达到247.9%,平均性能加速比为61.66%. 展开更多
关键词 众核处理器 矩阵乘 计算机系统结构 高性能计算 并行算法
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部