期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于GPU对角稀疏矩阵向量乘法的动态划分算法
1
作者 涂进兴 李志雄 黄建强 《计算机应用》 CSCD 北大核心 2024年第11期3521-3529,共9页
在图形处理器(GPU)上实现对角稀疏矩阵向量乘法(SpMV)可以充分利用GPU的并行计算能力,并加速矩阵向量乘法;然而,相关主流算法存在零元填充数据多、计算效率低的问题。针对上述问题,提出一种对角SpMV算法DIA-Dynamic(DIAgonal-Dynamic)... 在图形处理器(GPU)上实现对角稀疏矩阵向量乘法(SpMV)可以充分利用GPU的并行计算能力,并加速矩阵向量乘法;然而,相关主流算法存在零元填充数据多、计算效率低的问题。针对上述问题,提出一种对角SpMV算法DIA-Dynamic(DIAgonal-Dynamic)。首先,设计一种全新的动态划分策略,根据矩阵的不同特征进行分块,在保证GPU高计算效率的同时大幅减少零元填充,去除冗余计算量;其次,提出一种对角稀疏矩阵存储格式BDIA(Block DIAgonal)存储分块数据,并调整数据布局,提高GPU上的访存性能;最后,基于GPU的底层进行条件分支优化,以减少分支判断,并使用动态共享内存解决向量的不规则访问问题。DIA-Dynamic与前沿Tile SpMV算法相比,平均加速比达到了1.88;与前沿BRCSD(Diagonal Compressed Storage based on Row-Blocks)-Ⅱ算法相比,平均零元填充减少了43%,平均加速比达到了1.70。实验结果表明,DIA-Dynamic能够有效提高GPU上对角SpMV的计算效率,缩短计算时间,提升程序性能。 展开更多
关键词 图形处理器 对角稀疏矩阵 稀疏矩阵向量乘法 动态划分 共享内存
在线阅读 下载PDF
稀疏矩阵向量乘法在申威众核架构上的性能优化 被引量:15
2
作者 李亿渊 薛巍 +4 位作者 陈德训 王欣亮 许平 张武生 杨广文 《计算机学报》 EI CSCD 北大核心 2020年第6期1037-1051,共15页
计算机数值模拟是现代科学和技术发展的重要触发力量.在数值模拟中,求解大规模稀疏线性方程组是非常重要的一个环节.迭代求解过程中稀疏矩阵向量乘法是耗时最长的计算核心之一,存在严重的数据局部性差、写冲突、负载不均衡等问题.因此,... 计算机数值模拟是现代科学和技术发展的重要触发力量.在数值模拟中,求解大规模稀疏线性方程组是非常重要的一个环节.迭代求解过程中稀疏矩阵向量乘法是耗时最长的计算核心之一,存在严重的数据局部性差、写冲突、负载不均衡等问题.因此,稀疏矩阵向量乘法已经成为了当前性能优化的难点和研究热点.本文面向国产众核处理器架构,以申威26010国产众核处理器为平台,针对稀疏矩阵向量乘法,在线程级和指令级并行层面上进行细粒度的并行算法设计和优化实现.其核心思想是,将众核架构设计精巧的矩阵分层分块技术用于矩阵存储、访问和任务调度,在保证右端向量数据复用的同时有效实现了负载均衡,避免了申威26010上因频繁缓存判断和细粒度访问导致的潜在性能问题.通过对SuiteSparse矩阵集合中的2710个算例的测试,该算法可以获得与主核上的串行算法相比11.7倍的平均加速和55倍的最高加速. 展开更多
关键词 申威众核处理器 并行计算 矩阵向量乘法 矩阵格式 稀疏矩阵计算
在线阅读 下载PDF
基于高预测性的稀疏矩阵向量乘法并行计算优化 被引量:2
3
作者 夏天 付格林 +2 位作者 曲劭儒 罗中沛 任鹏举 《计算机研究与发展》 EI CSCD 北大核心 2023年第9期1973-1987,共15页
稀疏矩阵向量乘法(sparse matrix-vector multiplication,SpMV)是广泛应用于科学计算、工业仿真和智能计算等领域的重要算法,是核心的计算行为之一.在一些应用场景中,需要进行多次的SpMV迭代,以完成精确的数值模拟、线性代数求解和图分... 稀疏矩阵向量乘法(sparse matrix-vector multiplication,SpMV)是广泛应用于科学计算、工业仿真和智能计算等领域的重要算法,是核心的计算行为之一.在一些应用场景中,需要进行多次的SpMV迭代,以完成精确的数值模拟、线性代数求解和图分析收敛等计算要求.受限于SpMV本身的高度随机性和稀疏性所导致的数据局部性极差、缓存效率极低、计算模式非常不规则等问题,导致其计算负载成为当前高性能处理器的优化难点和研究热点.基于现代高性能超标量乱序处理器的架构特征,深入研究SpMV的各类性能瓶颈,并且提出从提升可预测性和降低程序复杂度的角度进行全面的性能优化.其核心思想是:通过构建串行访问的数据结构,提升数据访问的规律性和局部性,大幅度优化数据预取效率和缓存利用效率;通过构建规则的分支跳转条件,提升程序的分支预测准确率,有效提升程序执行效率;通过灵活运用SIMD指令集,有效提升计算资源利用率.通过对以上特性的优化,该方法可以显著缓解性能瓶颈,大幅度提升处理器资源、缓存资源和访存带宽的利用率,并且获得与主流商用计算库MKL相比平均2.6倍的加速比,相比于现有最先进算法获得平均1.3倍的加速比. 展开更多
关键词 矩阵向量乘法 稀疏矩阵计算 矩阵格式 分支预测 数据预取
在线阅读 下载PDF
基于申威1621的通用矩阵向量乘法的性能分析与优化 被引量:2
4
作者 邓洁 赵荣彩 王磊 《计算机应用》 CSCD 北大核心 2022年第S01期215-220,共6页
通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一... 通用矩阵向量乘法(GEMV)函数是整个二级基础线性代数子程序(BLAS)函数库的构建基础,BLAS作为关键基础计算软件之一,目前在申威处理器上却没有一个高性能实现的版本。针对上述问题,为充分发挥申威1621平台的高性能BLAS库计算优势,提出一种基于申威1621的通用矩阵向量乘法的性能分析与优化方法。首先对GEMV函数进行计算重排序、循环分块的改进;然后采取单指令多数据流(SIMD)以及指令重排的优化方式;最后对内存分配方式进行择优选择。测试结果表明,GEMV函数平均性能达到GotoBLAS版的2.17倍。在使用堆栈分配内存空间或增加对y向量步长的判断分支两种方案后,相较于GotoBLAS,小规模矩阵的平均性能由2.265倍提升至2.875倍。为提高大规模矩阵的性能,以及发挥申威1621多核处理器并行机制,在开启4线程后,平均性能达到单核的3.57倍。因此,优化后的GEMV函数在申威平台上较好的体现了并行效果。 展开更多
关键词 申威1621 基础线性代数子程序函数库 单指令多数据流 通用矩阵向量乘法 性能优化
在线阅读 下载PDF
选择粗化函数优化并行稀疏矩阵向量乘法
5
作者 叶纬材 《中山大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第5期50-53,共4页
讨论了如何分划稀疏矩阵的非零元素以减少并行矩阵向量乘法的通信代价。通过以粗化函数为工具,统一现有的数据分划方法;提出一种基于行列分划为初解的粗化函数选取方法,在理论上的证明其运行效率与分划质量不逊于一维数据分划方法;实验... 讨论了如何分划稀疏矩阵的非零元素以减少并行矩阵向量乘法的通信代价。通过以粗化函数为工具,统一现有的数据分划方法;提出一种基于行列分划为初解的粗化函数选取方法,在理论上的证明其运行效率与分划质量不逊于一维数据分划方法;实验数据表明,该方法产生分划质量超过一维数据分划方法的结果,接近甚至超过二维细粒度方上法的结果。 展开更多
关键词 选择粗化函数 数据分划 并行 稀疏矩阵向量乘法
在线阅读 下载PDF
输入感知的通用矩阵-向量乘算法在Hygon DCU的自适应性能优化
6
作者 李庆 贾海鹏 +1 位作者 张云泉 张思佳 《计算机科学》 北大核心 2025年第4期291-300,共10页
GEMV(通用矩阵-向量乘法函数)是BLAS(基础线性代数子程序)算法库的核心组成部分,广泛用于计算机科学、工程计算和数学计算等领域。当前,随着国产Hygon DCU版本的不断迭代升级,Hygon DCU与传统GPU生产商之间也存在一定的竞争优势;随着GEM... GEMV(通用矩阵-向量乘法函数)是BLAS(基础线性代数子程序)算法库的核心组成部分,广泛用于计算机科学、工程计算和数学计算等领域。当前,随着国产Hygon DCU版本的不断迭代升级,Hygon DCU与传统GPU生产商之间也存在一定的竞争优势;随着GEMV应用领域的不断扩大,GEMV的输入特征体现出多样化的趋势。在这种背景下,单纯靠一种优化方法,无法实现GEMV算法在GPU计算平台上所有输入情况下的高性能。因此,在访存优化、指令重排、并行规约、共享内存、线程排布等传统优化手段的基础上,提出了一种输入感知的性能自适应优化方法,其能够根据输入矩阵的不同规模和形状自动调整计算kernel的实现方式以达到最佳性能,显著提高了GEMV在Hygon DCU上的性能。实验结果表明,在Hygon DCU Z100SM上,输入感知的通用矩阵-向量乘算法的整体性能明显优于RocBLAS库中的相关算法,对于不同的矩阵输入规模,性能最大提升为RocBLAS库中对应算法的3.0203倍。 展开更多
关键词 通用矩阵-向量乘法 DCU 基础线性代数子程序函数库 自适应调优 性能优化
在线阅读 下载PDF
基于三值逻辑光学处理器实现向量矩阵乘法 被引量:16
7
作者 李梅 金翊 +1 位作者 何华灿 滕亮 《计算机应用研究》 CSCD 北大核心 2009年第8期2839-2841,共3页
向量矩阵乘法是一种应用广泛的运算,用光学方法实现向量矩阵乘法能够充分发挥光处理的并行优势,旨在提出一种新的实现向量矩阵乘法的光学方法。受到三值逻辑光学处理器结构的启发,提出用该处理器实现二进制向量矩阵乘法,这个新方法能够... 向量矩阵乘法是一种应用广泛的运算,用光学方法实现向量矩阵乘法能够充分发挥光处理的并行优势,旨在提出一种新的实现向量矩阵乘法的光学方法。受到三值逻辑光学处理器结构的启发,提出用该处理器实现二进制向量矩阵乘法,这个新方法能够克服传统光学向量矩阵乘法器结构中存在的一些不足。详细说明了实现的原理和过程,并讨论了这种新方法的优点,最后展望了这种新型的光学处理器的发展前景。 展开更多
关键词 向量矩阵乘法 光学向量矩阵乘法 光学处理器 三值逻辑
在线阅读 下载PDF
一种实现平衡三进制向量矩阵乘法的光学方法 被引量:7
8
作者 李梅 何华灿 +2 位作者 金翊 谌章义 左开中 《计算机应用研究》 CSCD 北大核心 2009年第10期3812-3814,共3页
提出了一种实现平衡三进制向量矩阵乘法的光学方法。在文献[5,6]的工作基础之上,受到三值光学计算机具有处理三值信息能力的启发,继续研究三值光学向量矩阵乘法的实现,提出平衡三进制光学向量矩阵乘法的实现方法。详细说明了该方法的原... 提出了一种实现平衡三进制向量矩阵乘法的光学方法。在文献[5,6]的工作基础之上,受到三值光学计算机具有处理三值信息能力的启发,继续研究三值光学向量矩阵乘法的实现,提出平衡三进制光学向量矩阵乘法的实现方法。详细说明了该方法的原理和工作步骤,并通过实验验证该方法的正确性,讨论分析了光学向量矩阵乘法的优点以及三值光学向量矩阵乘法的优势所在。 展开更多
关键词 向量矩阵乘法 光学向量矩阵乘法 光学处理器 三值逻辑
在线阅读 下载PDF
光学向量矩阵乘法器的进展 被引量:2
9
作者 张锐 杨建坤 +2 位作者 李修建 胡文华 叶瑞泉 《仪器仪表学报》 EI CAS CSCD 北大核心 2006年第z1期960-962,共3页
经过对目前国际上研究前沿的光计算技术中处于核心地位的光学向量矩阵乘法器(OVMM)进行深入的调研,本文主要介绍了某些类型的光学向量-矩阵乘法器的结构和原理,以及国内外最新的研究进展和应用前景。并根据国内外同行在此领域已经获得... 经过对目前国际上研究前沿的光计算技术中处于核心地位的光学向量矩阵乘法器(OVMM)进行深入的调研,本文主要介绍了某些类型的光学向量-矩阵乘法器的结构和原理,以及国内外最新的研究进展和应用前景。并根据国内外同行在此领域已经获得的研究成果,经过综合分析,拟提出对将来光计算技术的进一步发展具建设性意义的看法。 展开更多
关键词 光计算 光学向量矩阵乘法 光互联
在线阅读 下载PDF
SparseMode:用于高效SpMV向量化代码生成的稀疏编译框架
10
作者 王昊天 丁岩 +2 位作者 何贤浩 肖国庆 阳王东 《计算机研究与发展》 北大核心 2025年第6期1443-1454,共12页
稀疏矩阵向量乘法(sparse matrix-vector multiplication,SpMV)是数值计算中的核心操作,广泛应用于科学计算、工程模拟以及机器学习中.SpMV的性能优化主要受限于不规则的稀疏模式,传统的优化通常依赖手动设计存储格式、计算策略和内存... 稀疏矩阵向量乘法(sparse matrix-vector multiplication,SpMV)是数值计算中的核心操作,广泛应用于科学计算、工程模拟以及机器学习中.SpMV的性能优化主要受限于不规则的稀疏模式,传统的优化通常依赖手动设计存储格式、计算策略和内存访问模式.现有张量编译器如TACO和TVM通过领域特定语言(domain specific language,DSL)可实现高性能算子生成,减轻开发人员繁琐的手动优化工作,但对稀疏计算的优化支持尚显不足,难以根据不同的稀疏模式自适应优化性能.为了解决这些问题,提出了名为SparseMode的稀疏编译框架,能够依据矩阵的稀疏模式为SpMV计算生成高效的向量化代码,并根据硬件平台的特性自适应地调整优化策略.该编译框架首先设计了领域专属语言SpMV-DSL,能够简洁高效地表达SpMV的稀疏矩阵和计算操作.然后提出了基于稀疏模式感知的方法,根据SpMV-DSL定义的矩阵存储格式和非零元素分布动态选择计算策略.最后通过稀疏模式分析和调度优化生成高效并行的SpMV算子代码,以充分利用SIMD指令提升性能.在不同硬件平台上的SpMV实验结果表明,SparseMode生成的SpMV算子代码相较于现有的TACO和TVM张量编译器实现了最高2.44倍的加速比. 展开更多
关键词 稀疏矩阵向量乘法 编译器 稀疏模式 高性能计算 向量
在线阅读 下载PDF
用于光学向量矩阵乘法器的光源阵列系统
11
作者 卢洋洋 周平 +2 位作者 朱巍巍 张磊 杨林 《红外与激光工程》 EI CSCD 北大核心 2014年第1期133-139,共7页
对用于光学向量矩阵乘法器的16路阵列光源和驱动电路进行了系统的研究。提出了采用商用分布式反馈激光器(DFB)和16路光纤阵列耦合的方式构造阵列光源模块,并且在驱动电路中设计了功率反馈自校正调节算法,解决了由于当前激光器制造工艺... 对用于光学向量矩阵乘法器的16路阵列光源和驱动电路进行了系统的研究。提出了采用商用分布式反馈激光器(DFB)和16路光纤阵列耦合的方式构造阵列光源模块,并且在驱动电路中设计了功率反馈自校正调节算法,解决了由于当前激光器制造工艺条件的限制而造成的各路激光器之间的阈值电流和P-I转换效率等参数差异问题。实现了光源系统各个通道间的输入向量数据和输出光强之间的一致性映射。实验结果证明,所研究开发的光源阵列不仅成本低,而且数据源信号的高频响应性能良好,保证了光学向量矩阵乘法器运算性能的稳定性和准确性。 展开更多
关键词 光学向量矩阵乘法器(OVMM) 分布式反馈激光器(DFB) 光纤阵列 驱动电路 自校正
在线阅读 下载PDF
TEB:GPU上矩阵分解重构的高效SpMV存储格式 被引量:2
12
作者 王宇华 张宇琪 +2 位作者 何俊飞 徐悦竹 崔环宇 《计算机科学与探索》 CSCD 北大核心 2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的... 稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。 展开更多
关键词 稀疏矩阵向量乘法(SpMV) 重新排序 CSR格式 负载均衡 存储格式 图形处理器(GPU)
在线阅读 下载PDF
基于HYB格式SpMV在新一代申威架构上的实现与优化 被引量:1
13
作者 王鑫 彭健 《计算机工程与科学》 CSCD 北大核心 2023年第10期1754-1762,共9页
稀疏矩阵与稠密向量乘SpMV在高性能计算领域有着广泛的应用。稀疏矩阵因其非零元素分布的稀疏性和不规则性,使得运算的并行化较稠密矩阵难度更大。因此,稀疏矩阵向量乘法的性能优化一直都是高性能计算领域中的研究重点。基于稀疏矩阵的... 稀疏矩阵与稠密向量乘SpMV在高性能计算领域有着广泛的应用。稀疏矩阵因其非零元素分布的稀疏性和不规则性,使得运算的并行化较稠密矩阵难度更大。因此,稀疏矩阵向量乘法的性能优化一直都是高性能计算领域中的研究重点。基于稀疏矩阵的HYB存储格式,面向国产新一代申威异构众核处理器SW26010P,设计了一种并行SpMV算法及其性能优化方案。并针对HYB存储格式的阈值选取难点,提出了一种多次迭代最大类间方差的方法,以确定HYB格式的阈值。实验结果表明,相比主核上的串行算法,并行SpMV算法可以获得23.36的平均加速比和34.85的最高加速比。 展开更多
关键词 申威众核处理器 稀疏矩阵向量乘法 最大类间方差法 并行计算
在线阅读 下载PDF
一种车载毫米波FMCW MIMO雷达快速成像方法 被引量:4
14
作者 黄以兰 晋良念 刘庆华 《雷达科学与技术》 北大核心 2022年第2期128-135,141,共9页
针对车载毫米波FMCW MIMO雷达现有的常规波束形成算法的旁瓣效应造成的方位向分辨率低以及高分辨算法的工程实时性低的问题,提出了一种迭代自适应算法(IAA)高分辨成像的快速实现方法。该方法首先利用快速傅里叶变换(FFT)获取目标一维距... 针对车载毫米波FMCW MIMO雷达现有的常规波束形成算法的旁瓣效应造成的方位向分辨率低以及高分辨算法的工程实时性低的问题,提出了一种迭代自适应算法(IAA)高分辨成像的快速实现方法。该方法首先利用快速傅里叶变换(FFT)获取目标一维距离像,然后对每一距离单元利用FFT算子和Gohberg-Semencul(GS)因子分解计算迭代自适应算法(IAA)的数据协方差矩阵和其逆矩阵,利用快速Toeplitz矩阵向量乘法计算IAA迭代值,从整体上提升了IAA估计各角度散射系数的实时性。仿真和实验结果验证了该方法的可行性和有效性。 展开更多
关键词 车载毫米波FMCW MIMO雷达 高分辨成像 快速迭代自适应算法(FIAA) Toeplitz矩阵向量乘法
在线阅读 下载PDF
利用数据稀疏性的LSTM加速器设计 被引量:3
15
作者 高琛 张帆 高彦钊 《电子学报》 EI CAS CSCD 北大核心 2021年第2期209-215,共7页
针对长短时记忆神经网络(Long Short-Term Memory,LSTM)模型计算开销大、冗余计算较多的问题,本文提出一种利用输入数据稀疏性的LSTM加速器设计方案.本方案基于Delta网络算法,对输入序列的稀疏性进行构建,在避免数据不规则加载的前提下... 针对长短时记忆神经网络(Long Short-Term Memory,LSTM)模型计算开销大、冗余计算较多的问题,本文提出一种利用输入数据稀疏性的LSTM加速器设计方案.本方案基于Delta网络算法,对输入序列的稀疏性进行构建,在避免数据不规则加载的前提下,对冗余矩阵向量乘法运算进行过滤;针对矩阵向量乘法计算模式进行建模,寻找最高效的并行阵列计算架构设计.在MNIST标准数据集上的实验表明,当Delta网络算法的过滤门限不超过0.5时,LSTM神经网络算法检测准确率不变,计算性能提高了21.53倍. 展开更多
关键词 长短时记忆神经网络 现场可编程逻辑门阵列 稀疏性 矩阵向量乘法
在线阅读 下载PDF
基于自选尾数压缩的高能效浮点忆阻存内处理系统 被引量:2
16
作者 丁文隆 汪承宁 童薇 《计算机研究与发展》 EI CSCD 北大核心 2022年第3期533-552,共20页
矩阵向量乘法(matrix-vector multiplication, MVM)运算是高性能科学线性系统求解的重要计算内核.Feinberg等人最近的工作提出了将高精度浮点数部署在忆阻阵列上的方法,显示出其在加速科学MVM运算方面的巨大潜力.由于科学计算不同类型... 矩阵向量乘法(matrix-vector multiplication, MVM)运算是高性能科学线性系统求解的重要计算内核.Feinberg等人最近的工作提出了将高精度浮点数部署在忆阻阵列上的方法,显示出其在加速科学MVM运算方面的巨大潜力.由于科学计算不同类型的应用对于求解精度的要求各不相同,为具体应用提供合适的计算方式是进一步降低系统能耗的有效途径.展示了一种拥有尾数压缩与对齐位优化策略的系统,在实现高精度浮点数忆阻MVM运算这一基本功能的前提下,能够根据具体应用的求解精度要求选择合适的浮点数尾数压缩位数.通过忽略浮点数尾数权重较小的部分低位与冗余的对齐位的阵列激活,减小运算时阵列及外围电路的能耗.评估结果表明:当忆阻器求解相对于软件基线平均分别有0~10;数量级的求解残差时,平均运算阵列能耗与模数转换器能耗相对于已有的优化前的系统分别减少了5%~65%与30%~55%. 展开更多
关键词 忆阻器阵列 模拟矩阵向量乘法 高能效科学计算 存内并行处理系统 稀疏线性代数系统
在线阅读 下载PDF
一种用于图形渲染的高性能SpMV专用加速器结构 被引量:1
17
作者 邓军勇 马青青 《小型微型计算机系统》 CSCD 北大核心 2021年第3期584-588,共5页
图形渲染中涉及的几何变换、投影变换、视口变换等需要大量稀疏矩阵向量乘法(Sparse Matrix-Vector Multiplication,SpM V)运算,如何实现SpMV高性能计算成为了图形处理器设计中的关键性问题之一,然而,当前的SpMV运算存在并行度较差,资... 图形渲染中涉及的几何变换、投影变换、视口变换等需要大量稀疏矩阵向量乘法(Sparse Matrix-Vector Multiplication,SpM V)运算,如何实现SpMV高性能计算成为了图形处理器设计中的关键性问题之一,然而,当前的SpMV运算存在并行度较差,资源占用较多等问题.为提升硬件运算的性能,本文基于矩阵列向量的线性组合,充分利用数据的并行性,设计了一种专用加速器结构.实验表明,在XC6VLX550T开发板上与其他两种结构相比,速度分别能够提高28%、37%,资源占用率分别减少约48%、18%,应用于图形渲染中的变换操作后,速度分别能够提高28%、30%,资源占用率分别最高减少约48%、60%. 展开更多
关键词 图形渲染 稀疏矩阵向量乘法 并行度 矩阵向量的线性组合
在线阅读 下载PDF
基于FPGA的电磁瞬态仿真器研究 被引量:3
18
作者 刘志恒 孟晓凯 +1 位作者 张帆 冉宁 《高电压技术》 EI CAS CSCD 北大核心 2019年第7期2046-2052,共7页
为了提高配电网故障电磁瞬态特性的实时仿真效率,避免复杂的现场可编程门阵列(field-programmable gatearray,FPGA)编程,本文研究了一种基于FPGA的自动实时电磁瞬态仿真器。首先通过综合改进的增广节点分析(modified augmented nodal an... 为了提高配电网故障电磁瞬态特性的实时仿真效率,避免复杂的现场可编程门阵列(field-programmable gatearray,FPGA)编程,本文研究了一种基于FPGA的自动实时电磁瞬态仿真器。首先通过综合改进的增广节点分析(modified augmented nodal analysis, MANA)方法和固定的导纳矩阵节点方法(fixed admittance matrix nodal method,FAMNM)构建了求解器;然后基于开关电导参数的最优选择,建立了高效的稀疏矩阵-向量乘法器;最后通过对三相配电网络中的单相接地故障后电磁瞬态特性进行测试,验证了仿真器的性能。实验结果表明:MANA-FAMNM的特殊结构可以实现极低的积分时间步长,并且避免了仿真器重新设计FPGA代码,该应用程序可直接用于不同的拓扑结构;仿真器能够实时精确地再现配电网故障中发生的电磁瞬态特性以及在传输线中传播的电磁波,FPGA-RTS仿真与软件EMTP-RV离线仿真的C相相电压值的最大误差约为0.006pu,完全满足工程应用的要求。该仿真器可以推广到工业实时嵌入系统中。 展开更多
关键词 自动实时仿真 电磁瞬变 FPGA-RTS 矩阵-向量乘法 求解器 单相接地故障
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部