期刊文献+
共找到342篇文章
< 1 2 18 >
每页显示 20 50 100
面向天河新一代超算系统的大规模精确对角化方法
1
作者 李彪 刘杰 王庆林 《计算机研究与发展》 北大核心 2025年第6期1347-1362,共16页
精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的... 精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的数据级并行算法,提出了面向天河新一代超算系统上的超大稀疏哈密顿矩阵向量乘异构并行算法,可以实现基于一维Hubbard模型的大规模精确对角化.提出的并行算法在天河新一代超算系统上进行了测试,其中在1400亿维度矩阵规模上,8192进程相比256进程强扩展效率为55.27%,而弱扩展到7300亿维度矩阵规模上,13740个进程相比64进程的弱扩展效率保持在51.25%以上. 展开更多
关键词 精确对角化 HUBBARD模型 异构并行计算 MT-3000处理器 量子多体系统
在线阅读 下载PDF
面向SW26010-Pro众核处理器的新型矩阵存储格式及稀疏矩阵向量乘(SpMV)算法研究
2
作者 王萃 刘芳芳 +2 位作者 马文静 赵玉文 胡力娟 《计算机学报》 北大核心 2025年第6期1290-1304,共15页
稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)是高性能计算、人工智能大模型领域中的关键操作,其性能通常对应用程序整体性能的提升具有重要影响。高效的稀疏矩阵存储格式是影响SpMV性能的重要因素,然而,现有的稀疏矩阵... 稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,SpMV)是高性能计算、人工智能大模型领域中的关键操作,其性能通常对应用程序整体性能的提升具有重要影响。高效的稀疏矩阵存储格式是影响SpMV性能的重要因素,然而,现有的稀疏矩阵存储格式主要通过压缩零元素以减少访存,未充分利用非零元素的数值规律,因此仍有进一步压缩和优化的空间。本文通过对压缩稀疏行(Compressed Sparse Row,CSR)存储格式中非零元数组内的重复元素进行进一步的压缩,提出了一种新型的稀疏矩阵存储格式(Further Compressed Sparse Row,FCSR),并设计了从CSR到FCSR格式转换的异构并行算法,以尽量减少格式转换带来的开销。同时,本文面向SW26010-Pro众核处理器,设计了基于FCSR存储格式的SpMV异构并行算法,对SpMV进行了细粒度的任务划分和并行优化设计,探究了五种向量x的间接访存方式,并通过双缓冲技术对算法进行了优化。最后,本文选用SuiteSparse矩阵集中的稀疏矩阵进行了测试,实验结果表明,本文提出的基于FCSR存储格式的异构众核SpMV算法相较于主核版SpMV算法具有明显的性能提升,最高加速比达到43.11,平均加速比为7.56,测试矩阵最高带宽利用率达到了91.13%,平均带宽利用率为26.27%。另外,本文对基于FCSR存储格式和CSR存储格式的SpMV算法性能进行了比较,在两者均得到充分优化的前提下,基于FCSR存储格式的SpMV算法相较于基于CSR存储格式的SpMV算法性能的平均加速比达到1.19。 展开更多
关键词 稀疏矩阵向量乘 SW26010-Pro众核处理器 新型矩阵存储格式 并行优化 双缓冲技术
在线阅读 下载PDF
特定并行处理机上MUSIC算法的并行实现 被引量:11
3
作者 刘皓 魏平 肖先赐 《系统工程与电子技术》 EI CSCD 北大核心 2001年第1期86-89,共4页
用自行研制的一台使用 4片TMS32 0C40 ,且利用共享内存作为主要通讯手段的数字信号高速并行处理机实现了MUSIC算法的高速并行计算。实验证明 ,所提出的并行算法稳定、有效 ,MUSIC算法的并行计算取得了较好的结果。
关键词 并行处理机 并行算法 数字信号处理 MUSIC算法
在线阅读 下载PDF
图像特征的CNN提取方法及其应用 被引量:6
4
作者 雷国伟 吕迎阳 +2 位作者 纪安妮 吴孙桃 郭东辉 《计算机工程与应用》 CSCD 北大核心 2004年第14期204-206,216,共4页
图像特征的提取是视觉图像识别的重要方法之一,采用细胞神经网络(CNN)并行处理器进行图像特征的提取具有实时快速的优点。该文将介绍CNN并行处理器的基本工作原理及其实现图像特征处理的逻辑组合通用方法,并以图像的纹理分割与识别为例... 图像特征的提取是视觉图像识别的重要方法之一,采用细胞神经网络(CNN)并行处理器进行图像特征的提取具有实时快速的优点。该文将介绍CNN并行处理器的基本工作原理及其实现图像特征处理的逻辑组合通用方法,并以图像的纹理分割与识别为例来说明CNN并行处理器应用于视觉图像识别的通用编程方法。 展开更多
关键词 CNN 并行处理器 图像识别
在线阅读 下载PDF
并行加工设备组生产调度的一般模型及算法 被引量:4
5
作者 黄德才 徐宗俊 +2 位作者 杨丹 胡立德 王时龙 《重庆大学学报(自然科学版)》 CAS CSCD 1994年第1期46-51,共6页
给出了一个描述并行加工设备组生产调度问题的一般模型及两个启发式算法(极大消去法和ELPT方法),对ELPT方法,另提供了一个误差分析结果,对极大消去法给出了一个数值计算实例。
关键词 并行 加工设备组 生产管理 调度
在线阅读 下载PDF
一种异构多核系统动态调度协处理器设计
6
作者 曾树铭 倪伟 《合肥工业大学学报(自然科学版)》 北大核心 2025年第2期185-195,共11页
为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理... 为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理、任务自动映射、通讯任务乱序执行等机制。实验结果表明,该动态调度协处理器不仅能够实现任务级乱序执行等基本设计目标,还具有极低的调度开销,相较于基于动态记分牌算法的调度器,运行多个子孔径距离压缩算法的时间降低达17.13%。研究结果证明文章设计的动态调度协处理器能够有效优化目标场景下的任务调度效果。 展开更多
关键词 动态调度 硬件调度器 异构多核系统 任务级并行 编程模型 片上缓存 片上网络
在线阅读 下载PDF
网络处理器的分析与研究 被引量:62
7
作者 谭章熹 林闯 +1 位作者 任丰源 周文江 《软件学报》 EI CSCD 北大核心 2003年第2期253-267,共15页
目前,网络在提高链路速率的同时出现了大量的新协议及新服务,而传统的网络设备一般采用专用硬件芯片或者基于纯粹的软件方案,很难兼顾性能与灵活性两方面的要求.为此,一种并行可编程的网络处理器被引入到路由器(交换机)的处理层面.它基... 目前,网络在提高链路速率的同时出现了大量的新协议及新服务,而传统的网络设备一般采用专用硬件芯片或者基于纯粹的软件方案,很难兼顾性能与灵活性两方面的要求.为此,一种并行可编程的网络处理器被引入到路由器(交换机)的处理层面.它基于ASIP技术对网络程序处理进行了优化,同时还兼有硬件和软件两种方案的特点.网络处理器的出现将经典的存储-转发结构变为存储-处理-转发,这为复杂的QoS控制和负载处理提供了可能.从网络处理器本身及其应用两个角度出发,介绍了相关的研究工作,分析了系统特点和面临的挑战,并展望其未来的发展方向. 展开更多
关键词 网络处理器 计算机网络 并行处理 路由器 服务质量
在线阅读 下载PDF
同等并行处理机上独立任务的调度 被引量:9
8
作者 康一梅 郑应平 《自动化学报》 EI CSCD 北大核心 1997年第1期81-84,共4页
n个独立任务在m个同等并行处理机上处理,使总完成时间最小的非抢先调度是确定性调度理论的一个基本问题.文中提出一种算法——BoundFit算法,它的最坏情况性能至少和MULTIFIT算法一样甚至更好。
关键词 同等并行处理机 非抢先调度 启发式算法
在线阅读 下载PDF
多核处理器大规模并行系统中的任务分配问题及算法 被引量:15
9
作者 刘轶 张昕 +1 位作者 李鹤 钱德沛 《小型微型计算机系统》 CSCD 北大核心 2008年第5期972-975,共4页
对基于多核处理器的大规模并行系统中的任务分配问题进行了分析讨论,在此基础上建立了任务分配模型,并提出一种基于迭代的任务分配算法,该算法分为两轮操作,分别完成进程到处理节点和进程内线程到处理器核的分配,每轮操作经过带回溯的... 对基于多核处理器的大规模并行系统中的任务分配问题进行了分析讨论,在此基础上建立了任务分配模型,并提出一种基于迭代的任务分配算法,该算法分为两轮操作,分别完成进程到处理节点和进程内线程到处理器核的分配,每轮操作经过带回溯的多次迭代处理,最终得到任务关系图的划分.实验数据表明该算法能在较短时间内求得近优解,并且当线程个数增大时,算法的求解时间远小于遗传算法. 展开更多
关键词 任务分配 多核处理器 并行计算 启发式算法
在线阅读 下载PDF
一个低代价的完全自适应路由器设计 被引量:2
10
作者 刘燕 孙利民 +1 位作者 杨晓东 王志英 《电子学报》 EI CAS CSCD 北大核心 1998年第11期1-5,共5页
互连网络路由器是MPP系统的关键部件,其性能优劣直接影响系统性能.本文在mesh结构上,针对完全自适应路由算法实现难度较大的问题,在性能、代价和实现复杂性上进行合理折衷,给出了一个代价低、自适应性强的完全自适应路由算法LCFAA... 互连网络路由器是MPP系统的关键部件,其性能优劣直接影响系统性能.本文在mesh结构上,针对完全自适应路由算法实现难度较大的问题,在性能、代价和实现复杂性上进行合理折衷,给出了一个代价低、自适应性强的完全自适应路由算法LCFAA,对传统的虫孔路由切换技术进行改进,提出了弹性虫孔路由切换技术(elasticwormhole),并采用基于虚通道的综合流控策略,设计了一个简洁高效的完全自适应路由器LFR。 展开更多
关键词 并行处理机 MPP 完全自适应路由 虚通道 死锁
在线阅读 下载PDF
并行计算机在现代雷达信号处理中的应用 被引量:8
11
作者 黄鸿勋 王秀春 《现代雷达》 CSCD 北大核心 2004年第3期25-28,32,共5页
现代各种体制的雷达 ,包括地基雷达、舰载雷达、机载雷达和星载雷达如想提高雷达性能 ,就要大力提高信号处理和数据处理速度 ,目前国内外均采用现成商用大规模并行处理机。这些处理机的型号较多 ,文中着重介绍美国成功研制的MP 2 ,因为M... 现代各种体制的雷达 ,包括地基雷达、舰载雷达、机载雷达和星载雷达如想提高雷达性能 ,就要大力提高信号处理和数据处理速度 ,目前国内外均采用现成商用大规模并行处理机。这些处理机的型号较多 ,文中着重介绍美国成功研制的MP 2 ,因为MP 2在美国THAAD和NMD地基雷达中得到了成功应用。 展开更多
关键词 雷达 信号处理 并行处理机 多处理机
在线阅读 下载PDF
一种可扩展的并行处理器模型设计及性能评估 被引量:6
12
作者 陈鹏 袁雅婧 +1 位作者 桑红石 张天序 《航空兵器》 2011年第5期56-61,共6页
开发和设计并行处理器是一种有效提高图像处理速度的方法。本文分析了国内外近年来各种并行处理器的发展状况,提出了一种可扩展的面向图像处理的并行处理器架构(EPIP)和专用指令集。该架构复用多个流处理单元(SP)以单指令多数据流方式... 开发和设计并行处理器是一种有效提高图像处理速度的方法。本文分析了国内外近年来各种并行处理器的发展状况,提出了一种可扩展的面向图像处理的并行处理器架构(EPIP)和专用指令集。该架构复用多个流处理单元(SP)以单指令多数据流方式组织充分实现了数据级并行。单个流处理单元内采用超长指令字(VLIW)技术和并行多线程技术(SMT)分别实现指令级并行和任务级并行。专用指令集支持对私有寄存器和共享寄存器的混合寻址。利用SystemVerilog对该架构进行时钟精确建模,并将常见图像处理算法在该结构上进行了映射。最后给出了EPIP初步的性能评估结果。 展开更多
关键词 并行处理器 图像处理 微体系结构 SYSTEMVERILOG 仿真模型
在线阅读 下载PDF
CPU/GPU异构混合并行的栅格数据空间分析研究——以地形因子计算为例 被引量:9
13
作者 卢敏 王金茵 +2 位作者 卢刚 陶伟东 王结臣 《计算机工程与应用》 CSCD 北大核心 2017年第1期172-177,共6页
海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的... 海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的设备间任务划分,进行CPU与GPU异构混合的并行技术改良研究。实验结果表明,基于相同的单机硬件环境,与多核共享内存模型或众核流处理器的单一计算平台并行方案相比,CPU/GPU异构混合并行计算方法对于栅格数据分析具有更好的加速效果。 展开更多
关键词 GIS栅格数据分析 共享内存模型 流处理器模型 CPU/GPU异构混合并行
在线阅读 下载PDF
一种支持细粒度并行的SDN虚拟化编程框架 被引量:15
14
作者 宋平 刘轶 +3 位作者 刘驰 张晶晶 钱德沛 郝沁汾 《软件学报》 EI CSCD 北大核心 2014年第10期2220-2234,共15页
软件定义网络(software defined network,简称SDN)通过集中式的控制器提高了网络的可编程性,成为近年来网络领域非常热门的话题.以Openflow网络为代表的软件定义网络将逻辑控制与数据转发相隔离,为网络虚拟化技术提供了良好的平台.集中... 软件定义网络(software defined network,简称SDN)通过集中式的控制器提高了网络的可编程性,成为近年来网络领域非常热门的话题.以Openflow网络为代表的软件定义网络将逻辑控制与数据转发相隔离,为网络虚拟化技术提供了良好的平台.集中式的抽象与控制使得SDN虚拟化框架的处理效率成为主要瓶颈.现有的SDN虚拟化框架由于缺乏对细粒度并行的支持,为编程人员充分利用多核/众核资源、控制更大规模的网络带来了极大的挑战.为了提高SDN虚拟化框架的处理效率,提出一种新的SDN虚拟化编程框架,通过新颖的API和运行时,在框架内部支持细粒度的并行处理.该框架通过对网络中流和网络资源进行抽象,使开发人员可以直接通过划分流空间来定义不同的虚拟网络,利用无锁的编程方式对共享的网络资源和流进行操作.实验结果表明,该框架在逻辑控制的执行效率方面具有良好的可扩展性,可以创建出更大规模的虚拟网络,并对其进行更为复杂的控制. 展开更多
关键词 SDN虚拟化 事件编程 细粒度并行 众核处理器
在线阅读 下载PDF
并行计算机与并行算法述评 被引量:5
15
作者 赵晖 赵仕波 张志华 《成都理工大学学报(自然科学版)》 CAS CSCD 1996年第S1期117-123,共7页
并行计算是大规模科学工程计算和数据处理的一个重要工具和必然趋势,本文从并行计算机系统和并行算法两个方面论述了并行处理的基本原理和方法。
关键词 并行处理 向量机 并行处理机 并行算法
在线阅读 下载PDF
基于多核DSP激光成像雷达数据处理系统 被引量:13
16
作者 张文广 鲁敏 +2 位作者 郭裕兰 滕书华 张军 《激光与红外》 CAS CSCD 北大核心 2015年第11期1385-1391,共7页
采用多核DSP设计了一个用于地面目标检测的激光雷达实时图像处理系统。在详细分析算法各模块资源消耗量的基础上,完成了硬件电路设计,实现了以主辅拓扑结构为框架的软件并行处理系统开发。在系统实现时,先将图像进行分区,并合理地将分... 采用多核DSP设计了一个用于地面目标检测的激光雷达实时图像处理系统。在详细分析算法各模块资源消耗量的基础上,完成了硬件电路设计,实现了以主辅拓扑结构为框架的软件并行处理系统开发。在系统实现时,先将图像进行分区,并合理地将分区后的图像分配到四个DSP核中进行处理。最后,将并行系统进一步扩展到双核和六核,并与单核系统进行性能比较。对算法运算时间的测试结果表明,系统处理一帧图像仅需50 ms达到了实时性要求。结果表明,对于固定负载的处理系统,单纯地通过增加并行的核数来提高加速比的幅度是有限的。当增加并行的核数已不能明显地提高计算效率时,在系统设计中应着重减少每个核串行运算的负载量。 展开更多
关键词 激光雷达 图像处理系统 多核DSP 并行计算 目标检测
在线阅读 下载PDF
面向分组密码的可重构异构多核并行处理架构 被引量:7
17
作者 冯晓 李伟 +2 位作者 戴紫彬 马超 李功丽 《电子学报》 EI CAS CSCD 北大核心 2017年第6期1311-1320,共10页
现有的可重构分组密码实现结构中,专用指令处理器吞吐率不高,阵列结构资源利用率低、算法映射过程复杂.为此,设计了分组密码可重构异构多核并行处理架构RAMCA(Reconfigurable Asymmetrical Multi-Core Architecture),分析了典型SP(AES-1... 现有的可重构分组密码实现结构中,专用指令处理器吞吐率不高,阵列结构资源利用率低、算法映射过程复杂.为此,设计了分组密码可重构异构多核并行处理架构RAMCA(Reconfigurable Asymmetrical Multi-Core Architecture),分析了典型SP(AES-128)、Feistel(SMS4)、L-M(IDEA)及MISTY(KASUMI)结构算法在RAMCA上的映射过程.在65nm CMOS工艺下完成了逻辑综合和功能仿真.实验表明,RAMCA工作频率可达到1GHz,面积约为1.13mm2,消除工艺影响后,对各分组密码算法的运算速度均高于现有专用指令处理器以及Celator、RCPA和BCORE等阵列结构密码处理系统. 展开更多
关键词 分组密码 异构多核 可重构 并行处理 密码处理器
在线阅读 下载PDF
一种最佳的Mesh中的空闲子网搜索算法 被引量:2
18
作者 张艳 孙世新 彭文钦 《系统工程与电子技术》 EI CSCD 北大核心 2001年第4期83-86,共4页
在并行机系统中为了获得系统的高性能 ,对任务进行处理的有效分配是至关重要的 ,这需要用最小的时间开销识别所有的空闲处理机。针对网格多处理机的子网分配 ,提出了一种新的子网搜索算法 ,该算法实现简单 ,时间复杂度为O(N2 a·log... 在并行机系统中为了获得系统的高性能 ,对任务进行处理的有效分配是至关重要的 ,这需要用最小的时间开销识别所有的空闲处理机。针对网格多处理机的子网分配 ,提出了一种新的子网搜索算法 ,该算法实现简单 ,时间复杂度为O(N2 a·log2 Na,Na 为已分配子网数 ) ,优于现有的时间复杂度为O(N3a) 展开更多
关键词 并行处理机 空闭子网搜索算法 并行计算机
在线阅读 下载PDF
数字多波束形成在SHARC处理器上的实现 被引量:3
19
作者 王昆 王宇 +2 位作者 蒋蜀革 邢涛 王砚方 《数据采集与处理》 CSCD 1999年第4期429-432,共4页
波束形成是声纳信号处理系统中的核心部分——通过空间滤波取得空间增益的处理方法。数字多波束形成的算法具有I/O数据率高、计算量大的特点,在普通处理器上难以实现。文中介绍了一种采用高性能DSP处理器SHARC实现实时数字... 波束形成是声纳信号处理系统中的核心部分——通过空间滤波取得空间增益的处理方法。数字多波束形成的算法具有I/O数据率高、计算量大的特点,在普通处理器上难以实现。文中介绍了一种采用高性能DSP处理器SHARC实现实时数字多波束形成的处理方案,着重于其中的并行处理。 展开更多
关键词 波束形成 SHARC处理器 声纳 信号处理 船舰
在线阅读 下载PDF
基于多核平台的乐观并行离散事件仿真 被引量:9
20
作者 苏年乐 吴雪阳 +2 位作者 李群 王维平 朱一凡 《系统仿真学报》 CAS CSCD 北大核心 2010年第4期858-863,共6页
计算机处理器的发展已进入多核时代,为并行离散事件仿真的推广提供了良好的契机。分析了离散事件仿真多核并行化的并行编程模型及时间同步问题,采用乐观同步协议设计实现了一个基于多核平台的并行离散事件仿真引擎。在具有8个执行核的... 计算机处理器的发展已进入多核时代,为并行离散事件仿真的推广提供了良好的契机。分析了离散事件仿真多核并行化的并行编程模型及时间同步问题,采用乐观同步协议设计实现了一个基于多核平台的并行离散事件仿真引擎。在具有8个执行核的惠普多核服务器上,使用Phold模型系统地测试了并行仿真引擎的各项开销以及事件粒度、进程数目、前瞻量、事件的本地性对仿真性能的影响。实验结果表明,对于事件粒度较大的仿真应用,基于多核平台的乐观并行离散事件仿真能获得良好的加速比。 展开更多
关键词 多核 单芯片多处理器 并行离散事件仿真 时间同步 仿真引擎
在线阅读 下载PDF
上一页 1 2 18 下一页 到第
使用帮助 返回顶部