期刊文献+
共找到84篇文章
< 1 2 5 >
每页显示 20 50 100
面向多核的并行编程和优化研究 被引量:11
1
作者 戴晨 陈鹏 +1 位作者 杨冬蕾 张为华 《计算机应用与软件》 CSCD 北大核心 2013年第12期198-202,279,共6页
随着多核乃至众核平台的普及,面向多核的并行编程和优化已成为计算机领域研究的热点。然而,绝大多数程序员还依然延续着传统的串行编程习惯,而且目前的主流算法仍以串行为主。因此,如何有效地将串行程序并行化和如何高效地编写多核程序... 随着多核乃至众核平台的普及,面向多核的并行编程和优化已成为计算机领域研究的热点。然而,绝大多数程序员还依然延续着传统的串行编程习惯,而且目前的主流算法仍以串行为主。因此,如何有效地将串行程序并行化和如何高效地编写多核程序成为多核编程领域亟待解决的问题。对多核编程和优化技术的现状进行全面的研究和分析,在论述如何将串行程序并行化的同时,分析现今主流的一些多核并行编程工具和模型。在此基础上,进一步讨论了在多核编程过程中影响程序性能的因素,并阐述了软硬件领域针对多核编程所做的优化。在对各个研究项目进行分析和评价的基础上,也对面向多核的并行编程和优化技术可能的发展方向进行了展望。 展开更多
关键词 并行编程 多核 并行工具 并行模型
在线阅读 下载PDF
基于多核处理器的并行编程模型 被引量:13
2
作者 伊君翰 《计算机工程》 CAS CSCD 北大核心 2009年第8期62-64,共3页
为解决传统编程模型与并行架构间存在的矛盾,针对多媒体和网络应用程序的特点,提出一种基于多核处理器的并行编程模型,该模型采用节点化的并行程序描述方式,将并行编译器划分到多个核上运行。实验结果表明,这种新的并行编程模型能有效... 为解决传统编程模型与并行架构间存在的矛盾,针对多媒体和网络应用程序的特点,提出一种基于多核处理器的并行编程模型,该模型采用节点化的并行程序描述方式,将并行编译器划分到多个核上运行。实验结果表明,这种新的并行编程模型能有效提高程序的执行效率。 展开更多
关键词 编程模型 并行 多核 编译器
在线阅读 下载PDF
Java PIE:在Internet上延伸并行编程交互环境研究
3
作者 俞一峻 王琦 +2 位作者 施武 臧斌宇 朱传琪 《计算机研究与发展》 EI CSCD 北大核心 1999年第2期230-233,共4页
JavaPIE是并行程序设计交互环境在Internet上的延伸,其设计目标是借助并行程序设计交互环境ParaPIE和自动并行化编译工具AFT的底层支持,通过Java实现的交互工具达到更理想的移植性、开放性和及时共享性... JavaPIE是并行程序设计交互环境在Internet上的延伸,其设计目标是借助并行程序设计交互环境ParaPIE和自动并行化编译工具AFT的底层支持,通过Java实现的交互工具达到更理想的移植性、开放性和及时共享性.它将并行化编译方法、程序语义分析技术、交互信息可视化工具、实验分析脚本文档有机地结合在一起,并在Internet上延伸出来,为蓬勃地开展并行程序设计交互环境的国际化合作研究开辟了广阔的前景.文中介绍了JavaPIE系统的实现原理和应用原型。 展开更多
关键词 INTERNET网 JavaPIE 并行编程环境
在线阅读 下载PDF
并行化编译中递归标量的优化处理 被引量:1
4
作者 王诚 臧斌宇 +1 位作者 朱家菁 朱传琪 《软件学报》 EI CSCD 北大核心 1999年第1期100-106,共7页
提出了一种并行化编译中统一处理递归标量的通用方法.该方法将递归标量的处理转化为差分方程(组)的求解,然后利用Z变换与反Z变换来求解方程(组).提高了并行化编译器对递归标量的处理能力。
关键词 递归标量 相关性分析 差分方程 并行化编译
在线阅读 下载PDF
通用处理器加速器研究综述 被引量:1
5
作者 陆祎 卜国强 《计算机应用与软件》 CSCD 北大核心 2013年第8期4-8,共5页
加速器是一种辅助通用处理器实现某些特定应用高效处理的硬件部件,可以用来解决当前通用处理器设计过程中存在的性能瓶颈问题。目前主流的加速器研究主要包括高效的加速器设计和有效地与通用处理器协作两个方面,这些研究对扩展加速器的... 加速器是一种辅助通用处理器实现某些特定应用高效处理的硬件部件,可以用来解决当前通用处理器设计过程中存在的性能瓶颈问题。目前主流的加速器研究主要包括高效的加速器设计和有效地与通用处理器协作两个方面,这些研究对扩展加速器的应用领域和更有效地利用加速器所提供的计算资源来提升应用程序的性能有着十分重要的意义。对当前加速器研究领域中的热点问题进行调研和归纳,在对各个研究项目进行分析和评价的基础上,也对加速器可能的发展方向进行展望。 展开更多
关键词 加速器 可编程化 多核 众核化 数据通信优化
在线阅读 下载PDF
面向深度学习的数据存储技术综述 被引量:1
6
作者 贺巩山 赵传磊 +2 位作者 蒋金虎 张为华 陈左宁 《计算机学报》 北大核心 2025年第5期1013-1064,共52页
随着数据总量和计算能力的不断提升,以深度学习和大模型为代表的人工智能技术获得了迅速的发展,并成功应用于计算机视觉和自然语言处理等领域。然而,随着GPU等加速器运算速度的提高,数据存储已经成为了深度学习训练和推理的主要瓶颈之一... 随着数据总量和计算能力的不断提升,以深度学习和大模型为代表的人工智能技术获得了迅速的发展,并成功应用于计算机视觉和自然语言处理等领域。然而,随着GPU等加速器运算速度的提高,数据存储已经成为了深度学习训练和推理的主要瓶颈之一,主要表现为:(1)数据集的规模快速增长,无法完全缓存在内存中;(2)若无额外处理,数据集主要由小文件组成。在每轮训练中,训练任务会随机读取训练集中的文件;(3)与GPU等加速器相比,存储设备的带宽增长缓慢,二者之间的差距正在不断变大;(4)模型参数和中间数据等模型状态非常大,经常超过GPU等加速器的存储容量,出现了内存墙的问题;(5)为了实现容错,训练任务通常会执行检查点操作,保存最新的模型状态,但这引入了较高的性能开销。因此,面向人工智能(尤其是深度学习)的数据存储技术成为了热门的研究领域,受到了学术界和工业界的广泛关注。本文首先介绍了深度学习的相关背景,包括流程、模型以及分布式训练。其次,本文总结了深度学习的数据特点,包括数据集和模型的规模与类型,以及数据准备(包括数据加载和数据预处理)和模型计算(包括模型训练和模型推理)的数据访问模式。接着,本文分析了深度学习在数据加载、数据预处理以及模型计算阶段的数据存储需求,提出了面向深度学习的数据存储技术研究框架。然后,本文梳理了现有的相关工作,并根据针对的阶段不同将其分为3类:(1)面向数据加载的存储优化技术关注于如何加速数据加载阶段,包括数据集存储格式、数据集存储系统、数据集缓存系统以及数据加载器;(2)面向数据预处理的存储优化技术关注于如何加速数据预处理阶段,包括数据预处理流水线、分离式数据预处理、数据预处理缓存以及近存储数据预处理;(3)面向模型计算的存储优化技术关注于如何加速模型计算阶段,包括模型状态存储技术、模型训练容错技术、模型存储系统以及性能测试与分析工具。最后,本文讨论了现有工作存在的问题,提出了未来可能的研究方向。 展开更多
关键词 深度学习 数据存储技术 数据加载优化 数据预处理优化 模型计算优化
在线阅读 下载PDF
程序自动并行化系统 被引量:34
7
作者 朱传琪 臧斌宇 陈彤 《软件学报》 EI CSCD 北大核心 1996年第3期180-186,共7页
有效的自动并行化系统能帮助用户充分地利用并行计算机资源.本文介绍了自动并行化的历史及现状,并着重介绍了作者所开发的自动并行化系统AFT(automaticFortrantransformer)及其特色和所用的关键技术... 有效的自动并行化系统能帮助用户充分地利用并行计算机资源.本文介绍了自动并行化的历史及现状,并着重介绍了作者所开发的自动并行化系统AFT(automaticFortrantransformer)及其特色和所用的关键技术.测试结果表明AFT系统在功能上已超越了传统的自动并行化系统. 展开更多
关键词 程序并行化 并行计算机 自动并行化系统
在线阅读 下载PDF
自动寻找使多重串行循环并行化的幺模变换 被引量:3
8
作者 俞一峻 臧斌宇 +1 位作者 施武 朱传琪 《软件学报》 EI CSCD 北大核心 1999年第4期366-371,共6页
对于已知n维距离向量矩阵的多重串行循环,过去的并行化编译研究还缺乏寻找使循环外层并行化的幺模矩阵的可行算法.文章介绍了多重串行循环并行化的幺模变换方法,不仅从理论上证明满足外层并行化要求的合法幺模矩阵是存在的,而且通... 对于已知n维距离向量矩阵的多重串行循环,过去的并行化编译研究还缺乏寻找使循环外层并行化的幺模矩阵的可行算法.文章介绍了多重串行循环并行化的幺模变换方法,不仅从理论上证明满足外层并行化要求的合法幺模矩阵是存在的,而且通过构造性证明给出一个计算外层并行化幺模变换矩阵的可行算法,并探讨了扩大其适用范围于非完全嵌套和非常数相关距离循环的有效途径. 展开更多
关键词 自动并行化变换 幺模变换 并行化编译
在线阅读 下载PDF
非必要内存重用的COMMON变量的识别和处理 被引量:1
9
作者 韦俊银 方燕宝 +1 位作者 李靖 朱传琪 《计算机工程》 CAS CSCD 北大核心 2002年第2期18-20,共3页
在程序中,公用块的使用有时是为了重复利用某一内存区域,这给数据划分和分布带来了不必要的麻烦。该文提出了数据生Fortran命期的概念,借鉴数组私有化中的相关技术,通过计算子程序公用块中数组的暴露集等方法,对非必要内存重用的变量进... 在程序中,公用块的使用有时是为了重复利用某一内存区域,这给数据划分和分布带来了不必要的麻烦。该文提出了数据生Fortran命期的概念,借鉴数组私有化中的相关技术,通过计算子程序公用块中数组的暴露集等方法,对非必要内存重用的变量进行识别COMMON和处理。 展开更多
关键词 数据分布 数组私有化 COMMON变量 识别 内存重用 并行编译 FORTRAN语言
在线阅读 下载PDF
一类不规则问题的自动并行性识别
10
作者 李靖 臧斌宇 朱传琪 《软件学报》 EI CSCD 北大核心 2002年第6期1178-1186,共9页
传统的数据相关性分析主要针对线性数组下标表达式,并不适用于不规则计算中的循环并行性识别.利用间接数组特征分析和基于严格数组私有化定义的运行时动态测试技术来解决包含间接数组下标引用的循环并行性判断问题,给出性能估测,并与相... 传统的数据相关性分析主要针对线性数组下标表达式,并不适用于不规则计算中的循环并行性识别.利用间接数组特征分析和基于严格数组私有化定义的运行时动态测试技术来解决包含间接数组下标引用的循环并行性判断问题,给出性能估测,并与相关工作进行了比较. 展开更多
关键词 不规则问题 自动并行性识别 并行编译 数组
在线阅读 下载PDF
二维SIMD体系结构研究与模拟器实现
11
作者 王晔 臧斌宇 朱传琪 《计算机工程与应用》 CSCD 北大核心 2007年第25期60-62,120,共4页
二维SIMD结构是指一个由N×N的处理单元按一定的拓扑结构连接组成的阵列结构,其同行/列的处理单元以SIMD方式工作。二维SIMD结构作为多媒体加速部件广泛应用在各种多媒体处理的SOC中,因此其体系结构的设计是获得高性能多媒体计算的... 二维SIMD结构是指一个由N×N的处理单元按一定的拓扑结构连接组成的阵列结构,其同行/列的处理单元以SIMD方式工作。二维SIMD结构作为多媒体加速部件广泛应用在各种多媒体处理的SOC中,因此其体系结构的设计是获得高性能多媒体计算的重要因素。结合多媒体应用程序的特点,研究分析不同设计参数对二维SIMD结构性能的影响,并设计实现了一个二维SIMD结构的性能模拟器。实验结果显示了二维SIMD结构对多媒体程序有很好的加速比并证实了研究分析结论。 展开更多
关键词 二维SIMD 体系结构 多媒体 模拟器
在线阅读 下载PDF
利用U模变换增加并行粒度与改善数据访问局部性的方法 被引量:4
12
作者 马国凯 王欣孃 +2 位作者 王鹏 臧斌宇 朱传琪 《计算机学报》 EI CSCD 北大核心 2004年第4期516-523,共8页
提出了一种利用循环变换增加循环并行粒度 ,改善循环数据访问局部性的方法 .该方法利用了给定二重循环的相关向量集的某些性质 ,将外层循环变量不同而内层循环变量相等的若干次迭代合并 ,成为折叠后迭代空间的一个结点 ,并且保持内层循... 提出了一种利用循环变换增加循环并行粒度 ,改善循环数据访问局部性的方法 .该方法利用了给定二重循环的相关向量集的某些性质 ,将外层循环变量不同而内层循环变量相等的若干次迭代合并 ,成为折叠后迭代空间的一个结点 ,并且保持内层循环的并行性不变 ,从而达到增加循环并行粒度的目的 .对于更普遍的情况 ,该文讨论了如何根据给定循环的循环向量集 ,确定一个U模变换对迭代空间进行变换 ,达到内层循环可并行和扩大循环粒度两个目的 .针对循环变换中数据访问局部性可能变差的问题 ,该文提出了对内层循环先合并 ,根据合并后的相关向量集变换迭代空间 ,以及折叠迭代空间的方法 .该文的方法是wavefront循环并行化方法的一种扩展 . 展开更多
关键词 循环变换 并行化编译 U模变换 迭代空间折叠 数据访问局部性 wavefront方法
在线阅读 下载PDF
基于位宽控制提高SIMD架构并行度的优化算法 被引量:5
13
作者 张为华 朱嘉华 +1 位作者 张宏江 臧斌宇 《计算机学报》 EI CSCD 北大核心 2009年第11期2168-2177,共10页
随着SIMD功能单元作为多媒体加速部件的广泛应用,如何有效利用这一构架优化应用程序成为编译优化研究的热点.目前典型的SIMD结构为同一操作对不同的数据位宽提供了不同的指令版本,随着操作数位宽的增加,对应的SIMD指令可同时完成的操作... 随着SIMD功能单元作为多媒体加速部件的广泛应用,如何有效利用这一构架优化应用程序成为编译优化研究的热点.目前典型的SIMD结构为同一操作对不同的数据位宽提供了不同的指令版本,随着操作数位宽的增加,对应的SIMD指令可同时完成的操作个数也随之降低.因此,如何有效识别操作数的有效位宽,对提高优化过程中SIMD指令内操作的并行度将产生至关重要的影响.文中针对SIMD优化面临的并行度问题,提出了一种优化算法,该算法在对操作数的有效位进行分析的基础上,进行溢出控制,从而减少操作数对宽位宽数据类型的依赖.实验数据表明,该算法可以有效提高多媒体程序优化的并行度,对多媒体程序获得较好的加速效果. 展开更多
关键词 有效位控制 溢出处理 饱和算术 编译优化 并行度
在线阅读 下载PDF
多处理机系统循环间数据重用的cache优化 被引量:3
14
作者 丁永华 原庆能 +1 位作者 臧斌宇 朱传琪 《软件学报》 EI CSCD 北大核心 1998年第8期580-585,共6页
cache的使用缓解了CPU和主存储器之间速度差距太大的矛盾,同时,也使cache的命中率成为影响多处理机系统性能发挥的重要因素.人们对如何加强数据的局部性,提高cache命中率,使多处理机系统的性能得到更好的发挥进... cache的使用缓解了CPU和主存储器之间速度差距太大的矛盾,同时,也使cache的命中率成为影响多处理机系统性能发挥的重要因素.人们对如何加强数据的局部性,提高cache命中率,使多处理机系统的性能得到更好的发挥进行了积极的探索.但过去的工作主要集中于如何加强并行循环内的数据局部性,减少甚至消除并行循环内真假共享cache行所引起的cache抖动,对多处理机系统中循环间数据重用的开发和利用却少有论述.该文对如何开发和利用这些循环间数据重用进行了分析和讨论,并提出了一些切实可行、易于实现的方法.这些方法的应用能够有效地提高cache的命中率。 展开更多
关键词 多处理机系统 高速缓冲 数据重用 最佳化
在线阅读 下载PDF
程序自动并行化系统中IR的面向对象设计 被引量:3
15
作者 张瑜 黄波 朱传琪 《计算机工程》 CAS CSCD 北大核心 1999年第11期5-7,共3页
从构造一个高性能的程序自动并行化系统的需求出发,介绍了程序自动并行化系统AGASSIZ中IR(IntermediateRepresentation)的设计原则与设计方法,阐明了此种IR的设计给整个程序自动并行化系统的... 从构造一个高性能的程序自动并行化系统的需求出发,介绍了程序自动并行化系统AGASSIZ中IR(IntermediateRepresentation)的设计原则与设计方法,阐明了此种IR的设计给整个程序自动并行化系统的设计所带来的便利。 展开更多
关键词 程序自动并行化 IR 面向对象 并行编译
在线阅读 下载PDF
计算机体系结构基准测试程序集的研究 被引量:3
16
作者 吕超 戴晨 张为华 《计算机应用与软件》 CSCD 北大核心 2013年第10期189-194,共6页
随着计算机体系结构研究的不断深入,特别是近两年来针对众核、异构等新型体系结构的研究不断增多,挑选合适的基准测试程序集对各种设计进行科学公正的评估,已成为体系结构设计中不可或缺的环节之一。通过调研近年来计算机体系结构相关... 随着计算机体系结构研究的不断深入,特别是近两年来针对众核、异构等新型体系结构的研究不断增多,挑选合适的基准测试程序集对各种设计进行科学公正的评估,已成为体系结构设计中不可或缺的环节之一。通过调研近年来计算机体系结构相关的研究成果,从基准测试程序集的角度,详细介绍和分析了现代计算机体系结构研究中基准测试程序集的分类、特性、评估以及采用情况。并讨论了测试程序集的相关发展方向。 展开更多
关键词 计算机 体系结构 基准测试程序集
在线阅读 下载PDF
多媒体程序中消除控制相关的技术研究 被引量:1
17
作者 张宏江 臧斌宇 朱传琪 《计算机工程与科学》 CSCD 2006年第11期91-95,99,共6页
随着多媒体应用的快速发展,最大程度地提升多媒体程序的性能逐渐变为计算机领域研究的热点。硬件平台和多媒体程序的特点是该领域研究需要关注的两个主要方面,当前的主流桌面处理器在提升主频的同时也增大了分支预测失误的开销,而多媒... 随着多媒体应用的快速发展,最大程度地提升多媒体程序的性能逐渐变为计算机领域研究的热点。硬件平台和多媒体程序的特点是该领域研究需要关注的两个主要方面,当前的主流桌面处理器在提升主频的同时也增大了分支预测失误的开销,而多媒体应用程序中分支语句的大量使用进一步增大了分支预测失误的概率。我们在优化多媒体程序测试包BMW(BerkeleyMultimediaWorkload)过程中发现,通过消除程序中的控制相关,尽量减少程序中的分支指令可以显著地提升程序的性能。本文首先讨论了多媒体程序中消除控制相关的一些基本优化方法。针对当前主流处理器引入多媒体扩展指令集来优化程序的趋势,本文进一步总结了在SIMD架构下使用多媒体扩展指令集消除控制相关的方法。这两方面的优化方法应用到实际程序中,得到的平均性能提升分别为7%和26%。 展开更多
关键词 控制相关 多媒体程序优化 多媒体扩展指令集 分支预测
在线阅读 下载PDF
可重配置处理器的体系结构级功耗模型与分析
18
作者 肖玮 臧斌宇 朱传琪 《计算机工程与应用》 CSCD 北大核心 2007年第26期34-37,40,共5页
按照可重配置处理器的体系结构建立并实现功耗模型;模型对处理器的电路级特性进行抽象,基于体系结构级属性和工艺参数进行静态峰值功耗估算,基于性能模拟器进行动态功耗统计,并实现三种条件时钟下的门控技术;可重配置处理器与超标量通... 按照可重配置处理器的体系结构建立并实现功耗模型;模型对处理器的电路级特性进行抽象,基于体系结构级属性和工艺参数进行静态峰值功耗估算,基于性能模拟器进行动态功耗统计,并实现三种条件时钟下的门控技术;可重配置处理器与超标量通用微处理器相比,在性能方面获得的平均加速比为3.59,而在功耗方面的平均增长率仅为1.48;通过实验还说明采用简单的CC1门控技术能有效地降低可重配置系统的功耗和硬件复杂度;该模型为可重配置处理器低功耗设计和编译器级低功耗优化研究奠定了基础。 展开更多
关键词 可重配置处理器 体系结构级功耗模型 参数化功耗模型 动态功耗模型 低功耗优化
在线阅读 下载PDF
基于特性分析的SURF加速方法研究
19
作者 胡益斌 肖菁 +2 位作者 戴卓方 李戈 张为华 《计算机应用与软件》 CSCD 北大核心 2012年第9期18-22,共5页
针对典型图像特征提取算法SURF速度偏慢的问题,深入分析该算法在运行时间、指令类型、内存访问、热点等方面的特性。在此基础上,运用重构判断逻辑、重构内存访问与数据组织形式、重构库函数实现等策略对SURF算法进行优化。并通过实验,... 针对典型图像特征提取算法SURF速度偏慢的问题,深入分析该算法在运行时间、指令类型、内存访问、热点等方面的特性。在此基础上,运用重构判断逻辑、重构内存访问与数据组织形式、重构库函数实现等策略对SURF算法进行优化。并通过实验,分析各种优化策略对算法的加速作用。实验数据显示,这些优化策略可以在保证算法100%精确的前提下,有效地提高SURF算法的运行效率,最终达到2.75X的性能提升。 展开更多
关键词 SURF(speeded up ROBUST feature) 特性分析 加速
在线阅读 下载PDF
程序潜在最大并行程度分析方法及其实现
20
作者 施武 朱传琪 《计算机工程与设计》 CSCD 北大核心 1997年第2期9-15,共7页
现有的并行编译器不能充分地识别和开发程序潜在的并行性。此文提出了一种新的程序最大并行度分析方法,这一方法可开发程序循环一级的并行性。它首先识别出所有的可完全并行执行的循环;为指导用户改写程序,再对任一指定可并行化循环... 现有的并行编译器不能充分地识别和开发程序潜在的并行性。此文提出了一种新的程序最大并行度分析方法,这一方法可开发程序循环一级的并行性。它首先识别出所有的可完全并行执行的循环;为指导用户改写程序,再对任一指定可并行化循环给出所需私有化的变量的信息。目前这一方法已在并行程序交互式开发环境中实现,在对应用程序测试中实现。 展开更多
关键词 并行处理 编译程序 最大并行度 并行计算机
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部