期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
并行计算模型参数动态分析软件包设计
1
作者 王向前 张云泉 侯晓吻 《计算机工程》 CAS CSCD 北大核心 2009年第10期30-32,共3页
并行计算模型的发展引入越来越多的模型参数。对并行计算模型参数动态采集分析软件包DEMPAT的整体框架进行研究,实现基于硬件性能计数器的存储层次参数采集模块。实验表明,该模块能够准确快速地获取存储层次参数且具有较好的可移植性。
关键词 并行计算模型 机器参数 存储层次
在线阅读 下载PDF
面向高性能数值计算的并行计算模型DRAM(h) 被引量:16
2
作者 张云泉 《计算机学报》 EI CSCD 北大核心 2003年第12期1660-1670,共11页
提出了一个基于存储层次的新并行计算模型DRAM (h) ,并在该模型下对两个经典并行数值计算算法的不同实现形式 :四种形式并行下三角方程求解 (PTRS)和六种形式无列选主元并行LU分解 (PLU) ,进行了分析 .模型分析表明 ,具有近乎相同时间... 提出了一个基于存储层次的新并行计算模型DRAM (h) ,并在该模型下对两个经典并行数值计算算法的不同实现形式 :四种形式并行下三角方程求解 (PTRS)和六种形式无列选主元并行LU分解 (PLU) ,进行了分析 .模型分析表明 ,具有近乎相同时间和空间复杂性的同一算法不同实现形式 ,在该模型下会有完全不同的存储复杂度 .作者在日立公司SR2 2 0 1MPP并行机、曙光 3 0 0 0超级服务器和中国科学院科学与工程计算国家重点实验室(LSEC)的 12 8节点LinuxCluster等三种并行计算平台上对模型分析结果进行了实验验证 .结果表明 ,该模型分析在绝大多数情况下都能较好地与不同实验平台上的实验结果吻合 .个别出现偏差的分析结果 ,在根据计算平台的存储层次特点修改模型分析的假定后 ,也能够进行解释 .这说明了该模型对不同形式的算法实现进行存储访问模式区分的有效性 .对在计算模型中加入指令 /线程级并行的可行性和方法的研究是下一步的工作 . 展开更多
关键词 存储器 并行计算模型 高性能数值计算 DRAM(h) 计算模型 存储复杂性
在线阅读 下载PDF
有限元单元计算子程序的OpenMP并行化 被引量:11
3
作者 宋刚 蒋孟奇 +1 位作者 张云泉 李玉成 《计算机工程》 CAS CSCD 北大核心 2008年第6期80-81,84,共3页
Intel和AMD双核乃至4核处理器的推出,使得并行计算已经普及到PC机。为了充分利用多核,需要对原有程序进行多线程改造,使其充分利用多核处理带来的性能提升。该文利用共享存储编程的工业标准OpenMP对有限元方法涉及的单元计算子程序进行... Intel和AMD双核乃至4核处理器的推出,使得并行计算已经普及到PC机。为了充分利用多核,需要对原有程序进行多线程改造,使其充分利用多核处理带来的性能提升。该文利用共享存储编程的工业标准OpenMP对有限元方法涉及的单元计算子程序进行了并行化实现。在机群的一个双CPU的SMP节点上的测试表明,共享并行化使得该单元子程序的性能提高了一倍。 展开更多
关键词 并行编程 多线程 多核 有限元
在线阅读 下载PDF
基于共享存储和Gzip的并行压缩算法研究 被引量:8
4
作者 宋刚 蒋孟奇 +1 位作者 张云泉 刘胜飞 《计算机工程与设计》 CSCD 北大核心 2009年第4期781-784,共4页
Gzip无损压缩算法。尽管gzip算法能够取得很好的压缩比,但它在分析和压缩编码的过程需要进行大量的计算。为了缩短压缩时间,提出了一种基于共享存储的并行压缩策略。采用OpenMP标准和"生产者/消费者"模型实现了gzip的并行压... Gzip无损压缩算法。尽管gzip算法能够取得很好的压缩比,但它在分析和压缩编码的过程需要进行大量的计算。为了缩短压缩时间,提出了一种基于共享存储的并行压缩策略。采用OpenMP标准和"生产者/消费者"模型实现了gzip的并行压缩版本。在Beowulf集群中的一个SMP节点(双CPU)和曙光天阔服务器(4路双核)上的测试表明,并行化的gzip程序取得了极大的性能提升,尤其是大文件的压缩。 展开更多
关键词 共享存储 并行编程 数据压缩 OPENMP GZIP
在线阅读 下载PDF
数值软件自适应性能优化搜索过程评价技术研究 被引量:2
5
作者 孙相征 张云泉 +1 位作者 王宣强 王磊 《计算机研究与发展》 EI CSCD 北大核心 2010年第4期679-686,共8页
随着计算机硬件的快速变化,如何充分利用计算机资源,使软件性能尽可能逼近处理器峰值是人们关心的问题.针对特定硬件平台手工优化程序,或者依赖编译器优化技术,存在人工介入,难与硬件更新同步等问题.而采用自适应性能优化技术实现的高... 随着计算机硬件的快速变化,如何充分利用计算机资源,使软件性能尽可能逼近处理器峰值是人们关心的问题.针对特定硬件平台手工优化程序,或者依赖编译器优化技术,存在人工介入,难与硬件更新同步等问题.而采用自适应性能优化技术实现的高性能数学软件包(SANS)如FFTW,ATLAS,PHiPAC,OSKI等,可有效解决前两种方法存在的问题,降低开发成本,提高软件可移植性.针对自适应性能优化技术中,优化参数搜索过程十分耗时的问题,提出对优化搜索过程的评价指标Pt,并给出用此指标控制优化搜索过程的方法.实验表明运用该指标可以在较短的时间内得到一个合理的性能值. 展开更多
关键词 自适应 优化过程评价指标 优化参数 性能跟踪 ATLAS GEMM
在线阅读 下载PDF
P-QuantWiz:一种基于质谱的并行非标记定量软件 被引量:1
6
作者 胡泽林 张云泉 +1 位作者 王靖 张先轶 《计算机工程与科学》 CSCD 北大核心 2009年第11期124-127,共4页
本文设计并实现了基于质谱的非标记定量软件QuantWiz,通过改变肽段定量的顺序,提高了定量软件的时间局部性和质谱数据缓存的命中次数。分析了QuantWiz的多种数据并行策略,设计并实现了按保留时间划分的并行定量软件P-QuantWiz。通过实... 本文设计并实现了基于质谱的非标记定量软件QuantWiz,通过改变肽段定量的顺序,提高了定量软件的时间局部性和质谱数据缓存的命中次数。分析了QuantWiz的多种数据并行策略,设计并实现了按保留时间划分的并行定量软件P-QuantWiz。通过实验验证P-QuantWiz具有良好的并行效率,当进程数为32时,并行效率为63%。 展开更多
关键词 质谱 非标记定量 色谱峰 保留时间 并行化
在线阅读 下载PDF
基于机群架构的并行数据库实现技术研究 被引量:6
7
作者 柳锴 唐雨新 +1 位作者 张云泉 李玉成 《计算机工程与设计》 CSCD 北大核心 2008年第3期526-529,646,共5页
在总结了现有并行数据库实现模型的基础上,基于"半重写变换"模型[1]实现了一个并行数据库系统的原型。通过对数据划分/重划分、并行选择、并行排序、并行连接等关键操作的实验分析,指出了"半重写变换"模型存在的缺... 在总结了现有并行数据库实现模型的基础上,基于"半重写变换"模型[1]实现了一个并行数据库系统的原型。通过对数据划分/重划分、并行选择、并行排序、并行连接等关键操作的实验分析,指出了"半重写变换"模型存在的缺陷,并提出了一种混合式的改进模型。从理论上说,在机群架构下实现并行数据库系统,这种混合模型较单一模型更有优势。 展开更多
关键词 并行数据库 实现模型 SMP机群 数据划分 并行算法
在线阅读 下载PDF
基于机群架构的并行数据库中间件系统改进研究 被引量:1
8
作者 陈虎 张云泉 +1 位作者 柳锴 李玉成 《计算机研究与发展》 EI CSCD 北大核心 2007年第z3期142-146,共5页
基于机群架构的高性能计算机已经被应用到很多领域,如大气预测、油藏模拟、CFD仿真模拟和Web服务等.随着数据量的爆炸式增长,传统的集中式的数据库系统已经难以满足各种应用的需求,基于机群式架构的并行数据库系统为增强海量数据的存储... 基于机群架构的高性能计算机已经被应用到很多领域,如大气预测、油藏模拟、CFD仿真模拟和Web服务等.随着数据量的爆炸式增长,传统的集中式的数据库系统已经难以满足各种应用的需求,基于机群式架构的并行数据库系统为增强海量数据的存储以及处理能力提供了一种途径.对以前实现的一个基于机群架构的并行数据库中间件系统ParaMidSQL进行了改进.通过对并行选择、并行排序、并行连接等关键操作的测试,给出对并行数据库中间件系统改进后的性能分析. 展开更多
关键词 并行数据库 Beowulf机群 中间件 并行算法 MPI
在线阅读 下载PDF
Modelica建模软件中拓扑排序相关算法研究 被引量:1
9
作者 魏欣 曹建文 《计算机工程与设计》 CSCD 北大核心 2010年第4期691-695,共5页
为了提高现有OpenModelica软件对DAE系统的预处理模块中求强连通分量与拓扑排序部分的性能,提出了基于Ko-saraju算法实现的策略。阐述了Modelica软件的实现原理,叙述了拓扑排序相关算法在其中的重要性,分析了现有Modelica软件中使用的... 为了提高现有OpenModelica软件对DAE系统的预处理模块中求强连通分量与拓扑排序部分的性能,提出了基于Ko-saraju算法实现的策略。阐述了Modelica软件的实现原理,叙述了拓扑排序相关算法在其中的重要性,分析了现有Modelica软件中使用的求强连通分量与拓扑排序部分的算法,比较了Tarjan算法的实现方案与Kosaraju算法实现方案。对两种方案进行了比较和分析结果,表明了Kosaraju算法方案的可行性和有效性。 展开更多
关键词 MODELICA DAE求解 强连通分量 拓扑排序
在线阅读 下载PDF
SpMV的自动性能优化实现技术及其应用研究 被引量:16
10
作者 袁娥 张云泉 +1 位作者 刘芳芳 孙相征 《计算机研究与发展》 EI CSCD 北大核心 2009年第7期1117-1126,共10页
在科学计算中,稀疏矩阵向量乘(SpMV)是一个十分重要且经常被大量调用的计算内核.由于SpMV一般实现算法的浮点计算和存储访问次数比率非常低,且其存储访问模式极为不规则,其实际运行性能往往很低.通过采用寄存器分块算法和启发式分块大... 在科学计算中,稀疏矩阵向量乘(SpMV)是一个十分重要且经常被大量调用的计算内核.由于SpMV一般实现算法的浮点计算和存储访问次数比率非常低,且其存储访问模式极为不规则,其实际运行性能往往很低.通过采用寄存器分块算法和启发式分块大小选择算法,将稀疏矩阵分成小的稠密分块,重用保存在寄存器中向量x元素,可以提高该计算内核的性能.剖析和总结了OSKI软件包所采用的若干关键优化技术,并进行了实际应用性能测试.测试表明,在实际应用这些优化技术的过程中,应用程序对SpMV的调用次数要达到上百次的量级,才能抵消由于应用这些性能优化技术所带来的额外时间开销,取得性能加速效果.在Pentium4和AMD Athlon平台上,测试了10个矩阵,其平均加速比分别达到了1.69和1.48. 展开更多
关键词 稀疏矩阵向量乘 启发式算法 自适应性能优化 存储访问模式 寄存器分块
在线阅读 下载PDF
一种改进的OpenMP指导调度策略研究 被引量:15
11
作者 刘胜飞 张云泉 孙相征 《计算机研究与发展》 EI CSCD 北大核心 2010年第4期687-694,共8页
在科学计算中,循环结构是最重要的并行对象之一.考虑到负载平衡、调度开销等多方面因素,OpenMP标准提供静态调度、动态调度、指导调度和运行时调度等不同策略.针对指导调度策略不适合递减型循环结构的问题,提出一种改进的new_guided指... 在科学计算中,循环结构是最重要的并行对象之一.考虑到负载平衡、调度开销等多方面因素,OpenMP标准提供静态调度、动态调度、指导调度和运行时调度等不同策略.针对指导调度策略不适合递减型循环结构的问题,提出一种改进的new_guided指导调度策略,并在OMPi编译器上加以实现.New_guided调度策略的主要思想是对前半部分的循环采用静态调度,后半部分的循环采用指导调度.针对不同循环结构,在多核处理器上对不同调度策略进行评测.结果表明,在一般情况下,OpenMP默认的静态策略的调度性能最差;对于规则的循环结构和递增的循环结构,动态调度、指导调度和new_guided策略的性能差别不大;对于递减型的循环结构,动态调度和new_guided策略的性能相当,要优于指导调度策略;对于某些极不规则的随机循环结构,动态调度明显优于其他策略,new_guided策略的性能介于动态调度和指导调度之间. 展开更多
关键词 OPENMP 负载平衡 静态调度 动态调度 指导调度 OMPi
在线阅读 下载PDF
CPU-GPU并行矩阵乘法的实现与性能分析 被引量:11
12
作者 程豪 张云泉 +1 位作者 张先轶 李玉成 《计算机工程》 CAS CSCD 北大核心 2010年第13期24-26,29,共4页
实现ATI平台上的CPU-GPU混合并行DGEMM,采用在GPU和CPU上同时进行计算的方法来提高运算性能。实验结果证明,当矩阵规模较大时,在AMD Phenom II X4 940和ATI FireStream 9270平台上,混合DGEMM性能相对于单独使用GPU平均提升了16%。通过... 实现ATI平台上的CPU-GPU混合并行DGEMM,采用在GPU和CPU上同时进行计算的方法来提高运算性能。实验结果证明,当矩阵规模较大时,在AMD Phenom II X4 940和ATI FireStream 9270平台上,混合DGEMM性能相对于单独使用GPU平均提升了16%。通过实验验证了混合DGEMM性能、加速比、任务分配比例的估算方法,并探讨了影响混合DGEMM性能的各种因素。 展开更多
关键词 混合并行 GPU技术 DGEMM程序 加速比
在线阅读 下载PDF
GOTOBLAS一般矩阵乘法高效实现机制的研究 被引量:8
13
作者 蒋孟奇 张云泉 +1 位作者 宋刚 李玉成 《计算机工程》 CAS CSCD 北大核心 2008年第7期84-86,103,共4页
对GOTOBLAS库(GOTO)的实现机制,尤其是其中的一般矩阵乘法部分的实现进行了分析。结合近年来的一些研究成果,讨论了如何高效地实现矩阵相乘操作,把存储层次对程序性能的影响提高到计算模型的高度。对比实验表明,GOTO库的性能远远高于没... 对GOTOBLAS库(GOTO)的实现机制,尤其是其中的一般矩阵乘法部分的实现进行了分析。结合近年来的一些研究成果,讨论了如何高效地实现矩阵相乘操作,把存储层次对程序性能的影响提高到计算模型的高度。对比实验表明,GOTO库的性能远远高于没有考虑存储层次的一般BLAS库。证明了GOTO库性能上的优越性和将存储层次引入计算模型的必要性。 展开更多
关键词 GOTOBLAS库 一般矩阵乘法 存储层次 分块算法 计算模型
在线阅读 下载PDF
曙光5000A天体大规模数值模拟软件性能测试 被引量:1
14
作者 王婷 孙相征 +6 位作者 张云泉 杨超 李力刚 刘芳芳 管文华 唐雨新 姚继峰 《西安交通大学学报》 EI CAS CSCD 北大核心 2009年第10期71-75,共5页
在国产百万亿次超级计算机曙光5000A上进行了天体大规模数值模拟软件的性能和可扩展测试实验,详细介绍了软件中的测试程序以及测试环境和过程,并对测试结果进行了分析.对于80×80×50的网格规模,采用每节点4进程测试了16~128... 在国产百万亿次超级计算机曙光5000A上进行了天体大规模数值模拟软件的性能和可扩展测试实验,详细介绍了软件中的测试程序以及测试环境和过程,并对测试结果进行了分析.对于80×80×50的网格规模,采用每节点4进程测试了16~128个处理器核,每节点8进程、16进程分别测试了16~512个处理器核,相对加速比最终分别达到5.33、10.48和12.57,并行效率分别达到66.66%、32.58%和32.29%.对于160×160×100的网格规模,测试了每节点16进程的64~8192个核的性能,最大相对加速比为12.46,并行效率为9.73%.测试结果表明,曙光5000A具有良好的性能,测试结果对软件下一步的优化研究具有重要的指导意义. 展开更多
关键词 曙光5000A 数值模拟 性能测试 可扩展
在线阅读 下载PDF
高速缓存优化的并行连接算法 被引量:1
15
作者 胡泽林 张云泉 《计算机工程与设计》 CSCD 北大核心 2009年第20期4581-4584,共4页
由于嵌套循环连接操作过程中存在较大的高速缓存缺失,严重影响了连接查询的性能。提出了一种基于缓冲的高速缓存参数无关的嵌套循环并行连接算法。通过高速缓存参数无关和缓冲技术,提高了连接算法的空间局部性和时间局部性。理论分析和... 由于嵌套循环连接操作过程中存在较大的高速缓存缺失,严重影响了连接查询的性能。提出了一种基于缓冲的高速缓存参数无关的嵌套循环并行连接算法。通过高速缓存参数无关和缓冲技术,提高了连接算法的空间局部性和时间局部性。理论分析和实验结果表明,高速缓存优化后的串行连接算法的性能是原来的2倍,其并行算法效果近似线性加速比。 展开更多
关键词 存储层次 理想高速缓存模型 高速缓存参数无关 高度划分聚类 缓冲 并行化
在线阅读 下载PDF
基于自索引的DBF压缩查询工具研究
16
作者 刘胜飞 张云泉 张迪 《计算机应用研究》 CSCD 北大核心 2009年第2期628-630,共3页
介绍了DBF表的文件格式和基于自索引的全文查询算法FM-index。针对DBF文件同时包含二进制文件头和纯文本数据记录的特点,以及对查询结果的特定要求,扩充了现有的FM-index算法,使其支持对DBF文件的压缩查询。测试结果表明,虽然FM-index... 介绍了DBF表的文件格式和基于自索引的全文查询算法FM-index。针对DBF文件同时包含二进制文件头和纯文本数据记录的特点,以及对查询结果的特定要求,扩充了现有的FM-index算法,使其支持对DBF文件的压缩查询。测试结果表明,虽然FM-index在压缩/解压时间上与WinRAR仍有一段差距,但是FM-index对压缩查询功能的支持大大提高了文件的查询性能。 展开更多
关键词 全文索引 数据库表 压缩 查询
在线阅读 下载PDF
适用于GRAPES数值天气预报软件的ILU预条件子 被引量:9
17
作者 刘宇 曹建文 《计算机工程与设计》 CSCD 北大核心 2008年第3期731-734,共4页
探讨了一种适用于我国自主研发的数值天气预报模式软件GRAPES的不完全LU(ILU)分解预条件子。针对GRAPES模式所特有的具有对角优势结构的赫姆霍兹方程系数矩阵,提出了一种有效的ILU分解方案,并将分解得到的预条件子应用到模式核心的动力... 探讨了一种适用于我国自主研发的数值天气预报模式软件GRAPES的不完全LU(ILU)分解预条件子。针对GRAPES模式所特有的具有对角优势结构的赫姆霍兹方程系数矩阵,提出了一种有效的ILU分解方案,并将分解得到的预条件子应用到模式核心的动力积分计算迭代算法中,从而达到加速算法收敛,提高模式软件整体性能的目的。 展开更多
关键词 数值天气预报 赫姆霍兹方程 稀疏矩阵 不完全LU分解 预条件子
在线阅读 下载PDF
FM-index算法性能测试及并行化 被引量:1
18
作者 张广治 张云泉 +1 位作者 李伟华 李玉成 《计算机工程》 EI CAS CSCD 北大核心 2005年第22期51-53,共3页
介绍了FM-index压缩查询技术,详细阐述了FM-index的工作流程,描述了实现计算字符串在压缩文本中出现次数的算法。对FM-index的源代码在Linux平台上进行了测试,从测试结果分析了使用FM-index进行压缩查询的优点和不足。最后给出了加快FM-... 介绍了FM-index压缩查询技术,详细阐述了FM-index的工作流程,描述了实现计算字符串在压缩文本中出现次数的算法。对FM-index的源代码在Linux平台上进行了测试,从测试结果分析了使用FM-index进行压缩查询的优点和不足。最后给出了加快FM-index压缩速度的一个并行化算法的初步设计思路。 展开更多
关键词 FM—index 压缩查询 BW转换 后缀数组
在线阅读 下载PDF
FM-index分块并行算法及其实现 被引量:1
19
作者 李开士 张云泉 李玉成 《计算机工程》 CAS CSCD 北大核心 2008年第8期53-54,58,共3页
查询海量数据有压缩和索引两种方法来提高速度,该文结合这两种方法提出了压缩查询的方法。FM-index是一种自索引的全文查询算法,存在内存占用过大的问题,对于复杂的查询效率也不理想。该文提出分块FM-index算法,在分块的基础上采用MPI... 查询海量数据有压缩和索引两种方法来提高速度,该文结合这两种方法提出了压缩查询的方法。FM-index是一种自索引的全文查询算法,存在内存占用过大的问题,对于复杂的查询效率也不理想。该文提出分块FM-index算法,在分块的基础上采用MPI对算法进行并行化,解决了内存占用过多的问题,达到了较好的并行效率。 展开更多
关键词 压缩 自索引 FM-index算法 分块 并行
在线阅读 下载PDF
国产万亿次机群系统NPB性能测试分析 被引量:13
20
作者 袁伟 张云泉 +1 位作者 孙家昶 李玉成 《计算机研究与发展》 EI CSCD 北大核心 2005年第6期1079-1084,共6页
对3个国产万亿次机群系统进行了NPB性能测试分析,重点研究大规模并行处理时(处理器数目达到上千个)的性能特点和趋势.分析了不同的处理器、互连网络等系统配置对NPB性能的影响,发现NPB的8个程序在3个万亿次机器上的性能特点和表现并不一... 对3个国产万亿次机群系统进行了NPB性能测试分析,重点研究大规模并行处理时(处理器数目达到上千个)的性能特点和趋势.分析了不同的处理器、互连网络等系统配置对NPB性能的影响,发现NPB的8个程序在3个万亿次机器上的性能特点和表现并不一致,表明国产高性能机群在设计上正在逐渐走出同质化的趋势,向多样化发展.进一步分析表明,目前NPB程序的可扩展性可以达到几百个处理器,但尚不能达到上千个处理器,NPB程序能发挥出的系统峰值的百分比仍然徘徊在10%左右,机群系统的并行可扩展性和应用程序对机器运算潜能的利用还需要进一步提高.对于处理器数目达到上千个的万亿次机群系统来说,对集合通信和细粒度通信能力的支持亟需提高. 展开更多
关键词 万亿次机群 性能评测 NPB
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部