期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
6
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
并行时空处理模型下的快速N-body算法
被引量:
3
1
作者
王伟
曾栩鸿
+2 位作者
王福焕
傅丽丽
曾国荪
《计算机科学与探索》
CSCD
2011年第11期1006-1013,共8页
图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的...
图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的应用程序接口(application programming interface,API),便于程序员发挥GPU的并行计算能力。采用图形硬件进行加速计算,通过一种新的GPU处理模型——并行时间空间模型,对现有GPU上的N-body实现进行了分析,从而提出了一种新的GPU上快速仿真N-body问题的算法,并在AMD的HD Radeon 5850上进行了实现。实验结果表明,相对于CPU上的实现,获得了400倍左右的加速;相对于已有GPU上的实现,也获得了2至5倍的加速。
展开更多
关键词
n-body
并行计算
通用图形处理器(GPGPU)
时间空间模型
在线阅读
下载PDF
职称材料
BH算法的几点注记
被引量:
2
2
作者
杨圣云
赖国明
霍红卫
《计算机工程与设计》
CSCD
北大核心
2006年第16期2979-2981,共3页
N-Body问题的直接计算方法的时间复杂度是O(2),BH算法的时间复杂度为O(log)[1]。BH算法利用质心近似计算降低了时间复杂度,但同时也降低了计算结果的准确度。为把与判断足够远的参数(=/)密切相关的计算结果的近似准确度控制在要求的范围...
N-Body问题的直接计算方法的时间复杂度是O(2),BH算法的时间复杂度为O(log)[1]。BH算法利用质心近似计算降低了时间复杂度,但同时也降低了计算结果的准确度。为把与判断足够远的参数(=/)密切相关的计算结果的近似准确度控制在要求的范围内,应用多极扩展和Gauss数值积分方法给出了BH算法质心近似的数学解释以及误差与参数的关系,得出BH算法是FMM算法和Gauss数值积分的一个特例,并指出Gauss积分法中隐含的正交多项式较FMM中常用的che-byshev正交多项式更与求解的问题相关。
展开更多
关键词
n-body
仿真
Barnes-Hut算法
多极扩展FMA
Gauss积分法
在线阅读
下载PDF
职称材料
FMM算法中问题规模与空间划分的关系分析
被引量:
2
3
作者
曹旻
杨彩霞
《计算机工程与应用》
CSCD
北大核心
2011年第25期39-43,共5页
从编译优化和并行优化的角度出发,根据N-Body问题求解的FMM算法的原理,将算法分解为不同的子模块。详细分析了各子模块的计算特性,包括计算量分析、并行性分析、通信量分析和存储量分析。深入剖析问题规模与空间划分层数之间的关系,提...
从编译优化和并行优化的角度出发,根据N-Body问题求解的FMM算法的原理,将算法分解为不同的子模块。详细分析了各子模块的计算特性,包括计算量分析、并行性分析、通信量分析和存储量分析。深入剖析问题规模与空间划分层数之间的关系,提出基于问题规模的空间划分策略。以实验验证了空间划分策略的可行性。
展开更多
关键词
编译优化
N体(
n-body
)问题求解
快速多极子方法(FMM)
空间划分树
在线阅读
下载PDF
职称材料
基于混合架构的FMM算法硬件加速
4
作者
曹旻
李海强
曹真
《计算机工程》
CAS
CSCD
2012年第16期275-278,283,共5页
以高性能计算中的经典问题——多体问题的快速多极子(FMM)算法为例,分析FMM算法的各个步骤,根据计算、通信和存储特性将算法中的子过程归类。在CPU、GPU、FPGA和CELL上分别进行测试,提出执行FMM算法的混合可重构体系结构配置方案,并进...
以高性能计算中的经典问题——多体问题的快速多极子(FMM)算法为例,分析FMM算法的各个步骤,根据计算、通信和存储特性将算法中的子过程归类。在CPU、GPU、FPGA和CELL上分别进行测试,提出执行FMM算法的混合可重构体系结构配置方案,并进一步优化算法,分解任务流。针对不同任务流的特点,提出可行的解决方案。结果证明,该方案可提高算法效率。
展开更多
关键词
混合可重构计算机体系结构
加速部件
n-body
问题
快速多极子算法
配置方案
任务流
在线阅读
下载PDF
职称材料
FMM算法在Cell/B.E.处理器上实现的分析与验证
被引量:
1
5
作者
唐振
张倬
+1 位作者
柴亚辉
徐炜民
《计算机工程与科学》
CSCD
北大核心
2011年第8期79-83,共5页
FMM算法[1]是基于树结构的,用于解决多体问题(N-Body)的经典算法。它将N-Body问题的计算复杂度由O(N2)降为O(N),并且能达到任意精度。通用CPU在计算规模较大的N-Body问题时需要耗费大量的时间。为了加速算法的执行,本文对FMM算法在Cell/...
FMM算法[1]是基于树结构的,用于解决多体问题(N-Body)的经典算法。它将N-Body问题的计算复杂度由O(N2)降为O(N),并且能达到任意精度。通用CPU在计算规模较大的N-Body问题时需要耗费大量的时间。为了加速算法的执行,本文对FMM算法在Cell/B.E.处理器上的实现进行了分析与验证。首先从功能上将FMM算法分解为八个核心过程,在此基础上根据计算特点的不同,对八个核心过程进行归类,最后选取其中有代表性的核心步骤,阐述了其在Cell/B.E.上实现的可行性问题,以及部分核心步骤的设计和实现过程。实验结果表明,选定的FMM算法核心步骤在Cell/B.E.上可以获得相对通用CPU较高的加速比。
展开更多
关键词
FMM
n-body
Cell/B.E.
加速
分析和验证
在线阅读
下载PDF
职称材料
基于定点压缩技术的双层粒子网格算法的设计与优化
6
作者
程盛淦
于浩然
+1 位作者
韦建文
林新华
《计算机科学》
CSCD
北大核心
2020年第8期56-61,共6页
现代天体物理学的研究离不开大规模N-body模拟。N-body模拟常用的算法之一是粒子网格(Particle-Mesh,PM)算法,但是PM算法需要消耗较多的内存容量。内存限制成为了N-body模拟在现代超算平台大规模扩展的瓶颈。因此,文中使用了利用定点压...
现代天体物理学的研究离不开大规模N-body模拟。N-body模拟常用的算法之一是粒子网格(Particle-Mesh,PM)算法,但是PM算法需要消耗较多的内存容量。内存限制成为了N-body模拟在现代超算平台大规模扩展的瓶颈。因此,文中使用了利用定点压缩技术减少内存消耗的方法,将存储每个N-body粒子相空间的内存消耗减少到最低6个字节,比传统PM算法低近一个数量级。文中实现了基于定点压缩技术的双层粒子网格算法,并使用包括混合精度计算、通信优化在内的方法对其性能进行了优化。这些优化技术显著降低了定点压缩带来的性能损耗,将压缩和解压在程序总耗时中的占比从21%降低至8%,并且在核心计算热点上达到了最高2.3倍的加速效果,使得程序在较低的内存消耗下保持较高的计算效率和扩展性。
展开更多
关键词
n-body
模拟
粒子网格算法
混合精度计算
大规模并行
在线阅读
下载PDF
职称材料
题名
并行时空处理模型下的快速N-body算法
被引量:
3
1
作者
王伟
曾栩鸿
王福焕
傅丽丽
曾国荪
机构
同济大学计算机科学与技术系
国家高性能计算机工程技术中心同济分中心
同济大学嵌入式系统与服务计算教育部重点实验室
出处
《计算机科学与探索》
CSCD
2011年第11期1006-1013,共8页
基金
国家自然科学基金No.61103068
61174158
+5 种基金
NSFC-微软亚洲研究院联合资助项目No.60970155
教育部博士点基金No.20090072110035
上海市优秀学科带头人计划项目No.10XD1404400
高效能服务器和存储技术国家重点实验室开放基金No.2009HSSA06
同济大学青年基金No.0800219105
2009KJ030~~
文摘
图形处理器(graphic processing unit,GPU)的最新发展已经能够以低廉的成本提供高性能的通用计算。基于GPU的CUDA(compute unified device architecture)和OpenCL(open computing language)编程模型为程序员提供了充足的类似于C语言的应用程序接口(application programming interface,API),便于程序员发挥GPU的并行计算能力。采用图形硬件进行加速计算,通过一种新的GPU处理模型——并行时间空间模型,对现有GPU上的N-body实现进行了分析,从而提出了一种新的GPU上快速仿真N-body问题的算法,并在AMD的HD Radeon 5850上进行了实现。实验结果表明,相对于CPU上的实现,获得了400倍左右的加速;相对于已有GPU上的实现,也获得了2至5倍的加速。
关键词
n-body
并行计算
通用图形处理器(GPGPU)
时间空间模型
Keywords
n-body
parallel computing
general purpose graphic processing unit (GPGPU)
time-space model
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
BH算法的几点注记
被引量:
2
2
作者
杨圣云
赖国明
霍红卫
机构
韩山师范学院数学与信息技术学院
西安电子科技大学计算机学院
出处
《计算机工程与设计》
CSCD
北大核心
2006年第16期2979-2981,共3页
基金
广东省教育厅自然科学基金项目(Z03066)
韩山师院重点科研基金项目(韩研字2004[2])
文摘
N-Body问题的直接计算方法的时间复杂度是O(2),BH算法的时间复杂度为O(log)[1]。BH算法利用质心近似计算降低了时间复杂度,但同时也降低了计算结果的准确度。为把与判断足够远的参数(=/)密切相关的计算结果的近似准确度控制在要求的范围内,应用多极扩展和Gauss数值积分方法给出了BH算法质心近似的数学解释以及误差与参数的关系,得出BH算法是FMM算法和Gauss数值积分的一个特例,并指出Gauss积分法中隐含的正交多项式较FMM中常用的che-byshev正交多项式更与求解的问题相关。
关键词
n-body
仿真
Barnes-Hut算法
多极扩展FMA
Gauss积分法
Keywords
n-body
simulation
barnes-hut algorithm
fast multipole algorithm FMA
gauss quadrature methods
分类号
TP391.9 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
FMM算法中问题规模与空间划分的关系分析
被引量:
2
3
作者
曹旻
杨彩霞
机构
上海大学计算机工程与科学学院
出处
《计算机工程与应用》
CSCD
北大核心
2011年第25期39-43,共5页
基金
国家高技术研究发展计划(863)(No.2009AA012201-CFA2009SHDX02)
上海市重点学科建设项目(No.J50103)~~
文摘
从编译优化和并行优化的角度出发,根据N-Body问题求解的FMM算法的原理,将算法分解为不同的子模块。详细分析了各子模块的计算特性,包括计算量分析、并行性分析、通信量分析和存储量分析。深入剖析问题规模与空间划分层数之间的关系,提出基于问题规模的空间划分策略。以实验验证了空间划分策略的可行性。
关键词
编译优化
N体(
n-body
)问题求解
快速多极子方法(FMM)
空间划分树
Keywords
compiler optimization
n-body
Fast Multipole Method
hierarchical space decomposition with an octree
分类号
TP311.5 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于混合架构的FMM算法硬件加速
4
作者
曹旻
李海强
曹真
机构
上海大学计算机工程与科学学院
出处
《计算机工程》
CAS
CSCD
2012年第16期275-278,283,共5页
基金
国家"863"计划基金资助项目(2009AA012201-CFA2009SHDX01)
上海市重点学科建设基金资助项目(J50103)
文摘
以高性能计算中的经典问题——多体问题的快速多极子(FMM)算法为例,分析FMM算法的各个步骤,根据计算、通信和存储特性将算法中的子过程归类。在CPU、GPU、FPGA和CELL上分别进行测试,提出执行FMM算法的混合可重构体系结构配置方案,并进一步优化算法,分解任务流。针对不同任务流的特点,提出可行的解决方案。结果证明,该方案可提高算法效率。
关键词
混合可重构计算机体系结构
加速部件
n-body
问题
快速多极子算法
配置方案
任务流
Keywords
mixed configurable computer architecture
acceleration component
n-body
problem
Fast Multipole Method(FMM) algorithm
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
FMM算法在Cell/B.E.处理器上实现的分析与验证
被引量:
1
5
作者
唐振
张倬
柴亚辉
徐炜民
机构
上海大学计算机工程与科学学院
出处
《计算机工程与科学》
CSCD
北大核心
2011年第8期79-83,共5页
基金
上海市重点学科建设资助项目(J50103)
文摘
FMM算法[1]是基于树结构的,用于解决多体问题(N-Body)的经典算法。它将N-Body问题的计算复杂度由O(N2)降为O(N),并且能达到任意精度。通用CPU在计算规模较大的N-Body问题时需要耗费大量的时间。为了加速算法的执行,本文对FMM算法在Cell/B.E.处理器上的实现进行了分析与验证。首先从功能上将FMM算法分解为八个核心过程,在此基础上根据计算特点的不同,对八个核心过程进行归类,最后选取其中有代表性的核心步骤,阐述了其在Cell/B.E.上实现的可行性问题,以及部分核心步骤的设计和实现过程。实验结果表明,选定的FMM算法核心步骤在Cell/B.E.上可以获得相对通用CPU较高的加速比。
关键词
FMM
n-body
Cell/B.E.
加速
分析和验证
Keywords
FMM
n-body
Cell/B.E.
speedup
analysis and verification
分类号
TP302 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于定点压缩技术的双层粒子网格算法的设计与优化
6
作者
程盛淦
于浩然
韦建文
林新华
机构
上海交通大学高性能计算中心
出处
《计算机科学》
CSCD
北大核心
2020年第8期56-61,共6页
基金
国家重点研发计划(2016YFB0201800,2018YFA0404603)。
文摘
现代天体物理学的研究离不开大规模N-body模拟。N-body模拟常用的算法之一是粒子网格(Particle-Mesh,PM)算法,但是PM算法需要消耗较多的内存容量。内存限制成为了N-body模拟在现代超算平台大规模扩展的瓶颈。因此,文中使用了利用定点压缩技术减少内存消耗的方法,将存储每个N-body粒子相空间的内存消耗减少到最低6个字节,比传统PM算法低近一个数量级。文中实现了基于定点压缩技术的双层粒子网格算法,并使用包括混合精度计算、通信优化在内的方法对其性能进行了优化。这些优化技术显著降低了定点压缩带来的性能损耗,将压缩和解压在程序总耗时中的占比从21%降低至8%,并且在核心计算热点上达到了最高2.3倍的加速效果,使得程序在较低的内存消耗下保持较高的计算效率和扩展性。
关键词
n-body
模拟
粒子网格算法
混合精度计算
大规模并行
Keywords
n-body
simulation
Particle-mesh method
Mixed-precision calculation
Large-scale parallelism
分类号
TP391 [自动化与计算机技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
并行时空处理模型下的快速N-body算法
王伟
曾栩鸿
王福焕
傅丽丽
曾国荪
《计算机科学与探索》
CSCD
2011
3
在线阅读
下载PDF
职称材料
2
BH算法的几点注记
杨圣云
赖国明
霍红卫
《计算机工程与设计》
CSCD
北大核心
2006
2
在线阅读
下载PDF
职称材料
3
FMM算法中问题规模与空间划分的关系分析
曹旻
杨彩霞
《计算机工程与应用》
CSCD
北大核心
2011
2
在线阅读
下载PDF
职称材料
4
基于混合架构的FMM算法硬件加速
曹旻
李海强
曹真
《计算机工程》
CAS
CSCD
2012
0
在线阅读
下载PDF
职称材料
5
FMM算法在Cell/B.E.处理器上实现的分析与验证
唐振
张倬
柴亚辉
徐炜民
《计算机工程与科学》
CSCD
北大核心
2011
1
在线阅读
下载PDF
职称材料
6
基于定点压缩技术的双层粒子网格算法的设计与优化
程盛淦
于浩然
韦建文
林新华
《计算机科学》
CSCD
北大核心
2020
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部