期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
自主多模式网络性能测试技术
1
作者
吴登勇
谷群
+1 位作者
于英杰
赵鑫
《计算机工程与设计》
北大核心
2025年第8期2219-2225,共7页
为解决网络测试工具兼容性差、测试场景受限、国内无通用自主网络测试工具等问题,设计一种基于ServerClient-Ctrl三端模式的自主多模式网络性测试工具,旨在通过创新的架构、模块设计,提升测试工具的通用性和灵活性,解决行业痛点。基于...
为解决网络测试工具兼容性差、测试场景受限、国内无通用自主网络测试工具等问题,设计一种基于ServerClient-Ctrl三端模式的自主多模式网络性测试工具,旨在通过创新的架构、模块设计,提升测试工具的通用性和灵活性,解决行业痛点。基于国产自主ARM平台及X86平台开展的网络性能测试验证,结果表明该测试工具不仅展现出良好的平台兼容性,还适用于多测试场景,并在测试中能有效提升测试工作效率,为网络测试技术的发展提供了新的思路与方向。
展开更多
关键词
主动测量
带宽
时延
抖动
线程管理
非
一致
性
内存
访问
TCP/IP卸载引擎
远程直接
内存
访问
在线阅读
下载PDF
职称材料
面向众核处理器的阴阳K-means算法优化
被引量:
1
2
作者
周天阳
王庆林
+4 位作者
李荣春
梅松竹
尹尚飞
郝若晨
刘杰
《国防科技大学学报》
EI
CAS
CSCD
北大核心
2024年第1期93-102,共10页
传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算...
传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算,并面向非一致内存访问(non-unified memory access, NUMA)特性进行了针对性的访存优化。与阴阳K-means算法的开源多线程实现相比,该实现在ARMv8和x86众核平台上分别获得了最高约5.6与8.7的加速比。因此上述优化方法在众核处理器上成功实现了对阴阳K-means算法的加速。
展开更多
关键词
K-MEANS
非一致内存访问
向量化
众核处理器
性能优化
在线阅读
下载PDF
职称材料
基于CPU与GPU的异构模板计算优化研究
被引量:
4
3
作者
李博
黄东强
+3 位作者
贾金芳
吴利
王晓英
黄建强
《计算机工程》
CAS
CSCD
北大核心
2023年第4期131-137,共7页
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基...
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+OpenMP两种计算模型的性能均得到了显著提升。
展开更多
关键词
模板计算
消息传递接口
跨平台多线程
单指令多数据
非一致内存访问
统一计算设备架构
在线阅读
下载PDF
职称材料
基于NUMA架构的解释器访存优化设计与实现
4
作者
任彤
傅杰
靳国杰
《高技术通讯》
CAS
CSCD
北大核心
2015年第7期661-668,共8页
为了提高非一致内存访问(NUMA)架构虚拟机解释器的访存性能,研究了解释器在NUMA架构下的访存优化技术,提出了一种NUMA架构下的解释器访存优化方案,而且设计并实现了解释器的静态指令分派优化方法和动态指令分派优化方法。根据这一方案...
为了提高非一致内存访问(NUMA)架构虚拟机解释器的访存性能,研究了解释器在NUMA架构下的访存优化技术,提出了一种NUMA架构下的解释器访存优化方案,而且设计并实现了解释器的静态指令分派优化方法和动态指令分派优化方法。根据这一方案虚拟机启动时首先获取NUMA节点信息,并在每个NUMA节点中自动生成解释器所需的全部数据结构;解释器在运行时,通过静态或动态的指令分派技术来实现其执行线程在NUMA节点上访存的局部化。试验结果表明,上述方法能够显著提升解释器在NUMA系统中的性能。在DaCapo测试集上的总体性能提升了8%,最高性能提升幅度高达23%,而且算法实现代价低,适用于绝大多数的NUMA服务器系统。
展开更多
关键词
非一致内存访问
(NUMA)
虚拟机
解释器
响应速度
启动性能
访存优化
在线阅读
下载PDF
职称材料
NUMA结构的高效实时稳定的垃圾回收算法
5
作者
廖彬
傅杰
+4 位作者
靳国杰
王一光
王磊
章隆兵
王剑
《高技术通讯》
CAS
CSCD
北大核心
2015年第2期125-134,共10页
针对非一致性内存访问架构(NUMA)在垃圾回收(GC)过程中存在大量的远程内存读写导致GC性能降低的问题,对GC过程的各个阶段进行分析与研究,提出了一种基于NUMA结构的高效实时稳定的GC算法。该算法首先基于NUMA结构改进传统分代GC机...
针对非一致性内存访问架构(NUMA)在垃圾回收(GC)过程中存在大量的远程内存读写导致GC性能降低的问题,对GC过程的各个阶段进行分析与研究,提出了一种基于NUMA结构的高效实时稳定的GC算法。该算法首先基于NUMA结构改进传统分代GC机制的堆空间布局,然后通过控制GC过程中扫描活跃对象阶段的初始根对象选取、动态负载均衡阶段截取任务队列的选取以及复制活跃对象阶段对象复制位置的选取,大大减少GC过程中的远程访问次数。这种改进的GC机制对所有NUMA结构具有通用性。以Godson-3处理器的NUMA平台为例进行的实验结果显示,优化的GC机制极大地缩短了GC的时间,而且提高了应用程序的性能以及稳定性。在SPECjvm2008测试中,GC时间平均缩短了14.6%(GC总时间缩短4.1%-41.58%),应用程序的性能平均提升了4.68%(最高提升17.8%),应用程序的性能稳定性提升了76.2%。
展开更多
关键词
非
一致
性
内存
访问
架构(NUMA)
垃圾回收(GC)
分代GC
活跃对象
根对象
动态负载均衡
在线阅读
下载PDF
职称材料
题名
自主多模式网络性能测试技术
1
作者
吴登勇
谷群
于英杰
赵鑫
机构
超越科技股份有限公司山东省自主可靠计算技术与装备重点实验室
出处
《计算机工程与设计》
北大核心
2025年第8期2219-2225,共7页
文摘
为解决网络测试工具兼容性差、测试场景受限、国内无通用自主网络测试工具等问题,设计一种基于ServerClient-Ctrl三端模式的自主多模式网络性测试工具,旨在通过创新的架构、模块设计,提升测试工具的通用性和灵活性,解决行业痛点。基于国产自主ARM平台及X86平台开展的网络性能测试验证,结果表明该测试工具不仅展现出良好的平台兼容性,还适用于多测试场景,并在测试中能有效提升测试工作效率,为网络测试技术的发展提供了新的思路与方向。
关键词
主动测量
带宽
时延
抖动
线程管理
非
一致
性
内存
访问
TCP/IP卸载引擎
远程直接
内存
访问
Keywords
active measurement
bandwidth
latency
jitter
thread management
non-uniform memory access
TCP/IP offload engine
remote direct memory access
分类号
TP311.56 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
面向众核处理器的阴阳K-means算法优化
被引量:
1
2
作者
周天阳
王庆林
李荣春
梅松竹
尹尚飞
郝若晨
刘杰
机构
国防科技大学计算机学院
国防科技大学并行与分布计算全国重点实验室
出处
《国防科技大学学报》
EI
CAS
CSCD
北大核心
2024年第1期93-102,共10页
基金
国家自然科学基金资助项目(62002365)。
文摘
传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算,并面向非一致内存访问(non-unified memory access, NUMA)特性进行了针对性的访存优化。与阴阳K-means算法的开源多线程实现相比,该实现在ARMv8和x86众核平台上分别获得了最高约5.6与8.7的加速比。因此上述优化方法在众核处理器上成功实现了对阴阳K-means算法的加速。
关键词
K-MEANS
非一致内存访问
向量化
众核处理器
性能优化
Keywords
K-means
NUMA
vectorization
many-core CPU
performance optimization
分类号
TP311.1 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于CPU与GPU的异构模板计算优化研究
被引量:
4
3
作者
李博
黄东强
贾金芳
吴利
王晓英
黄建强
机构
青海大学计算机技术与应用系
清华大学计算机科学与技术系
出处
《计算机工程》
CAS
CSCD
北大核心
2023年第4期131-137,共7页
基金
青海省科技厅应用基础研究项目(2022-ZJ-701)
国家自然科学基金(62062059,62162053)
+5 种基金
青海省“昆仑英才·高端创新创业人才”项目
教育部“春晖计划”合作科研项目(QDCH2018001)
青海大学2021年研究生课程建设项目(qdyk-210413)
青海大学2021年度青年科研基金项目(2021-QGY-13)
青海省骨干教师项目
清华大学-宁夏银川水联网数字治水联合研究院横向课题(SKL-IOW-2020TC2004-01)。
文摘
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+OpenMP两种计算模型的性能均得到了显著提升。
关键词
模板计算
消息传递接口
跨平台多线程
单指令多数据
非一致内存访问
统一计算设备架构
Keywords
stencil computing
Message Passing Interface(MPI)
Open Multi-Processing(OpenMP)
Single Instruction Multiple Data(SIMD)
Non Uniform Memory Access(NUMA)
Compute Unified Device Architecture(CUDA)
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于NUMA架构的解释器访存优化设计与实现
4
作者
任彤
傅杰
靳国杰
机构
中国科学院大学
中国科学院计算技术研究所
中国电子设备系统工程公司研究所
计算机系统结构国家重点实验室
龙芯中科技术有限公司
出处
《高技术通讯》
CAS
CSCD
北大核心
2015年第7期661-668,共8页
基金
国家“核高基”科技重大专项课题(2009ZX01028-002-003,2009ZX01029-001-003,2010ZX01036-001-002,2012ZX01029-001-002-002,2014ZX01020201)
国家自然科学基金(61221062,61133004,61173001,61232009,61222204,61432016)
863计划(2012AA010901,2012AA011002,2013AA014301)资助项目
文摘
为了提高非一致内存访问(NUMA)架构虚拟机解释器的访存性能,研究了解释器在NUMA架构下的访存优化技术,提出了一种NUMA架构下的解释器访存优化方案,而且设计并实现了解释器的静态指令分派优化方法和动态指令分派优化方法。根据这一方案虚拟机启动时首先获取NUMA节点信息,并在每个NUMA节点中自动生成解释器所需的全部数据结构;解释器在运行时,通过静态或动态的指令分派技术来实现其执行线程在NUMA节点上访存的局部化。试验结果表明,上述方法能够显著提升解释器在NUMA系统中的性能。在DaCapo测试集上的总体性能提升了8%,最高性能提升幅度高达23%,而且算法实现代价低,适用于绝大多数的NUMA服务器系统。
关键词
非一致内存访问
(NUMA)
虚拟机
解释器
响应速度
启动性能
访存优化
Keywords
non-uniform memory access (NUMA), virtual machine, interpreter, response speed, startupperformance, memory optimization
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
NUMA结构的高效实时稳定的垃圾回收算法
5
作者
廖彬
傅杰
靳国杰
王一光
王磊
章隆兵
王剑
机构
中国科学院大学
计算机体系结构国家重点实验室
中国科学院计算技术研究所
龙芯中科技术有限公司
中国科学技术大学
出处
《高技术通讯》
CAS
CSCD
北大核心
2015年第2期125-134,共10页
基金
国家"核高基"科技重大专项课题(2009ZX01028-002-003
2009ZX01029-001-003
+12 种基金
2010ZX01036-001-002
2012ZX01029-001-002-002)
国家自然科学基金(61221062
61100163
61133004
61173001
61232009
6122204
61432016)
863计划(2012AA010901
2012AA011002
2012AA012202
2013AA014301)资助项目
文摘
针对非一致性内存访问架构(NUMA)在垃圾回收(GC)过程中存在大量的远程内存读写导致GC性能降低的问题,对GC过程的各个阶段进行分析与研究,提出了一种基于NUMA结构的高效实时稳定的GC算法。该算法首先基于NUMA结构改进传统分代GC机制的堆空间布局,然后通过控制GC过程中扫描活跃对象阶段的初始根对象选取、动态负载均衡阶段截取任务队列的选取以及复制活跃对象阶段对象复制位置的选取,大大减少GC过程中的远程访问次数。这种改进的GC机制对所有NUMA结构具有通用性。以Godson-3处理器的NUMA平台为例进行的实验结果显示,优化的GC机制极大地缩短了GC的时间,而且提高了应用程序的性能以及稳定性。在SPECjvm2008测试中,GC时间平均缩短了14.6%(GC总时间缩短4.1%-41.58%),应用程序的性能平均提升了4.68%(最高提升17.8%),应用程序的性能稳定性提升了76.2%。
关键词
非
一致
性
内存
访问
架构(NUMA)
垃圾回收(GC)
分代GC
活跃对象
根对象
动态负载均衡
Keywords
non-uniform memory access architecture (NUMA), garbage collection (GC), generational GC,live object, root object, dynamic load balance
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
自主多模式网络性能测试技术
吴登勇
谷群
于英杰
赵鑫
《计算机工程与设计》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
面向众核处理器的阴阳K-means算法优化
周天阳
王庆林
李荣春
梅松竹
尹尚飞
郝若晨
刘杰
《国防科技大学学报》
EI
CAS
CSCD
北大核心
2024
1
在线阅读
下载PDF
职称材料
3
基于CPU与GPU的异构模板计算优化研究
李博
黄东强
贾金芳
吴利
王晓英
黄建强
《计算机工程》
CAS
CSCD
北大核心
2023
4
在线阅读
下载PDF
职称材料
4
基于NUMA架构的解释器访存优化设计与实现
任彤
傅杰
靳国杰
《高技术通讯》
CAS
CSCD
北大核心
2015
0
在线阅读
下载PDF
职称材料
5
NUMA结构的高效实时稳定的垃圾回收算法
廖彬
傅杰
靳国杰
王一光
王磊
章隆兵
王剑
《高技术通讯》
CAS
CSCD
北大核心
2015
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部