期刊文献+
共找到105篇文章
< 1 2 6 >
每页显示 20 50 100
Multi-core optimization for conjugate gradient benchmark on heterogeneous processors
1
作者 邓林 窦勇 《Journal of Central South University》 SCIE EI CAS 2011年第2期490-498,共9页
Developing parallel applications on heterogeneous processors is facing the challenges of 'memory wall',due to limited capacity of local storage,limited bandwidth and long latency for memory access. Aiming at t... Developing parallel applications on heterogeneous processors is facing the challenges of 'memory wall',due to limited capacity of local storage,limited bandwidth and long latency for memory access. Aiming at this problem,a parallelization approach was proposed with six memory optimization schemes for CG,four schemes of them aiming at all kinds of sparse matrix-vector multiplication (SPMV) operation. Conducted on IBM QS20,the parallelization approach can reach up to 21 and 133 times speedups with size A and B,respectively,compared with single power processor element. Finally,the conclusion is drawn that the peak bandwidth of memory access on Cell BE can be obtained in SPMV,simple computation is more efficient on heterogeneous processors and loop-unrolling can hide local storage access latency while executing scalar operation on SIMD cores. 展开更多
关键词 multi-core processor NAS parallelization CG memory optimization
在线阅读 下载PDF
面向昇腾处理器的高性能同步原语自动插入方法
2
作者 李帅江 张馨元 +4 位作者 赵家程 田行辉 石曦予 徐晓忻 崔慧敏 《计算机研究与发展》 北大核心 2025年第8期1962-1978,共17页
指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限... 指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限的,限制了ILP的提升.针对这一问题,提出一种面向昇腾处理器的高性能同步原语自动插入方法,通过引入“虚拟同步资源”的抽象将同步原语的插入和物理同步资源的选择进行解耦.首先提出了一种启发式算法在复杂的控制流图上进行虚拟同步原语的插入,随后通过虚拟同步原语合并等技术,将虚拟同步资源映射到有限数量的物理同步资源上,并同时在满足程序正确性与严苛硬件资源限制的前提下,根据指令间的偏序关系删除程序中冗余的同步原语.使用指令级与算子级基准测试程序在昇腾910A平台上的实验表明,该方法自动插入同步原语的程序在保证正确性的基础上,整体性能与专家程序员手动插入同步原语接近或持平. 展开更多
关键词 昇腾处理器 同步原语 异构编程 领域定制架构 自动插入
在线阅读 下载PDF
面向智能物联网异构嵌入式芯片的自适应算子并行分割方法
3
作者 林政 刘思聪 +2 位作者 郭斌 丁亚三 於志文 《计算机科学》 北大核心 2025年第2期299-309,共11页
随着人民生活质量的持续提升与科技发展的日新月异,智能手机等移动设备在全球范围内得到了广泛普及。在这一背景下,深度神经网络在移动端的部署与应用成为了研究的热点。深度神经网络不仅推动了移动应用领域的显著进步,同时也对使用电... 随着人民生活质量的持续提升与科技发展的日新月异,智能手机等移动设备在全球范围内得到了广泛普及。在这一背景下,深度神经网络在移动端的部署与应用成为了研究的热点。深度神经网络不仅推动了移动应用领域的显著进步,同时也对使用电池供电的移动设备的能效管理提出了更高要求。当今移动设备中异构处理器的兴起给优化能效带来了新的挑战,在不同处理器间分配计算任务以实现深度神经网络并行处理和加速,并不一定能够优化能耗,甚至可能会增加能耗。针对这一问题,提出了一种能效优化的深度神经网络自适应并行计算调度系统。该系统包括一个运行时能耗分析器与在线算子划分执行器,能够根据动态设备条件动态调整算子分配,在保持高响应性的同时,优化了移动设备异构处理器上的计算能效。实验结果证明,相比基准方法,能效优化的深度神经网络自适应并行计算调度系统在移动设备深度神经网络上的平均能耗和平均时延减少了5.19%和9.0%,最大能耗和最大时延减少了18.35%和21.6%。 展开更多
关键词 深度神经网络 移动设备 能效优化 异构处理器 能耗预测
在线阅读 下载PDF
一种新的异构多核平台下多类型DAG调度方法
4
作者 左俊杰 肖锋 +3 位作者 黄姝娟 沈超 郝鹏涛 陈磊 《计算机应用研究》 北大核心 2025年第2期514-518,共5页
异构多核处理器在异构环境中受限于处理器种类,只能在特定处理器上执行。现有调度方法通常使用多类型DAG(directed acyclic graph)任务模型进行模拟,但调度方法往往忽略不同核上的通信开销,或未考虑处理器与节点的对应关系,导致调度时... 异构多核处理器在异构环境中受限于处理器种类,只能在特定处理器上执行。现有调度方法通常使用多类型DAG(directed acyclic graph)任务模型进行模拟,但调度方法往往忽略不同核上的通信开销,或未考虑处理器与节点的对应关系,导致调度时间开销较大,处理器资源未充分利用,任务效率低。针对上述问题,提出了PNIF(processor-node impact factor)算法。该算法引入了两个对节点优先级具有重大影响的比例因子,将它们加入到节点优先级的计算中从而确定任务执行顺序。实验结果表明,PNIF比PEFT、HEFT、CPOP在调度长度上分别平均提升5.902%、19.402%、25.831%,有效缩短了整体调度长度,提升了处理器资源利用率。 展开更多
关键词 异构多核处理器 多类型DAG任务 任务调度 影响因子 PNIF算法
在线阅读 下载PDF
面向天河新一代超算系统的大规模精确对角化方法
5
作者 李彪 刘杰 王庆林 《计算机研究与发展》 北大核心 2025年第6期1347-1362,共16页
精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的... 精确对角化(exact diagonalization)方法是一种在量子物理、凝聚态物理等领域广泛应用的数值计算方法,是最直接求得量子系统基态的数值方法.仅从哈密顿矩阵的对称性出发,利用无矩阵(matrix-free)方法、分层通信模型以及适配于MT-3000的数据级并行算法,提出了面向天河新一代超算系统上的超大稀疏哈密顿矩阵向量乘异构并行算法,可以实现基于一维Hubbard模型的大规模精确对角化.提出的并行算法在天河新一代超算系统上进行了测试,其中在1400亿维度矩阵规模上,8192进程相比256进程强扩展效率为55.27%,而弱扩展到7300亿维度矩阵规模上,13740个进程相比64进程的弱扩展效率保持在51.25%以上. 展开更多
关键词 精确对角化 HUBBARD模型 异构并行计算 MT-3000处理器 量子多体系统
在线阅读 下载PDF
一种异构多核系统动态调度协处理器设计
6
作者 曾树铭 倪伟 《合肥工业大学学报(自然科学版)》 北大核心 2025年第2期185-195,共11页
为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理... 为研究异构多核片上系统(multi-processor system on chip,MPSoC)在密集并行计算任务中的潜力,文章设计并实现了一种适用于粗粒度数据特征、面向任务级并行应用的异构多核系统动态调度协处理器,采用了片上缓存、任务输出的多级写回管理、任务自动映射、通讯任务乱序执行等机制。实验结果表明,该动态调度协处理器不仅能够实现任务级乱序执行等基本设计目标,还具有极低的调度开销,相较于基于动态记分牌算法的调度器,运行多个子孔径距离压缩算法的时间降低达17.13%。研究结果证明文章设计的动态调度协处理器能够有效优化目标场景下的任务调度效果。 展开更多
关键词 动态调度 硬件调度器 异构多核系统 任务级并行 编程模型 片上缓存 片上网络
在线阅读 下载PDF
基于Amdahl定律的异构多核密码处理器能效模型研究 被引量:1
7
作者 李伟 郎俊豪 +1 位作者 陈韬 南龙梅 《电子学报》 EI CAS CSCD 北大核心 2024年第3期849-862,共14页
边缘计算安全的资源受限特征及各种新型密码技术的应用,对多核密码处理器的高能效、异构性提出需求,但当前尚缺乏相关的异构多核能效模型研究.本文基于扩展Amdahl定律,引入密码串并特征、异构多核结构、数据准备时间、动态电压频率调节... 边缘计算安全的资源受限特征及各种新型密码技术的应用,对多核密码处理器的高能效、异构性提出需求,但当前尚缺乏相关的异构多核能效模型研究.本文基于扩展Amdahl定律,引入密码串并特征、异构多核结构、数据准备时间、动态电压频率调节等因素,将核划分空闲、活跃状态,建立异构多核密码处理器的能效模型.MATLAB仿真结果表明,数据准备时间占比小于10%时,对能效的负面影响大幅下降;固定电压,频率缩放会影响能效值大小;处理器核空闲/活跃能耗比例越小,能效值越大.架构上,固定异构核,同构核数量与密码任务最大并行度相等时能效值最大,最佳异构核数可由模型变化参数仿真得到;多任务调度执行上,流水与并发执行有利于能效值的进一步提升.多核密码处理器芯片板级测试结果表明,仿真结果与实测数据相关系数接近1,芯片实测的数据准备时间、电压频率缩放等因素的影响与仿真分析基本一致,验证了所提能效模型的有效性.该文重点从影响能效变化趋势因素上,为多核密码处理器异构、高能效设计提供一定的理论分析基础与建议. 展开更多
关键词 密码处理器 多核处理器 异构 AMDAHL定律 能效模型
在线阅读 下载PDF
ChipletNP:基于芯粒的敏捷可定制网络处理器架构 被引量:1
8
作者 李韬 杨惠 +2 位作者 厉俊男 刘汝霖 孙志刚 《计算机研究与发展》 EI CSCD 北大核心 2024年第12期2952-2968,共17页
5G,8K视频等新业务类型不断涌现,使得网络处理器(network processor,NP)的应用场景日趋复杂多样.为满足多样化网络应用在性能、灵活性以及服务质量保证等方面的差异化需求,传统NP试图在片上系统(system on chip,SoC)上集成大量处理器核... 5G,8K视频等新业务类型不断涌现,使得网络处理器(network processor,NP)的应用场景日趋复杂多样.为满足多样化网络应用在性能、灵活性以及服务质量保证等方面的差异化需求,传统NP试图在片上系统(system on chip,SoC)上集成大量处理器核、高速缓存、加速器等异质处理资源,提供面向多样化应用场景的敏捷可定制能力.然而,随着摩尔定律和登纳德缩放定律失效问题的逐渐凸显,单片NP芯片研制在研发周期、成本、创新迭代等方面面临巨大挑战,越来越难以为继.针对上述问题,提出新型敏捷可定制NP架构ChipletNP,基于芯粒化(Chiplet)技术解耦异质资源,在充分利用成熟芯片产品及工艺的基础上,通过多个芯粒组合,满足不同应用场景下NP的快速定制和演化发展需求.基于ChipletNP设计实现了一款集成商用CPU、FPGA(field programmable gate array)和自研敏捷交换芯粒的银河衡芯敏捷NP芯片(YHHX-NP).基于该芯片的应用部署与实验结果表明,ChipletNP可支持NP的快速敏捷定制,能够有效承载SRv6(segment routing over IPv6)等新型网络协议与网络功能部署.其中,核心的敏捷交换芯粒相较于同级商用芯片能效比提升2倍以上,延迟控制在2.82μs以内,可以有效支持面向NP的Chiplet统一通信与集成. 展开更多
关键词 网络处理器 芯粒技术 敏捷交换 分组处理 异构资源
在线阅读 下载PDF
基于TDA4VM的疲劳状态实时检测系统设计
9
作者 付丽 滕召波 +2 位作者 张一帆 罗钧 王浩程 《实验室研究与探索》 CAS 北大核心 2024年第11期26-30,38,共6页
针对传统嵌入式平台疲劳状态检测系统识别精度低和实时性差的问题,设计了一种基于TDA4VM异构多核处理器的疲劳状态实时检测系统。TDA4VM嵌入式处理器通过摄像头获取图像并进行目标检测,STM32微控制器控制外设模块,包括GPS模块、GSM模块... 针对传统嵌入式平台疲劳状态检测系统识别精度低和实时性差的问题,设计了一种基于TDA4VM异构多核处理器的疲劳状态实时检测系统。TDA4VM嵌入式处理器通过摄像头获取图像并进行目标检测,STM32微控制器控制外设模块,包括GPS模块、GSM模块和语音模块。在目标检测算法方面,先在YOLOX目标检测算法中引入注意力机制模块CBAM(Convolutional Block Attention Module),再对激活函数进行改进,并优化小滑窗替换算法。将训练后的YOLOX模型部署在硬件平台上,实际车载实验结果表明,在不同环境下疲劳状态检测精度可达到95.3%,同时还实现了30帧/s的实时检测。该检测系统具备精度高、实时性强和教学简易等特点,在实验教学和工程应用方面具有一定的参考价值。 展开更多
关键词 疲劳检测 深度学习 异构多核 处理器 YOLOX算法
在线阅读 下载PDF
适用于S-NUCA异构处理器的任务调度与热管理系统 被引量:1
10
作者 周义涛 李阳 +3 位作者 韩超 赵玉来 汪玲 李建华 《计算机工程》 CAS CSCD 北大核心 2024年第2期196-205,共10页
异构多核处理器凭借其高性能、低功耗和广泛的应用场景而成为当前计算机平台的主流方案,且大容量的非均匀缓存架构(S-NUCA)具有较低的平均访问时间。然而,不断上升的晶体管规模给异构多核处理器的资源调度和功耗控制带来挑战,传统的调... 异构多核处理器凭借其高性能、低功耗和广泛的应用场景而成为当前计算机平台的主流方案,且大容量的非均匀缓存架构(S-NUCA)具有较低的平均访问时间。然而,不断上升的晶体管规模给异构多核处理器的资源调度和功耗控制带来挑战,传统的调度算法在面对基于S-NUCA的多核处理器时忽略了核心之间的缓存访问延迟,且传统热管理方案只提供芯片级功率约束,容易使得系统因核心使用率降低而造成性能下降。为此,提出一种适用于S-NUCA异构多核系统、满足热安全约束的动态线程调度机制TSCDM。利用基于动态每周期指令(IPC)值的阶段检测技术,并基于人工神经网络预测线程的IPC值,以获取线程与核心类型的最佳绑定关系,依据S-NUCA缓存特性获得最优映射和基于任务分类的任务迁移策略。在此基础上,TSCDM基于片上热模型为每个核心实时分配功率预算。在HotSniper上运行SPLASH-2性能测试套件进行实验,结果表明,相较于传统调度方案与基于机器学习的调度方案,TSCDM在加速比和资源利用率上均表现出优势,TSCDM中使用的基于瞬态温度的安全功率算法相比传统热安全功率算法能够降低核心热余量,同时处理器的全频段均有更高的能效比。 展开更多
关键词 异构多核处理器 人工神经网络 线程调度 阶段检测 热安全功率
在线阅读 下载PDF
面向申威众核处理器的规则处理优化技术
11
作者 张振东 王彤 刘鹏 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期66-85,共20页
高性能口令恢复系统是申威众核处理器的重要应用场景之一,规则处理是主流口令恢复工具中被广泛应用的一种口令生成方式.现有相关研究工作缺少对规则处理算法的优化,导致申威处理器上基于规则的口令生成速度成为口令恢复系统的性能瓶颈.... 高性能口令恢复系统是申威众核处理器的重要应用场景之一,规则处理是主流口令恢复工具中被广泛应用的一种口令生成方式.现有相关研究工作缺少对规则处理算法的优化,导致申威处理器上基于规则的口令生成速度成为口令恢复系统的性能瓶颈.通过分析规则处理算法的多层次可并行性,提出了面向申威众核处理器的线程级、数据级优化方案.在线程级优化方案中,探索了规则处理算法的最优任务映射方式,设计了主从核任务分配机制、从核缓冲区配比优化机制、负载均衡机制、变长规则存储机制等技术以提高并行效率;在数据级优化方案中,分析了规则处理算法中规则函数的计算模式,并通过申威SIMD指令集对规则函数进行向量优化以提高执行效率.在SW26010处理器上的实验结果表明,上述优化方案有效解除了规则处理的性能瓶颈,使规则模式下的口令恢复速度提升了30~101倍. 展开更多
关键词 申威众核处理器 口令恢复 规则处理 异构计算 单指令多数据流
在线阅读 下载PDF
基于异构多核处理器的嵌入式数控系统研究 被引量:11
12
作者 陆小虎 于东 +1 位作者 胡毅 林立明 《中国机械工程》 EI CAS CSCD 北大核心 2013年第19期2623-2628,共6页
针对传统嵌入式数控系统性能差、可扩展性差、人机界面不友好等特点,结合异构多核技术和现场总线技术的优点,提出并开发了一种基于异构处理器和现场总线技术的嵌入式数控系统。该数控系统运行在异构多核处理器之上,通过在不同的处理器... 针对传统嵌入式数控系统性能差、可扩展性差、人机界面不友好等特点,结合异构多核技术和现场总线技术的优点,提出并开发了一种基于异构处理器和现场总线技术的嵌入式数控系统。该数控系统运行在异构多核处理器之上,通过在不同的处理器核心上同时运行通用系统和实时系统,采用静态划分的方式将数控系统内部的任务分配到不同的处理器核心上,使用现场总线技术实现嵌入式数控系统与伺服电机之间的连接,简化数控系统与伺服驱动器之间的连线。实验证明,开发的数控系统具有良好的实时性和扩展性,验证了设计的合理性。 展开更多
关键词 嵌入式 数控系统 异构多核处理器 现场总线
在线阅读 下载PDF
基于OpenCL的异构系统并行编程 被引量:23
13
作者 詹云 赵新灿 谭同德 《计算机工程与设计》 CSCD 北大核心 2012年第11期4191-4195,4293,共6页
针对异构处理器在传统通用计算中利用率低的问题,提出基于开放计算语言OpenCL(open computing language)的新的通用计算技术,它提供了统一的编程模型。介绍了OpenCL的特点、架构及实现原理等,并提出OpenCL性能优化策略。将OpenCL与计算... 针对异构处理器在传统通用计算中利用率低的问题,提出基于开放计算语言OpenCL(open computing language)的新的通用计算技术,它提供了统一的编程模型。介绍了OpenCL的特点、架构及实现原理等,并提出OpenCL性能优化策略。将OpenCL与计算统一设备架构CUDA(compute unified device architecture)及其它通用计算技术进行对比。对比结果表明,OpenCL能够充分发挥异构处理平台上各种处理器的性能潜力,充分合理地分配任务,为进行大规模并行计算提供了新的强有力的工具。 展开更多
关键词 异构处理器 通用计算 开放计算语言(OpenCL) 性能优化 计算统一设备架构(CUDA)
在线阅读 下载PDF
多核处理器的关键技术及其发展趋势 被引量:48
14
作者 黄国睿 张平 魏广博 《计算机工程与设计》 CSCD 北大核心 2009年第10期2414-2418,共5页
多核处理器以其高性能、低功耗优势正逐步取代传统的单处理器成为市场的主流。介绍了Hydra、Cell、RAW这3种典型的多核处理器结构,重点讨论了核心结构选择、存储结构设计、片上通信、低功耗、操作系统设计、软件应用开发等7个影响当前... 多核处理器以其高性能、低功耗优势正逐步取代传统的单处理器成为市场的主流。介绍了Hydra、Cell、RAW这3种典型的多核处理器结构,重点讨论了核心结构选择、存储结构设计、片上通信、低功耗、操作系统设计、软件应用开发等7个影响当前多核处理器发展的关键技术,最后得出多核处理器的未来将呈现众核、低功耗和异构结构3种发展趋势。 展开更多
关键词 多核处理器结构 存储结构 片上通信 低功耗 异构
在线阅读 下载PDF
异构多核处理器体系结构设计研究 被引量:24
15
作者 陈芳园 张冬松 王志英 《计算机工程与科学》 CSCD 北大核心 2011年第12期27-36,共10页
多核技术成为当今处理器发展的重要方向,异构多核处理器由于可将不同类型的计算任务分配到不同类型的处理器核上并行处理,从而为不同需求的应用提供更加灵活、高效的处理机制而成为当今研究的热点。本文从体系结构的角度探讨了异构多核... 多核技术成为当今处理器发展的重要方向,异构多核处理器由于可将不同类型的计算任务分配到不同类型的处理器核上并行处理,从而为不同需求的应用提供更加灵活、高效的处理机制而成为当今研究的热点。本文从体系结构的角度探讨了异构多核处理器设计中的关键点,从内核结构、互连方式、存储系统、操作系统支持、测试与验证、动态电压调节等方面分析了异构多核处理器对体系结构设计带来的挑战。最后本文针对高性能应用和嵌入式实时应用分析了异构多核在这两种应用中的设计关键点,指出了高性能异构多核在性能提升、内核数量以及嵌入式异构多核在实时性、低能耗需求等方面的设计难点和研究方向。 展开更多
关键词 多核处理器 异构多核处理器 体系结构 嵌入式实时系统
在线阅读 下载PDF
面向分组密码的可重构异构多核并行处理架构 被引量:7
16
作者 冯晓 李伟 +2 位作者 戴紫彬 马超 李功丽 《电子学报》 EI CAS CSCD 北大核心 2017年第6期1311-1320,共10页
现有的可重构分组密码实现结构中,专用指令处理器吞吐率不高,阵列结构资源利用率低、算法映射过程复杂.为此,设计了分组密码可重构异构多核并行处理架构RAMCA(Reconfigurable Asymmetrical Multi-Core Architecture),分析了典型SP(AES-1... 现有的可重构分组密码实现结构中,专用指令处理器吞吐率不高,阵列结构资源利用率低、算法映射过程复杂.为此,设计了分组密码可重构异构多核并行处理架构RAMCA(Reconfigurable Asymmetrical Multi-Core Architecture),分析了典型SP(AES-128)、Feistel(SMS4)、L-M(IDEA)及MISTY(KASUMI)结构算法在RAMCA上的映射过程.在65nm CMOS工艺下完成了逻辑综合和功能仿真.实验表明,RAMCA工作频率可达到1GHz,面积约为1.13mm2,消除工艺影响后,对各分组密码算法的运算速度均高于现有专用指令处理器以及Celator、RCPA和BCORE等阵列结构密码处理系统. 展开更多
关键词 分组密码 异构多核 可重构 并行处理 密码处理器
在线阅读 下载PDF
异构机群系统中的最优处理机分配算法 被引量:8
17
作者 温钰洪 王鼎兴 郑纬民 《计算机学报》 EI CSCD 北大核心 1996年第3期161-167,共7页
在异构机群系统的并行计算中,处理机结点的划分及并行子任务在处理机上的映射将直接影响到应用程序并行计算的性能.本论文将通过对影响并行计算性能的主要参数的分析,提出一个基于人工智能A*算法的最优处理机分配算法,为高性能的... 在异构机群系统的并行计算中,处理机结点的划分及并行子任务在处理机上的映射将直接影响到应用程序并行计算的性能.本论文将通过对影响并行计算性能的主要参数的分析,提出一个基于人工智能A*算法的最优处理机分配算法,为高性能的异构机群系统并行计算提供理论支持. 展开更多
关键词 异构机群系统 处理机 分配 算法
在线阅读 下载PDF
基于机器学习的异构多核处理器系统在线映射方法 被引量:16
18
作者 安鑫 张影 +2 位作者 康安 陈田 李建华 《计算机应用》 CSCD 北大核心 2019年第6期1753-1759,共7页
异构多核处理器(HMPs)平台已成为现代嵌入式系统的主流解决方案,其中在线映射或调度对充分发挥其高性能和低功耗的优势起着至关重要的作用。针对HMPs的应用任务动态映射问题,提出了一种基于机器学习预测模型的在线映射调度解决方案。一... 异构多核处理器(HMPs)平台已成为现代嵌入式系统的主流解决方案,其中在线映射或调度对充分发挥其高性能和低功耗的优势起着至关重要的作用。针对HMPs的应用任务动态映射问题,提出了一种基于机器学习预测模型的在线映射调度解决方案。一方面,构建了一个可以快速高效地预测和评估不同映射方案性能的机器学习模型,为在线调度提供支持;另一方面,将该机器学习模型整合到遗传算法中以高效地找到(接近)最优的资源分配方案。最后,通过一个M-JPEG解码器验证了所提方法的有效性。实验结果表明,该方法的平均执行时间相较于常见的轮询调度和抽样调度方法分别降低了28%和19%左右。 展开更多
关键词 异构多核处理器 机器学习 动态资源分配 性能预测 映射和调度
在线阅读 下载PDF
面向数据库查询加速的异构体系结构设计与实现 被引量:11
19
作者 李仁刚 任智新 +3 位作者 黄广奎 孙颉 王峰 张闯 《计算机工程与科学》 CSCD 北大核心 2020年第12期2169-2178,共10页
数据库是数据分析、人工智能、云计算和大数据等领域的关键工作负载,是提高系统整体性能的关键。传统数据库系统查询执行效率偏低,并且CPU通常需要优先处理事务性负载,使数据查询逐渐成为制约整个数据库系统性能和效率提升的瓶颈。为了... 数据库是数据分析、人工智能、云计算和大数据等领域的关键工作负载,是提高系统整体性能的关键。传统数据库系统查询执行效率偏低,并且CPU通常需要优先处理事务性负载,使数据查询逐渐成为制约整个数据库系统性能和效率提升的瓶颈。为了提高数据库在大规模并发访问时的数据处理能力,提出了一种CPU+FPGA加速数据库查询的异构体系结构,通过使用异构缓存一致性加速接口将加速器集成到CPU中,在FPGA内定制可配置的多引擎查询方式,对数据库查询进行加速。聚焦常用的SQL查询语句SELECT,详细分析了系统在延迟和简化的软件堆栈方面的优势,最后使用浪潮F37X加速卡和浪潮服务器对加速模型功能和性能进行了验证。实验结果表明,与使用POWER 9 CPU进行同样的查询操作相比,数据库系统整体处理速度提高了3~9倍,这种先进的异构计算加速结构可应用在未来数据库硬件专业化的设计中。 展开更多
关键词 数据库查询 异构计算 异构体系结构 异构缓存一致性 POSTGRESQL
在线阅读 下载PDF
基于神威太湖之光的NAMD软件的移植与优化 被引量:12
20
作者 姚文军 陈俊仕 +3 位作者 苏志超 余洋 廖陈志 安虹 《计算机工程与科学》 CSCD 北大核心 2017年第6期1022-1030,共9页
纳米级粒度分子动力学NAMD是基于Charm++并行编程模型的开源免费分子动力学模拟软件,能够在大规模并行计算机上快速模拟百万原子级别的大分子体系。太湖之光是中国自主研发的超级计算机,峰值性能为125.4Pflop/s,共有1 000多万个核心,整... 纳米级粒度分子动力学NAMD是基于Charm++并行编程模型的开源免费分子动力学模拟软件,能够在大规模并行计算机上快速模拟百万原子级别的大分子体系。太湖之光是中国自主研发的超级计算机,峰值性能为125.4Pflop/s,共有1 000多万个核心,整机Linpack效率不低于70%。NAMD在空间上对原子进行划分,在计算上对力进行划分,充分曝露出单步模拟的并行度,并通过CHARM++对负载平衡进行调控。针对NAMD进行模拟计算时的特点,移植并优化了NAMD的核心计算代码,让其能够更好地运行在超级计算机神威太湖之光上,优化后性能提高了近20倍,单个核组的性能较Intel XeonE5-2650v2提高3倍。扩展性方面目前至多可达到325万核的并行度,突破百万核大关。 展开更多
关键词 分子动力学模拟 神威超级计算机 异构多核处理器
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部