期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
针对子程序结构的线程级推测并行性分析 被引量:6
1
作者 梁博 安虹 +1 位作者 王莉 王耀彬 《小型微型计算机系统》 CSCD 北大核心 2009年第2期230-235,共6页
线程级推测技术为开发更多的线程级并行性,充分利用多核加速传统上难以手工或自动并行化的串行程序提供可行的技术途径.然而,这种技术的性能严重地依赖于线程划分方案.有研究表明,仅推测执行循环所产生的并行性是不够的,但推测执行子程... 线程级推测技术为开发更多的线程级并行性,充分利用多核加速传统上难以手工或自动并行化的串行程序提供可行的技术途径.然而,这种技术的性能严重地依赖于线程划分方案.有研究表明,仅推测执行循环所产生的并行性是不够的,但推测执行子程序结构比循环结构要难.本文提出寻找适于推测并行执行的子程序结构的基本判定依据;通过运行由Simplescalar工具集改造得到的动态剖析工具ProRV、ProFun和SPEC CPU2000基准测试程序,我们对子程序结构线程化推测执行的适合性进行详细分析,给出具有指导意义的实验分析方法和实验数据.我们发现:1无返回值的子程序结构占据程序整体执行时间的大约40%;返回稀疏整型的子程序结构占据了程序整体执行时间的大约10%,对其返回值的预测成功率在70%左右.对于其他返回值类型的子程序结构,由于对其返回值的预测成功率过低,我们认为不适合作为线程划分的对象.2简单的last-value的值预测方案对于返回值的预测是简单而且足够有效的.3访存数据依赖普遍存在于子程序与其后继代码之间,显式同步机制对于针对子程序结构的线程级推测是必要的. 展开更多
关键词 线程级推测 串行程序自动并行化 子程序结构 动态剖析 数据依赖分析
在线阅读 下载PDF
用线程级推测技术在多核体系结构上并行化科学计算应用 被引量:2
2
作者 王耀彬 安虹 +2 位作者 郭锐 闫洁 路璐 《小型微型计算机系统》 CSCD 北大核心 2010年第2期264-270,共7页
线程级推测技术使在多核上加速传统上难以手工或自动并行化的串行程序成为可能,它不仅需要合理地选择线程的划分策略,而且需要合理地选择适合推测执行的应用.已有的大量研究主要集中在如SPEC CPU这样的桌面应用领域,为了全面地认识TLS... 线程级推测技术使在多核上加速传统上难以手工或自动并行化的串行程序成为可能,它不仅需要合理地选择线程的划分策略,而且需要合理地选择适合推测执行的应用.已有的大量研究主要集中在如SPEC CPU这样的桌面应用领域,为了全面地认识TLS技术的应用适用性,本文探讨TLS技术对科学计算应用的性能提升潜力,提出一套TLS适用性的基本判定准则,实验结果表明采用该技术加速SPLASH2中的多数应用可以有效利用16核及以上的计算资源. 展开更多
关键词 多核 线程级推测 线程划分 动态剖析
在线阅读 下载PDF
众核结构上线程级推测执行能力评估器设计
3
作者 任永青 安虹 孙涛 《小型微型计算机系统》 CSCD 北大核心 2011年第5期1012-1016,共5页
由成百上千处理器核构成的众核处理器在提供大量计算能力的同时,也对如何高效利用资源提出挑战;具有不同并行度的应用对处理器核资源有不同的需求,不合理的分配会造成资源浪费(分配过多)或者限制并行性开发(分配过少).针对众核结构上串... 由成百上千处理器核构成的众核处理器在提供大量计算能力的同时,也对如何高效利用资源提出挑战;具有不同并行度的应用对处理器核资源有不同的需求,不合理的分配会造成资源浪费(分配过多)或者限制并行性开发(分配过少).针对众核结构上串行程序线程级推测执行面临的处理器核资源分配问题,提出一种基于硬件的推测执行能力监测和评估机制,设计三种线程级推测执行能力评估器;该评估器能够根据串行程序推测执行能力的动态变化,对应用分配的处理器核资源数量进行实时调整.实验结果表明,利用一个硬件开销极小的评估器对众核平台上串行程序的线程级推测执行进行资源分配指导,即可使性能和资源利用率达到有效的平衡. 展开更多
关键词 众核处理器 资源利用率 线程级推测 推测执行能力评估器
在线阅读 下载PDF
嵌入式应用中的循环级线程推测并行性分析
4
作者 卜得庆 王耀彬 +4 位作者 李凌 杨洋 程一鸣 刘志勤 吴亚东 《计算机应用研究》 CSCD 北大核心 2019年第9期2691-2695,共5页
如何有效利用多核提供的丰富晶体管资源对串行程序的执行进行加速是当前研究中的热点问题。线程级推测(thread-level speculation,TLS)技术旨在充分利用多核资源,最大化地开发出串行代码中存在的潜在并行性。目前TLS技术已经在多种串行... 如何有效利用多核提供的丰富晶体管资源对串行程序的执行进行加速是当前研究中的热点问题。线程级推测(thread-level speculation,TLS)技术旨在充分利用多核资源,最大化地开发出串行代码中存在的潜在并行性。目前TLS技术已经在多种串行应用的并行化工作中得到有效利用,但嵌入式应用程序仍未在推测并行化方面进行有效的分析。因此,选取了八个具有代表性的嵌入式应用,对其在循环级推测并行化中的性能提升潜力和运行时特征(数据依赖、线程粒度和并行覆盖率)进行探讨。实验结果表明,利用线程级推测并行化嵌入式应用的加速效果优于指令级并行技术,实验中的最大加速比达到了13. 29;在嵌入式应用领域,该技术可以有效地利用4~8核的计算资源。 展开更多
关键词 线程级推测 多核 嵌入式应用 数据依赖
在线阅读 下载PDF
基于性能预测的推测多线程循环选择方法 被引量:7
5
作者 刘斌 赵银亮 +4 位作者 韩博 李玉祥 吉烁 冯博琴 武万杰 《电子与信息学报》 EI CSCD 北大核心 2014年第11期2768-2774,共7页
线程级推测(Thread-Level Speculation,TLS)是多核上一种加速串行程序的线程级自动并行化技术。循环具有规则的结构并在运行时占有大量的执行时间,因此循环是挖掘并行性的理想对象。然而,选择哪些循环并行才能提高程序的加速比是一个很... 线程级推测(Thread-Level Speculation,TLS)是多核上一种加速串行程序的线程级自动并行化技术。循环具有规则的结构并在运行时占有大量的执行时间,因此循环是挖掘并行性的理想对象。然而,选择哪些循环并行才能提高程序的加速比是一个很难决定的问题。为了解决该问题,该文提出一种基于性能预测的循环选择方法。基于输入训练集获取程序预执行的剖析信息,同时结合各种推测因素,构建了循环结构的性能预测模型。预测结果定量评估了循环推测并行的加速比并决定该循环在运行时是否适合并行。实验结果表明,该文提出的方法能有效地预测循环并行时所蕴含的并行性,并依据预测结果准确地选择具有并行收益的循环推测并行,最终Olden基准测试集加速比性能平均提升了12.34%。 展开更多
关键词 并行处理 线程级推测 循环选择 性能预测
在线阅读 下载PDF
HPEC中子程序级推测并行性分析
6
作者 王欣夷 王耀彬 +3 位作者 李凌 杨洋 卜得庆 刘志勤 《计算机工程》 CAS CSCD 北大核心 2020年第8期210-215,222,共7页
线程级推测(TLS)技术的有效运用可提高多核芯片的硬件资源利用率,其已在多种串行应用的自动并行化工作中取得了较好效果,但目前缺乏对HPEC应用子程序级线程推测方面的有效分析。针对该问题,设计子程序级推测的剖析机制及核心数据结构,选... 线程级推测(TLS)技术的有效运用可提高多核芯片的硬件资源利用率,其已在多种串行应用的自动并行化工作中取得了较好效果,但目前缺乏对HPEC应用子程序级线程推测方面的有效分析。针对该问题,设计子程序级推测的剖析机制及核心数据结构,选取HPEC中7个具有代表性的程序,挖掘其子程序级的最大潜在并行性,并结合线程粒度、并行覆盖率、子程序调用次数、数据依赖及源码,对程序的加速比进行分析。实验结果表明,fdfir、svd、db和ga程序的加速比在2.23~11.31,tdfir程序的加速效果最好,加速比达到221.78,对于包含多次非重度数据依赖子程序调用的应用,更适合采用子程序级TLS技术测试其并行性。 展开更多
关键词 线程级推测 多核芯片 HPEC基准套件 数据依赖 动态剖析
在线阅读 下载PDF
TACLeBench中内核程序循环级推测并行性分析
7
作者 孟慧玲 王耀彬 +3 位作者 李凌 杨洋 王欣夷 刘志勤 《计算机应用》 CSCD 北大核心 2021年第9期2652-2657,共6页
线程级推测(TLS)技术可挖掘程序并行执行潜能,提高多核资源利用率,但目前TACLeBench的内核基准仍未在TLS并行化中得到有效分析。针对该问题设计了循环级推测执行的剖析方案和剖析工具。选取7个代表性的TACLeBench内核基准程序,首先对程... 线程级推测(TLS)技术可挖掘程序并行执行潜能,提高多核资源利用率,但目前TACLeBench的内核基准仍未在TLS并行化中得到有效分析。针对该问题设计了循环级推测执行的剖析方案和剖析工具。选取7个代表性的TACLeBench内核基准程序,首先对程序进行初始化分析,选取程序热点片段插入循环标识;其次对这些片段进行交叉编译,记录程序推测线程与内存地址相关数据,剖析其循环级最大潜在并行性;最后综合探讨程序运行时的特征(线程粒度、可并行化覆盖率、依赖特征)以及源码对加速比的影响。实验结果表明:1)该类程序适合采用TLS加速,与串行执行结果相比,循环结构的推测执行下的大部分程序的加速比在2以上,其中最高加速比达到20.79;2)利用TLS加速TACLeBench内核程序时,多数应用可有效利用4核到16核的计算资源。 展开更多
关键词 线程级推测 多核 并行 TACLeBench 内核基准
在线阅读 下载PDF
支持推测并行化的事务存储硬件模拟系统
8
作者 李颀 安虹 +1 位作者 李功明 邓博斌 《小型微型计算机系统》 CSCD 北大核心 2013年第5期1102-1107,共6页
多核处理器通过增加处理器核数提高计算能力,虽然可以通过同时运行多道程序的方式利用处理器资源,但是多核处理器真正的成功取决于解决并行应用开发中的难题.为此,处理器体系结构和编程模型的协同开发是必须的.而随着核数的增多,传统上... 多核处理器通过增加处理器核数提高计算能力,虽然可以通过同时运行多道程序的方式利用处理器资源,但是多核处理器真正的成功取决于解决并行应用开发中的难题.为此,处理器体系结构和编程模型的协同开发是必须的.而随着核数的增多,传统上使用的软件模拟器因为软件的串行性而性能越来越差,无法支持这种软硬件协同开发.FPGA天生的并行性使它在模拟多核处理器时具有较高的模拟性能和高度的可扩放性,成为处理器体系结构研究的理想工具.本文介绍了基于FPGA的多核模拟系统,RAMP-Pink.该系统基于HASim实现,同时支持事务存储和线程级推测,用于对事务存储和线程级推测的软硬件协同开发.该模拟系统可配置不同的FPGA开发平台,也可以以软件模拟方式运行. 展开更多
关键词 多核处理器 FPGA 模拟器 事务存储 线程级推测
在线阅读 下载PDF
基于程序特征的线程划分方法的研究 被引量:2
9
作者 马巧梅 《计算机科学与探索》 CSCD 北大核心 2018年第6期872-885,共14页
作为一种线程级自动并行化技术,线程级推测(thread-level speculation,TLS)能够将非规则串行程序划分为多个线程,并采用一种激进的方式在多核体系结构上并行执行这些线程,以此提高程序的执行加速性能。针对现有的启发式划分方法对不同... 作为一种线程级自动并行化技术,线程级推测(thread-level speculation,TLS)能够将非规则串行程序划分为多个线程,并采用一种激进的方式在多核体系结构上并行执行这些线程,以此提高程序的执行加速性能。针对现有的启发式划分方法对不同特征的程序采用的策略划分,导致部分程序划分效果较差的问题,提出利用机器学习方法从TLS样本集中学习线程划分的知识,并根据程序的特征预测其划分方案,并利用此划分方案对其进行划分。在Prophet编译系统上使用Olden基准程序集对基于程序特征的线程划分方法进行评估,并与传统的基于启发式规则划分效果进行比较,实验结果表明,比启发式规则划分方案获得的加速比平均提升了18.24%。 展开更多
关键词 线程级推测 线程划分 程序特征 划分方案
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部