检索结果-维普期刊中文期刊服务平台

基于K Framework的向量化机器学习指令语义形式化: 1; 作者黄厚华刘嘉祥施晓牧《软件学报》 EI CSCD 北大核心 2023年第8期3853-3869,共17页; ARM针对ARMv8.1-M微处理器架构推出基于M-Profile向量化扩展方案的技术,并命名为ARM Helium,声明能为ARM Cortex-M处理器提升达15倍的机器学习性能.随着物联网的高速发展,微处理器指令执行正确性尤为重要.指令集的官方手册作为芯片模拟... 展开更多; 关键词 ARMv8.1-M架构向量化指令机器学习 K Framework 形式化语义; 在线阅读下载PDF 职称材料

非正规化循环的单指令多数据向量化被引量：1: 2; 作者侯永生赵荣彩 +1 位作者高伟高伟《计算机应用》 CSCD 北大核心 2013年第11期3149-3154,共6页; 针对非正规化循环的上下界、步长等循环信息不确定的问题,解决了循环条件为逻辑表达式、增量减量语句和do-while循环的正规化问题。对不能正规化的循环提出了一种展开压紧算法,并用超字并行向量化方法发掘展开压紧的结果。实验结果表明... 展开更多; 关键词非正规化循环单指令多数据向量化展开压紧依赖关系分析; 在线阅读下载PDF 职称材料

一种单指令多数据向量化归约方法被引量：1: 3; 作者韩林高伟 +2 位作者王冬王鹏翔李颖颖《计算机工程》 CAS CSCD 北大核心 2017年第7期9-14,共6页; 单指令多数据(SIMD)扩展部件旨在发掘多媒体程序和科学计算程序的数据级并行,归约操作引起的真依赖给发掘程序中的数据级并行带来了阻碍。但体系结构和指令集的差异,使得面向向量机的归约向量化方法并不适用于SIMD扩展部件。针对上述问... 展开更多; 关键词单指令多数据向量化归约依赖分析代码生成并行性; 在线阅读下载PDF 职称材料

向量数学库的向量化方法研究被引量：10: 4; 作者周蓓黄永忠 +1 位作者许瑾晨郭绍忠《计算机科学》 CSCD 北大核心 2019年第1期320-324,共5页; SIMD技术的出现使得基础数学库扩展到向量数学库成为必然趋势。基础数学库中多数函数存在代码实现复杂、分支判断多的特点,增加了向量化的难度,同时SIMD指令的不完备导致函数中的部分功能无法直接向量化,频繁的拆分和拼接操作降低了函... 展开更多; 关键词 SIMD技术向量数学库核心代码段数据预处理指令向量化; 在线阅读下载PDF 职称材料

异构HPL算法中CPU端高性能BLAS库优化被引量：2: 5; 作者蔡雨孙成国 +3 位作者杜朝晖刘子行康梦博李双双《软件学报》 EI CSCD 北大核心 2021年第8期2289-2306,共18页; 异构HPL(high-performance Linpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整... 展开更多; 关键词 BLAS 遗传算法auto-tuning 向量化指令数据预取多线程并行; 在线阅读下载PDF 职称材料

题名基于K Framework的向量化机器学习指令语义形式化: 1; 作者黄厚华刘嘉祥施晓牧; 机构深圳大学计算机与软件学院; 出处《软件学报》 EI CSCD 北大核心 2023年第8期3853-3869,共17页; 基金深圳市科创委基础研究面上项目(JCYJ20210324094202008) 国家自然科学基金(62002228) 深圳市高等院校稳定支持计划(20200810045225001)。; 文摘 ARM针对ARMv8.1-M微处理器架构推出基于M-Profile向量化扩展方案的技术,并命名为ARM Helium,声明能为ARM Cortex-M处理器提升达15倍的机器学习性能.随着物联网的高速发展,微处理器指令执行正确性尤为重要.指令集的官方手册作为芯片模拟程序,片上应用程序开发的依据,是程序正确性基本保障.主要介绍利用可执行语义框架K Framework对ARMv8.1-M官方参考手册中向量化机器学习指令的语义正确性研究.基于ARMv8.1-M的官方参考手册自动提取指令集中描述向量化机器学习指令执行过程的伪代码,并将其转换为形式化语义转换规则.通过K Framework提供的可执行框架利用测试用例,验证机器学习指令算数运算执行的正确性.; 关键词 ARMv8.1-M架构向量化指令机器学习 K Framework 形式化语义; Keywords ARMv8.1-M architecture vectorized instruction machine learning K Framework formal semantics; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名非正规化循环的单指令多数据向量化被引量：1: 2; 作者侯永生赵荣彩高伟高伟; 机构数学工程与先进计算国家重点实验室信息工程大学; 出处《计算机应用》 CSCD 北大核心 2013年第11期3149-3154,共6页; 文摘针对非正规化循环的上下界、步长等循环信息不确定的问题,解决了循环条件为逻辑表达式、增量减量语句和do-while循环的正规化问题。对不能正规化的循环提出了一种展开压紧算法,并用超字并行向量化方法发掘展开压紧的结果。实验结果表明,与现有的非正规化循环的单指令多数据(SIMD)向量化方法相比,所提出的转换方法和展开压紧方法能够更好地发掘非正规化循环的向量化特性,生成代码的性能加速比提高了6%以上。; 关键词非正规化循环单指令多数据向量化展开压紧依赖关系分析; Keywords non-noramlized loop Single Instruction Multiple Data (SIMD) vectorization unroll and jam datadependence analysis; 分类号 TP314 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名一种单指令多数据向量化归约方法被引量：1: 3; 作者韩林高伟王冬王鹏翔李颖颖; 机构信息工程大学网络空间安全学院; 出处《计算机工程》 CAS CSCD 北大核心 2017年第7期9-14,共6页; 基金数学工程与先进计算国家重点实验室开放课题(2013A11) 郑州市科技局前沿技术研究计划项目(141PQYJS558); 文摘单指令多数据(SIMD)扩展部件旨在发掘多媒体程序和科学计算程序的数据级并行,归约操作引起的真依赖给发掘程序中的数据级并行带来了阻碍。但体系结构和指令集的差异,使得面向向量机的归约向量化方法并不适用于SIMD扩展部件。针对上述问题,提出一种面向SIMD扩展部件的归约向量代码生成方法,以及归约的识别方法,利用向量移位指令实现向量代码生成。基于SPEC2006标准测试集的测试结果表明,与未利用归约向量化技术前相比,利用该归约向量化方法后的向量化加速比提高34%,从而验证了该方法的有效性。; 关键词单指令多数据向量化归约依赖分析代码生成并行性; Keywords Single Instruction Multiple Data（SIMD） vectorization reduction dependence analysis code generation parallelism; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名向量数学库的向量化方法研究被引量：10: 4; 作者周蓓黄永忠许瑾晨郭绍忠; 机构数学工程与先进计算国家重点实验室桂林电子科技大学; 出处《计算机科学》 CSCD 北大核心 2019年第1期320-324,共5页; 基金面向100P高效能计算机的基础数学库系统项目国家重点研发计划"高性能计算"重点专项:E级计算机关键技术验证系统(2016YFB0200503)资助; 文摘 SIMD技术的出现使得基础数学库扩展到向量数学库成为必然趋势。基础数学库中多数函数存在代码实现复杂、分支判断多的特点,增加了向量化的难度,同时SIMD指令的不完备导致函数中的部分功能无法直接向量化,频繁的拆分和拼接操作降低了函数的性能。针对这些问题,提出了向量数学库的向量化方法,通过确定核心代码段、数据预处理过程向量化及指令向量化3个步骤,可以快速有效地对基础数学库进行向量化。实验表明,运用该方法,exp,pow,log10等典型函数的性能平均提高了24.2%。; 关键词 SIMD技术向量数学库核心代码段数据预处理指令向量化; Keywords SIMD technique Vector math library Key code segment Data pre-processing Instruction vectoring; 分类号 TP313 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名异构HPL算法中CPU端高性能BLAS库优化被引量：2: 5; 作者蔡雨孙成国杜朝晖刘子行康梦博李双双; 机构信息技术有限公司; 出处《软件学报》 EI CSCD 北大核心 2021年第8期2289-2306,共18页; 文摘异构HPL(high-performance Linpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系结构特点对BLAS(basic linear algebra subprograms)函数进行优化往往可以更加充分地利用通用CPU计算能力,提高系统整体效率.BLIS(BLAS-like library instantiation software)算法库是开源的BLAS函数框架,具有易开发、易移植和模块化等优点.基于异构系统平台体系结构以及HPL算法特点,充分利用三级缓存、向量化指令和多线程并行等技术手段优化CPU端调用的各级BLAS函数,应用auto-tuning技术优化矩阵分块参数,从而形成了异构环境下优化的BLIS算法库HBLIS.与MKL相比,HPL整体性能提高了11.8%.; 关键词 BLAS 遗传算法auto-tuning 向量化指令数据预取多线程并行; Keywords BLAS genetic algorithm auto-tuning vectorization instruction data prefetching multi-threading parallelization; 分类号 TP303 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于K Framework的向量化机器学习指令语义形式化	黄厚华刘嘉祥施晓牧	《软件学报》 EI CSCD 北大核心	2023	0	在线阅读下载PDF 职称材料
2	非正规化循环的单指令多数据向量化	侯永生赵荣彩高伟高伟	《计算机应用》 CSCD 北大核心	2013	1	在线阅读下载PDF 职称材料
3	一种单指令多数据向量化归约方法	韩林高伟王冬王鹏翔李颖颖	《计算机工程》 CAS CSCD 北大核心	2017	1	在线阅读下载PDF 职称材料
4	向量数学库的向量化方法研究	周蓓黄永忠许瑾晨郭绍忠	《计算机科学》 CSCD 北大核心	2019	10	在线阅读下载PDF 职称材料
5	异构HPL算法中CPU端高性能BLAS库优化	蔡雨孙成国杜朝晖刘子行康梦博李双双	《软件学报》 EI CSCD 北大核心	2021	2	在线阅读下载PDF 职称材料