期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于K Framework的向量化机器学习指令语义形式化
1
作者
黄厚华
刘嘉祥
施晓牧
《软件学报》
EI
CSCD
北大核心
2023年第8期3853-3869,共17页
ARM针对ARMv8.1-M微处理器架构推出基于M-Profile向量化扩展方案的技术,并命名为ARM Helium,声明能为ARM Cortex-M处理器提升达15倍的机器学习性能.随着物联网的高速发展,微处理器指令执行正确性尤为重要.指令集的官方手册作为芯片模拟...
ARM针对ARMv8.1-M微处理器架构推出基于M-Profile向量化扩展方案的技术,并命名为ARM Helium,声明能为ARM Cortex-M处理器提升达15倍的机器学习性能.随着物联网的高速发展,微处理器指令执行正确性尤为重要.指令集的官方手册作为芯片模拟程序,片上应用程序开发的依据,是程序正确性基本保障.主要介绍利用可执行语义框架K Framework对ARMv8.1-M官方参考手册中向量化机器学习指令的语义正确性研究.基于ARMv8.1-M的官方参考手册自动提取指令集中描述向量化机器学习指令执行过程的伪代码,并将其转换为形式化语义转换规则.通过K Framework提供的可执行框架利用测试用例,验证机器学习指令算数运算执行的正确性.
展开更多
关键词
ARMv8.1-M架构
向量化指令
机器学习
K
Framework
形式化语义
在线阅读
下载PDF
职称材料
非正规化循环的单指令多数据向量化
被引量:
1
2
作者
侯永生
赵荣彩
+1 位作者
高伟
高伟
《计算机应用》
CSCD
北大核心
2013年第11期3149-3154,共6页
针对非正规化循环的上下界、步长等循环信息不确定的问题,解决了循环条件为逻辑表达式、增量减量语句和do-while循环的正规化问题。对不能正规化的循环提出了一种展开压紧算法,并用超字并行向量化方法发掘展开压紧的结果。实验结果表明...
针对非正规化循环的上下界、步长等循环信息不确定的问题,解决了循环条件为逻辑表达式、增量减量语句和do-while循环的正规化问题。对不能正规化的循环提出了一种展开压紧算法,并用超字并行向量化方法发掘展开压紧的结果。实验结果表明,与现有的非正规化循环的单指令多数据(SIMD)向量化方法相比,所提出的转换方法和展开压紧方法能够更好地发掘非正规化循环的向量化特性,生成代码的性能加速比提高了6%以上。
展开更多
关键词
非正规化循环
单
指令
多数据
向量化
展开压紧
依赖关系分析
在线阅读
下载PDF
职称材料
一种单指令多数据向量化归约方法
被引量:
1
3
作者
韩林
高伟
+2 位作者
王冬
王鹏翔
李颖颖
《计算机工程》
CAS
CSCD
北大核心
2017年第7期9-14,共6页
单指令多数据(SIMD)扩展部件旨在发掘多媒体程序和科学计算程序的数据级并行,归约操作引起的真依赖给发掘程序中的数据级并行带来了阻碍。但体系结构和指令集的差异,使得面向向量机的归约向量化方法并不适用于SIMD扩展部件。针对上述问...
单指令多数据(SIMD)扩展部件旨在发掘多媒体程序和科学计算程序的数据级并行,归约操作引起的真依赖给发掘程序中的数据级并行带来了阻碍。但体系结构和指令集的差异,使得面向向量机的归约向量化方法并不适用于SIMD扩展部件。针对上述问题,提出一种面向SIMD扩展部件的归约向量代码生成方法,以及归约的识别方法,利用向量移位指令实现向量代码生成。基于SPEC2006标准测试集的测试结果表明,与未利用归约向量化技术前相比,利用该归约向量化方法后的向量化加速比提高34%,从而验证了该方法的有效性。
展开更多
关键词
单
指令
多数据
向量化
归约
依赖分析
代码生成
并行性
在线阅读
下载PDF
职称材料
向量数学库的向量化方法研究
被引量:
10
4
作者
周蓓
黄永忠
+1 位作者
许瑾晨
郭绍忠
《计算机科学》
CSCD
北大核心
2019年第1期320-324,共5页
SIMD技术的出现使得基础数学库扩展到向量数学库成为必然趋势。基础数学库中多数函数存在代码实现复杂、分支判断多的特点,增加了向量化的难度,同时SIMD指令的不完备导致函数中的部分功能无法直接向量化,频繁的拆分和拼接操作降低了函...
SIMD技术的出现使得基础数学库扩展到向量数学库成为必然趋势。基础数学库中多数函数存在代码实现复杂、分支判断多的特点,增加了向量化的难度,同时SIMD指令的不完备导致函数中的部分功能无法直接向量化,频繁的拆分和拼接操作降低了函数的性能。针对这些问题,提出了向量数学库的向量化方法,通过确定核心代码段、数据预处理过程向量化及指令向量化3个步骤,可以快速有效地对基础数学库进行向量化。实验表明,运用该方法,exp,pow,log10等典型函数的性能平均提高了24.2%。
展开更多
关键词
SIMD技术
向量数学库
核心代码段
数据预处理
指令
向量化
在线阅读
下载PDF
职称材料
异构HPL算法中CPU端高性能BLAS库优化
被引量:
2
5
作者
蔡雨
孙成国
+3 位作者
杜朝晖
刘子行
康梦博
李双双
《软件学报》
EI
CSCD
北大核心
2021年第8期2289-2306,共18页
异构HPL(high-performance Linpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整...
异构HPL(high-performance Linpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系结构特点对BLAS(basic linear algebra subprograms)函数进行优化往往可以更加充分地利用通用CPU计算能力,提高系统整体效率.BLIS(BLAS-like library instantiation software)算法库是开源的BLAS函数框架,具有易开发、易移植和模块化等优点.基于异构系统平台体系结构以及HPL算法特点,充分利用三级缓存、向量化指令和多线程并行等技术手段优化CPU端调用的各级BLAS函数,应用auto-tuning技术优化矩阵分块参数,从而形成了异构环境下优化的BLIS算法库HBLIS.与MKL相比,HPL整体性能提高了11.8%.
展开更多
关键词
BLAS
遗传算法auto-tuning
向量化指令
数据预取
多线程并行
在线阅读
下载PDF
职称材料
题名
基于K Framework的向量化机器学习指令语义形式化
1
作者
黄厚华
刘嘉祥
施晓牧
机构
深圳大学计算机与软件学院
出处
《软件学报》
EI
CSCD
北大核心
2023年第8期3853-3869,共17页
基金
深圳市科创委基础研究面上项目(JCYJ20210324094202008)
国家自然科学基金(62002228)
深圳市高等院校稳定支持计划(20200810045225001)。
文摘
ARM针对ARMv8.1-M微处理器架构推出基于M-Profile向量化扩展方案的技术,并命名为ARM Helium,声明能为ARM Cortex-M处理器提升达15倍的机器学习性能.随着物联网的高速发展,微处理器指令执行正确性尤为重要.指令集的官方手册作为芯片模拟程序,片上应用程序开发的依据,是程序正确性基本保障.主要介绍利用可执行语义框架K Framework对ARMv8.1-M官方参考手册中向量化机器学习指令的语义正确性研究.基于ARMv8.1-M的官方参考手册自动提取指令集中描述向量化机器学习指令执行过程的伪代码,并将其转换为形式化语义转换规则.通过K Framework提供的可执行框架利用测试用例,验证机器学习指令算数运算执行的正确性.
关键词
ARMv8.1-M架构
向量化指令
机器学习
K
Framework
形式化语义
Keywords
ARMv8.1-M architecture
vectorized instruction
machine learning
K Framework
formal semantics
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
非正规化循环的单指令多数据向量化
被引量:
1
2
作者
侯永生
赵荣彩
高伟
高伟
机构
数学工程与先进计算国家重点实验室信息工程大学
出处
《计算机应用》
CSCD
北大核心
2013年第11期3149-3154,共6页
文摘
针对非正规化循环的上下界、步长等循环信息不确定的问题,解决了循环条件为逻辑表达式、增量减量语句和do-while循环的正规化问题。对不能正规化的循环提出了一种展开压紧算法,并用超字并行向量化方法发掘展开压紧的结果。实验结果表明,与现有的非正规化循环的单指令多数据(SIMD)向量化方法相比,所提出的转换方法和展开压紧方法能够更好地发掘非正规化循环的向量化特性,生成代码的性能加速比提高了6%以上。
关键词
非正规化循环
单
指令
多数据
向量化
展开压紧
依赖关系分析
Keywords
non-noramlized loop
Single Instruction Multiple Data (SIMD) vectorization
unroll and jam
datadependence analysis
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
一种单指令多数据向量化归约方法
被引量:
1
3
作者
韩林
高伟
王冬
王鹏翔
李颖颖
机构
信息工程大学网络空间安全学院
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第7期9-14,共6页
基金
数学工程与先进计算国家重点实验室开放课题(2013A11)
郑州市科技局前沿技术研究计划项目(141PQYJS558)
文摘
单指令多数据(SIMD)扩展部件旨在发掘多媒体程序和科学计算程序的数据级并行,归约操作引起的真依赖给发掘程序中的数据级并行带来了阻碍。但体系结构和指令集的差异,使得面向向量机的归约向量化方法并不适用于SIMD扩展部件。针对上述问题,提出一种面向SIMD扩展部件的归约向量代码生成方法,以及归约的识别方法,利用向量移位指令实现向量代码生成。基于SPEC2006标准测试集的测试结果表明,与未利用归约向量化技术前相比,利用该归约向量化方法后的向量化加速比提高34%,从而验证了该方法的有效性。
关键词
单
指令
多数据
向量化
归约
依赖分析
代码生成
并行性
Keywords
Single Instruction Multiple Data(SIMD) vectorization
reduction
dependence analysis
code generation
parallelism
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
向量数学库的向量化方法研究
被引量:
10
4
作者
周蓓
黄永忠
许瑾晨
郭绍忠
机构
数学工程与先进计算国家重点实验室
桂林电子科技大学
出处
《计算机科学》
CSCD
北大核心
2019年第1期320-324,共5页
基金
面向100P高效能计算机的基础数学库系统项目
国家重点研发计划"高性能计算"重点专项:E级计算机关键技术验证系统(2016YFB0200503)资助
文摘
SIMD技术的出现使得基础数学库扩展到向量数学库成为必然趋势。基础数学库中多数函数存在代码实现复杂、分支判断多的特点,增加了向量化的难度,同时SIMD指令的不完备导致函数中的部分功能无法直接向量化,频繁的拆分和拼接操作降低了函数的性能。针对这些问题,提出了向量数学库的向量化方法,通过确定核心代码段、数据预处理过程向量化及指令向量化3个步骤,可以快速有效地对基础数学库进行向量化。实验表明,运用该方法,exp,pow,log10等典型函数的性能平均提高了24.2%。
关键词
SIMD技术
向量数学库
核心代码段
数据预处理
指令
向量化
Keywords
SIMD technique
Vector math library
Key code segment
Data pre-processing
Instruction vectoring
分类号
TP313 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
异构HPL算法中CPU端高性能BLAS库优化
被引量:
2
5
作者
蔡雨
孙成国
杜朝晖
刘子行
康梦博
李双双
机构
信息技术有限公司
出处
《软件学报》
EI
CSCD
北大核心
2021年第8期2289-2306,共18页
文摘
异构HPL(high-performance Linpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系结构特点对BLAS(basic linear algebra subprograms)函数进行优化往往可以更加充分地利用通用CPU计算能力,提高系统整体效率.BLIS(BLAS-like library instantiation software)算法库是开源的BLAS函数框架,具有易开发、易移植和模块化等优点.基于异构系统平台体系结构以及HPL算法特点,充分利用三级缓存、向量化指令和多线程并行等技术手段优化CPU端调用的各级BLAS函数,应用auto-tuning技术优化矩阵分块参数,从而形成了异构环境下优化的BLIS算法库HBLIS.与MKL相比,HPL整体性能提高了11.8%.
关键词
BLAS
遗传算法auto-tuning
向量化指令
数据预取
多线程并行
Keywords
BLAS
genetic algorithm auto-tuning
vectorization instruction
data prefetching
multi-threading parallelization
分类号
TP303 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于K Framework的向量化机器学习指令语义形式化
黄厚华
刘嘉祥
施晓牧
《软件学报》
EI
CSCD
北大核心
2023
0
在线阅读
下载PDF
职称材料
2
非正规化循环的单指令多数据向量化
侯永生
赵荣彩
高伟
高伟
《计算机应用》
CSCD
北大核心
2013
1
在线阅读
下载PDF
职称材料
3
一种单指令多数据向量化归约方法
韩林
高伟
王冬
王鹏翔
李颖颖
《计算机工程》
CAS
CSCD
北大核心
2017
1
在线阅读
下载PDF
职称材料
4
向量数学库的向量化方法研究
周蓓
黄永忠
许瑾晨
郭绍忠
《计算机科学》
CSCD
北大核心
2019
10
在线阅读
下载PDF
职称材料
5
异构HPL算法中CPU端高性能BLAS库优化
蔡雨
孙成国
杜朝晖
刘子行
康梦博
李双双
《软件学报》
EI
CSCD
北大核心
2021
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部