期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
小规模非规则TRSM实现与优化
1
作者
郭容园
贾海鹏
+4 位作者
张云泉
韦存阳
邓明森
陈婧蕊
周振亚
《计算机研究与发展》
北大核心
2025年第2期517-531,共15页
TRSM(triangular matrix equation solver)是线性方程组求解的常用算法,是各种科学计算库和数学软件的核心算法,广泛应用于科学计算、工程计算、机器学习等领域.小规模非规则TRSM算法限定解决问题范围,是高效处理较小规模、非规则数据...
TRSM(triangular matrix equation solver)是线性方程组求解的常用算法,是各种科学计算库和数学软件的核心算法,广泛应用于科学计算、工程计算、机器学习等领域.小规模非规则TRSM算法限定解决问题范围,是高效处理较小规模、非规则数据输入的算法.随着高性能计算领域个性化、精细化发展,科学界、工业界对小规模非规则TRSM计算的需求愈加明显.传统算法更偏重于大规模、规则TRSM的计算,在小规模非规则TRSM计算上效率不佳.结合硬件体系结构、应用场景特征提出小规模非规则TRSM优化方案,从寄存器分块、边界处理、向量化计算角度设计高性能内核,在此基础上构建覆盖双精度实数、双精度复数的小规模非规则算法库SI_TRSM(small-scale irregular TRSM),大幅度提升该算法性能.实验结果表明,构建的双精度小规模非规则TRSM算法库,较MKL(Intel math kernel library)同类算法,在双精度小规模非规则实数上平均性能提高29.4倍,在双精度小规模非规则复数上平均性能提高24.6倍.
展开更多
关键词
TRSM算法
BLAS
小规模非规则
SIMD
汇编优化
在线阅读
下载PDF
职称材料
基于ARMv8处理器的高性能图像处理算法实现与优化研究
被引量:
5
2
作者
韦存阳
贾海鹏
+3 位作者
张云泉
曲国远
魏大洲
张广婷
《计算机工程与科学》
CSCD
北大核心
2022年第10期1711-1720,共10页
色彩空间转换、图像缩放、图像滤波都是图像处理领域常见的算法,广泛应用于数字媒体、数据通信、生物医学和航空航天等领域。目前上述算法在ARM处理器上虽有开源的OpenCV库,但缺少与Intel IPP库精度相当的高性能图像处理库。为此,根据...
色彩空间转换、图像缩放、图像滤波都是图像处理领域常见的算法,广泛应用于数字媒体、数据通信、生物医学和航空航天等领域。目前上述算法在ARM处理器上虽有开源的OpenCV库,但缺少与Intel IPP库精度相当的高性能图像处理库。为此,根据算法的计算访存特征,将上述算法分为数据无关算法、数据共享算法及非规则访存算法3类,提出了不同类别算法在ARMv8计算平台上的优化方法体系,最终构建了一个基于ARMv8计算平台的高性能图像处理算法库,精度上对标Intel IPP库,并通过算法优化、访存优化、SIMD优化及汇编指令优化等一系列优化方法的应用,大幅提升了图像处理算法的性能。实验结果表明,在华为鲲鹏920计算平台上,重点优化的CvtColor、Filter和Resize模块性能较OpenCV算法库都有显著提升。
展开更多
关键词
ARMv8
色彩空间转换
图像插值
图像滤波
在线阅读
下载PDF
职称材料
题名
小规模非规则TRSM实现与优化
1
作者
郭容园
贾海鹏
张云泉
韦存阳
邓明森
陈婧蕊
周振亚
机构
贵州财经大学信息学院
中国科学院计算技术研究所
北京华大九天科技股份有限公司
出处
《计算机研究与发展》
北大核心
2025年第2期517-531,共15页
基金
国家重点研发计划项目(2023YFB3001701)
山西省科技重大专项(202201010101004)
国家自然科学基金项目(61972376,62372432,62072431)。
文摘
TRSM(triangular matrix equation solver)是线性方程组求解的常用算法,是各种科学计算库和数学软件的核心算法,广泛应用于科学计算、工程计算、机器学习等领域.小规模非规则TRSM算法限定解决问题范围,是高效处理较小规模、非规则数据输入的算法.随着高性能计算领域个性化、精细化发展,科学界、工业界对小规模非规则TRSM计算的需求愈加明显.传统算法更偏重于大规模、规则TRSM的计算,在小规模非规则TRSM计算上效率不佳.结合硬件体系结构、应用场景特征提出小规模非规则TRSM优化方案,从寄存器分块、边界处理、向量化计算角度设计高性能内核,在此基础上构建覆盖双精度实数、双精度复数的小规模非规则算法库SI_TRSM(small-scale irregular TRSM),大幅度提升该算法性能.实验结果表明,构建的双精度小规模非规则TRSM算法库,较MKL(Intel math kernel library)同类算法,在双精度小规模非规则实数上平均性能提高29.4倍,在双精度小规模非规则复数上平均性能提高24.6倍.
关键词
TRSM算法
BLAS
小规模非规则
SIMD
汇编优化
Keywords
TRSM algorithm
BLAS
small-scale irregular
SIMD
assembly optimization
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于ARMv8处理器的高性能图像处理算法实现与优化研究
被引量:
5
2
作者
韦存阳
贾海鹏
张云泉
曲国远
魏大洲
张广婷
机构
中国科学院计算技术研究所计算机体系结构国家重点实验室
中国科学院大学计算机科学与技术学院
中国航空无线电电子研究所
出处
《计算机工程与科学》
CSCD
北大核心
2022年第10期1711-1720,共10页
基金
国家重点研发计划(2017YFB0202105)
国家自然科学基金(61972376)
北京自然科学基金(L182053)。
文摘
色彩空间转换、图像缩放、图像滤波都是图像处理领域常见的算法,广泛应用于数字媒体、数据通信、生物医学和航空航天等领域。目前上述算法在ARM处理器上虽有开源的OpenCV库,但缺少与Intel IPP库精度相当的高性能图像处理库。为此,根据算法的计算访存特征,将上述算法分为数据无关算法、数据共享算法及非规则访存算法3类,提出了不同类别算法在ARMv8计算平台上的优化方法体系,最终构建了一个基于ARMv8计算平台的高性能图像处理算法库,精度上对标Intel IPP库,并通过算法优化、访存优化、SIMD优化及汇编指令优化等一系列优化方法的应用,大幅提升了图像处理算法的性能。实验结果表明,在华为鲲鹏920计算平台上,重点优化的CvtColor、Filter和Resize模块性能较OpenCV算法库都有显著提升。
关键词
ARMv8
色彩空间转换
图像插值
图像滤波
Keywords
ARMv8
color space conversions
image resizing
image filtering
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
小规模非规则TRSM实现与优化
郭容园
贾海鹏
张云泉
韦存阳
邓明森
陈婧蕊
周振亚
《计算机研究与发展》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
基于ARMv8处理器的高性能图像处理算法实现与优化研究
韦存阳
贾海鹏
张云泉
曲国远
魏大洲
张广婷
《计算机工程与科学》
CSCD
北大核心
2022
5
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部