期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向昇腾处理器的高性能同步原语自动插入方法
1
作者
李帅江
张馨元
+4 位作者
赵家程
田行辉
石曦予
徐晓忻
崔慧敏
《计算机研究与发展》
北大核心
2025年第8期1962-1978,共17页
指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限...
指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限的,限制了ILP的提升.针对这一问题,提出一种面向昇腾处理器的高性能同步原语自动插入方法,通过引入“虚拟同步资源”的抽象将同步原语的插入和物理同步资源的选择进行解耦.首先提出了一种启发式算法在复杂的控制流图上进行虚拟同步原语的插入,随后通过虚拟同步原语合并等技术,将虚拟同步资源映射到有限数量的物理同步资源上,并同时在满足程序正确性与严苛硬件资源限制的前提下,根据指令间的偏序关系删除程序中冗余的同步原语.使用指令级与算子级基准测试程序在昇腾910A平台上的实验表明,该方法自动插入同步原语的程序在保证正确性的基础上,整体性能与专家程序员手动插入同步原语接近或持平.
展开更多
关键词
昇腾处理器
同步原语
异构编程
领域定制架构
自动插入
在线阅读
下载PDF
职称材料
基于昇腾AI处理器的多路视频检测技术
2
作者
李佳芯
龚俊
赵磊
《兵器装备工程学报》
北大核心
2025年第1期258-266,共9页
华为昇腾AI处理器是一款专门面向人工智能应用场景推出的国产化新型神经网络加速器。不同于传统GPU处理器,昇腾AI处理器采用华为自研的达芬奇架构,设计专用AI计算单元,具有高算力和低功耗等特点,在计算机视觉应用领域具有较大优势。目...
华为昇腾AI处理器是一款专门面向人工智能应用场景推出的国产化新型神经网络加速器。不同于传统GPU处理器,昇腾AI处理器采用华为自研的达芬奇架构,设计专用AI计算单元,具有高算力和低功耗等特点,在计算机视觉应用领域具有较大优势。目标检测技术作为计算机视觉领域的关键技术之一,已广泛应用于视频监控、人脸识别等诸多场景。考虑到传统单路视频检测的视角范围有限,不能同时覆盖多个应用场景,提出基于昇腾AI处理器进行多路视频检测技术研究。目标检测算法采用YOLOv5算法,多路视频推理应用基于昇腾AscendCL接口开发,设计资源初始化、数据预处理、图像切分、模型推理、数据后处理、视频推拉流等功能模块。测试和应用结果表明,提出的多路视频检测技术可以从多个视频源同时拉取多路视频流并进行检测,标注目标位置和类别,分别保存每一路视频检测结果或推流到服务器,可在实际应用中部署在边缘设备中,实现多路视频实时检测。
展开更多
关键词
昇腾AI
处理器
视频检测
图像切分
国产化
算法部署
在线阅读
下载PDF
职称材料
基于昇腾处理器的边端人体动作识别算法设计与实现
被引量:
3
3
作者
赵冬冬
赖亮
+3 位作者
陈朋
周鸿超
李亦然
梁荣华
《光电工程》
CAS
CSCD
北大核心
2024年第6期59-72,共14页
针对现有的人体动作识别算法精度不足、计算量大、缺少在边端设备上的部署等问题,本文提出一种基于昇腾处理器的边端轻量化人体动作识别时空图卷积算法。通过设计隐性联系骨架连接方法并构建隐性邻接矩阵,结合自然骨架连接邻接矩阵,构...
针对现有的人体动作识别算法精度不足、计算量大、缺少在边端设备上的部署等问题,本文提出一种基于昇腾处理器的边端轻量化人体动作识别时空图卷积算法。通过设计隐性联系骨架连接方法并构建隐性邻接矩阵,结合自然骨架连接邻接矩阵,构造显隐性融合空间图卷积。在时间维度加入空间注意力机制,使模型关注不同帧间关节点位置空间特征,进一步设计时间图卷积,构建时空图卷积。此外设计网络中的Ascend-Enisum算子,进行张量融合运算,降低了计算复杂度,使模型轻量化。针对上述改进,在KTH数据集上进行实验验证,与经典单流算法ST-GCN相比,模型计算量减小了22.28%,Top-1精度达到84.17%,提升了5%。基于上述算法设计了昇腾AI人体动作识别系统,并在边端设备成功部署,可以进行实时人体动作识别。
展开更多
关键词
边端人体动作识别
昇腾处理器
时空图卷积
轻量化
在线阅读
下载PDF
职称材料
题名
面向昇腾处理器的高性能同步原语自动插入方法
1
作者
李帅江
张馨元
赵家程
田行辉
石曦予
徐晓忻
崔慧敏
机构
中国科学院计算技术研究所
中国科学院大学
处理器芯片全国重点实验室(中国科学院计算技术研究所)
华为技术有限公司
出处
《计算机研究与发展》
北大核心
2025年第8期1962-1978,共17页
基金
国家重点研发计划项目(2022ZD0116316)
国家自然科学基金重点项目(62232015)
中国科学院计算技术研究所创新课题(E361010,E261110)。
文摘
指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限的,限制了ILP的提升.针对这一问题,提出一种面向昇腾处理器的高性能同步原语自动插入方法,通过引入“虚拟同步资源”的抽象将同步原语的插入和物理同步资源的选择进行解耦.首先提出了一种启发式算法在复杂的控制流图上进行虚拟同步原语的插入,随后通过虚拟同步原语合并等技术,将虚拟同步资源映射到有限数量的物理同步资源上,并同时在满足程序正确性与严苛硬件资源限制的前提下,根据指令间的偏序关系删除程序中冗余的同步原语.使用指令级与算子级基准测试程序在昇腾910A平台上的实验表明,该方法自动插入同步原语的程序在保证正确性的基础上,整体性能与专家程序员手动插入同步原语接近或持平.
关键词
昇腾处理器
同步原语
异构编程
领域定制架构
自动插入
Keywords
Ascend processor
synchronization primitives
heterogeneous programming
domain specific architecture
automatic insertion
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于昇腾AI处理器的多路视频检测技术
2
作者
李佳芯
龚俊
赵磊
机构
中国兵器装备集团自动化研究所有限公司
出处
《兵器装备工程学报》
北大核心
2025年第1期258-266,共9页
文摘
华为昇腾AI处理器是一款专门面向人工智能应用场景推出的国产化新型神经网络加速器。不同于传统GPU处理器,昇腾AI处理器采用华为自研的达芬奇架构,设计专用AI计算单元,具有高算力和低功耗等特点,在计算机视觉应用领域具有较大优势。目标检测技术作为计算机视觉领域的关键技术之一,已广泛应用于视频监控、人脸识别等诸多场景。考虑到传统单路视频检测的视角范围有限,不能同时覆盖多个应用场景,提出基于昇腾AI处理器进行多路视频检测技术研究。目标检测算法采用YOLOv5算法,多路视频推理应用基于昇腾AscendCL接口开发,设计资源初始化、数据预处理、图像切分、模型推理、数据后处理、视频推拉流等功能模块。测试和应用结果表明,提出的多路视频检测技术可以从多个视频源同时拉取多路视频流并进行检测,标注目标位置和类别,分别保存每一路视频检测结果或推流到服务器,可在实际应用中部署在边缘设备中,实现多路视频实时检测。
关键词
昇腾AI
处理器
视频检测
图像切分
国产化
算法部署
Keywords
Ascend AI processor
video detection
image segmentation
localization
algorithm deployment
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于昇腾处理器的边端人体动作识别算法设计与实现
被引量:
3
3
作者
赵冬冬
赖亮
陈朋
周鸿超
李亦然
梁荣华
机构
浙江工业大学计算机科学与技术学院
出处
《光电工程》
CAS
CSCD
北大核心
2024年第6期59-72,共14页
基金
国家自然科学基金面上项目(62371421)
浙江省领军型创新创业团队项目(2021R01002)
浙江省自然科学基金重大项目(LD24F020005)。
文摘
针对现有的人体动作识别算法精度不足、计算量大、缺少在边端设备上的部署等问题,本文提出一种基于昇腾处理器的边端轻量化人体动作识别时空图卷积算法。通过设计隐性联系骨架连接方法并构建隐性邻接矩阵,结合自然骨架连接邻接矩阵,构造显隐性融合空间图卷积。在时间维度加入空间注意力机制,使模型关注不同帧间关节点位置空间特征,进一步设计时间图卷积,构建时空图卷积。此外设计网络中的Ascend-Enisum算子,进行张量融合运算,降低了计算复杂度,使模型轻量化。针对上述改进,在KTH数据集上进行实验验证,与经典单流算法ST-GCN相比,模型计算量减小了22.28%,Top-1精度达到84.17%,提升了5%。基于上述算法设计了昇腾AI人体动作识别系统,并在边端设备成功部署,可以进行实时人体动作识别。
关键词
边端人体动作识别
昇腾处理器
时空图卷积
轻量化
Keywords
edge human action recognition
ascend processor
spatial temporal graph convolutional
lightweight
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向昇腾处理器的高性能同步原语自动插入方法
李帅江
张馨元
赵家程
田行辉
石曦予
徐晓忻
崔慧敏
《计算机研究与发展》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
基于昇腾AI处理器的多路视频检测技术
李佳芯
龚俊
赵磊
《兵器装备工程学报》
北大核心
2025
0
在线阅读
下载PDF
职称材料
3
基于昇腾处理器的边端人体动作识别算法设计与实现
赵冬冬
赖亮
陈朋
周鸿超
李亦然
梁荣华
《光电工程》
CAS
CSCD
北大核心
2024
3
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部