期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
面向昇腾处理器的高性能同步原语自动插入方法
1
作者 李帅江 张馨元 +4 位作者 赵家程 田行辉 石曦予 徐晓忻 崔慧敏 《计算机研究与发展》 北大核心 2025年第8期1962-1978,共17页
指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限... 指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限的,限制了ILP的提升.针对这一问题,提出一种面向昇腾处理器的高性能同步原语自动插入方法,通过引入“虚拟同步资源”的抽象将同步原语的插入和物理同步资源的选择进行解耦.首先提出了一种启发式算法在复杂的控制流图上进行虚拟同步原语的插入,随后通过虚拟同步原语合并等技术,将虚拟同步资源映射到有限数量的物理同步资源上,并同时在满足程序正确性与严苛硬件资源限制的前提下,根据指令间的偏序关系删除程序中冗余的同步原语.使用指令级与算子级基准测试程序在昇腾910A平台上的实验表明,该方法自动插入同步原语的程序在保证正确性的基础上,整体性能与专家程序员手动插入同步原语接近或持平. 展开更多
关键词 昇腾处理器 同步原语 异构编程 领域定制架构 自动插入
在线阅读 下载PDF
基于昇腾AI处理器的多路视频检测技术
2
作者 李佳芯 龚俊 赵磊 《兵器装备工程学报》 北大核心 2025年第1期258-266,共9页
华为昇腾AI处理器是一款专门面向人工智能应用场景推出的国产化新型神经网络加速器。不同于传统GPU处理器,昇腾AI处理器采用华为自研的达芬奇架构,设计专用AI计算单元,具有高算力和低功耗等特点,在计算机视觉应用领域具有较大优势。目... 华为昇腾AI处理器是一款专门面向人工智能应用场景推出的国产化新型神经网络加速器。不同于传统GPU处理器,昇腾AI处理器采用华为自研的达芬奇架构,设计专用AI计算单元,具有高算力和低功耗等特点,在计算机视觉应用领域具有较大优势。目标检测技术作为计算机视觉领域的关键技术之一,已广泛应用于视频监控、人脸识别等诸多场景。考虑到传统单路视频检测的视角范围有限,不能同时覆盖多个应用场景,提出基于昇腾AI处理器进行多路视频检测技术研究。目标检测算法采用YOLOv5算法,多路视频推理应用基于昇腾AscendCL接口开发,设计资源初始化、数据预处理、图像切分、模型推理、数据后处理、视频推拉流等功能模块。测试和应用结果表明,提出的多路视频检测技术可以从多个视频源同时拉取多路视频流并进行检测,标注目标位置和类别,分别保存每一路视频检测结果或推流到服务器,可在实际应用中部署在边缘设备中,实现多路视频实时检测。 展开更多
关键词 昇腾AI处理器 视频检测 图像切分 国产化 算法部署
在线阅读 下载PDF
基于昇腾处理器的边端人体动作识别算法设计与实现 被引量:3
3
作者 赵冬冬 赖亮 +3 位作者 陈朋 周鸿超 李亦然 梁荣华 《光电工程》 CAS CSCD 北大核心 2024年第6期59-72,共14页
针对现有的人体动作识别算法精度不足、计算量大、缺少在边端设备上的部署等问题,本文提出一种基于昇腾处理器的边端轻量化人体动作识别时空图卷积算法。通过设计隐性联系骨架连接方法并构建隐性邻接矩阵,结合自然骨架连接邻接矩阵,构... 针对现有的人体动作识别算法精度不足、计算量大、缺少在边端设备上的部署等问题,本文提出一种基于昇腾处理器的边端轻量化人体动作识别时空图卷积算法。通过设计隐性联系骨架连接方法并构建隐性邻接矩阵,结合自然骨架连接邻接矩阵,构造显隐性融合空间图卷积。在时间维度加入空间注意力机制,使模型关注不同帧间关节点位置空间特征,进一步设计时间图卷积,构建时空图卷积。此外设计网络中的Ascend-Enisum算子,进行张量融合运算,降低了计算复杂度,使模型轻量化。针对上述改进,在KTH数据集上进行实验验证,与经典单流算法ST-GCN相比,模型计算量减小了22.28%,Top-1精度达到84.17%,提升了5%。基于上述算法设计了昇腾AI人体动作识别系统,并在边端设备成功部署,可以进行实时人体动作识别。 展开更多
关键词 边端人体动作识别 昇腾处理器 时空图卷积 轻量化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部