期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
面向飞腾处理器平台的快速卷积算法优化
1
作者 赵亚飞 杨耀功 +1 位作者 王永刚 魏继增 《上海理工大学学报》 CAS CSCD 北大核心 2024年第6期610-619,共10页
为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中... 为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中的访存效率。配合分块方案设计实现高性能的矩阵乘法微内核,使用向量外积运算更新数据,提高计算访存比,实现最大程度掩盖访存指令的延迟。最终实验结果表明,FastInfer在FT-2000/4处理器上的峰值计算性能达到99.56 GFLOPS。在不同输入规模的通用矩阵乘法测试中,FastInfer性能是OpenBLAS算法的1.07倍和1.52倍。在卷积测试中,FastInfer性能是ARM Compute Library算法的1.32倍,实现了在FT-2000/4多核处理器上的高性能卷积计算。 展开更多
关键词 深度学习 快速卷积算法 并行计算 通用矩阵乘法
在线阅读 下载PDF
面向GmSSL密码库的SM2算法快速优化实现 被引量:2
2
作者 乔晗 王安 +4 位作者 王博 苏长山 李根 唐遇星 祝烈煌 《计算机学报》 北大核心 2025年第2期463-476,共14页
GmSSL是由国内密码学专家团队研发的支持国密算法的开源密码库,相比国际主流密码库,不仅严格遵循国家密码标准,还能满足特定的安全需求。SM2算法是GmSSL的重要组成部分,作为国密椭圆曲线密码算法,它在相同安全强度下所需的密钥空间更小... GmSSL是由国内密码学专家团队研发的支持国密算法的开源密码库,相比国际主流密码库,不仅严格遵循国家密码标准,还能满足特定的安全需求。SM2算法是GmSSL的重要组成部分,作为国密椭圆曲线密码算法,它在相同安全强度下所需的密钥空间更小、计算效率更高,更适用于资源受限的设备,在国内网络安全领域具有重要意义。尽管GmSSL中SM2算法在功能上相对完善,但在实现细节、性能优化及硬件资源利用方面仍存在明显不足。本文提出了一种系统化的优化方案,针对GmSSL 3中的SM2算法从底层到顶层进行了全方位的优化,在确保密码算法安全性的同时显著提升了算法的实现速度。首先,本文从提升计算效率的角度出发,通过优化模约减算法结构以减少变量间冗余计算,大幅提升了模乘和模平方运算的速度。其次,通过引入并行计算结构,充分利用硬件的并行处理能力,显著提高了点运算的效率。最后,通过采用更高效的算法展开形式,改进了标量乘法的实现方案,进一步提升了标量乘算法实现速度。结合上述三种优化方法,本文对原始GmSSL中的标量乘和签名算法进行了优化实现,优化后的速度分别提升了118.3%和89.3%。此外,与国际主流密码库OpenSSL相比,本文实现的标量乘和签名算法速度分别提升了101.4%和55.8%,这一结果不仅验证了本文优化方案的有效性,也凸显了GmSSL在国际竞争中的潜力。本文的优化方案不仅显著提升了国密算法在实际应用中的性能,对于物联网和移动支付等领域具有重要意义,同时也为后续密码算法研究提供了新的视角和思路。 展开更多
关键词 GmSSL SM2 椭圆曲线加密算法 快速实现 标量乘
在线阅读 下载PDF
以基础型信息应用激活“一带一路”沿线国家信息基础设施建设 被引量:6
3
作者 林颖 陈炳福 +2 位作者 李浥东 柯冠岩 冯松鹤 《中国工程科学》 CSCD 北大核心 2019年第4期33-38,共6页
信息应用在"一带一路"沿线国家交流合作中发挥了普惠性的基础作用,也为共同推进信息基础设施建设提供了新思路。本文首先对中国参与沿线国家信息基础设施建设遇到的困难、信息应用服务企业在沿线国家的兴起与发展状况进行了... 信息应用在"一带一路"沿线国家交流合作中发挥了普惠性的基础作用,也为共同推进信息基础设施建设提供了新思路。本文首先对中国参与沿线国家信息基础设施建设遇到的困难、信息应用服务企业在沿线国家的兴起与发展状况进行了分析。研究表明沿线国家信息基础设施建设受复杂的地缘政治、意识形态和国家安全影响推进缓慢;信息应用服务领域处于市场充分竞争的新兴领域,契合人民社会生活和政府治理需求,合作空间巨大。以基础型信息应用激活沿线国家信息基础设施建设,是实现互联互通的有效路径。 展开更多
关键词 基础型信息应用 “一带一路” 信息基础设施建设
在线阅读 下载PDF
一种安全低功耗的无人机避障方法研究
4
作者 万众 陈任之 +5 位作者 张翔宇 徐实 赵静月 艾勇保 杨智杰 王蕾 《计算机工程与科学》 北大核心 2025年第9期1658-1668,共11页
为实现高速敏捷自主飞行,需要提高无人机续航时间、降低指令传递延迟和增强无人机快速反应能力。同时,在复杂场景下,无人机对障碍物检测信息依赖性强,各种误差会降低其飞行安全性。基于以上问题,通过预定义规则的局部规划避障方法做出... 为实现高速敏捷自主飞行,需要提高无人机续航时间、降低指令传递延迟和增强无人机快速反应能力。同时,在复杂场景下,无人机对障碍物检测信息依赖性强,各种误差会降低其飞行安全性。基于以上问题,通过预定义规则的局部规划避障方法做出避障策略,分别基于卡尔曼滤波算法与贝叶斯线性回归模型对避障方法进行优化,实验结果表明,基于贝叶斯线性回归模型的方法比基于卡尔曼滤波算法的方法预测速度快2.8倍,不仅提高了预测效率,还保证了较高的预测精度和稳定性。同时,为得到既低功耗又能保证安全的避障速度,将避障速度作为决策变量,续航时间与置信度作为目标向量,通过寻找膝点的方式求得续航时间与置信度折中损耗最小的点,提供最优的避障速度。最后,在无人机避障环境中,对改进后的基于局部规划的避障方法进行仿真验证。仿真结果显示,无人机能够对动态障碍物做出及时躲避,与相同实验环境的避障方法相比,总时间延迟平均降低了约7%。 展开更多
关键词 无人机避障 轨迹预测 脉冲神经网络 贝叶斯理论 多目标优化
在线阅读 下载PDF
从飞腾芯看国产CPU的生态发展 被引量:13
5
作者 天津飞腾信息技术有限公司 《信息安全研究》 2020年第10期881-886,共6页
CPU在集成电路产业中是一个特殊的领域,不仅技术壁垒高、实现复杂,而且CPU产业化的成功极其依赖生态.所谓CPU生态,即CPU产业链上的企业之间,以及企业与用户之间形成的一种协同、兼容、标准化的协作体系,具体可以理解为在CPU和基于该CPU... CPU在集成电路产业中是一个特殊的领域,不仅技术壁垒高、实现复杂,而且CPU产业化的成功极其依赖生态.所谓CPU生态,即CPU产业链上的企业之间,以及企业与用户之间形成的一种协同、兼容、标准化的协作体系,具体可以理解为在CPU和基于该CPU的整机上运行的相关软硬件应用.因此,生态的作用在CPU市场上表现得十分突出.目前,国产CPU厂商面向不同的市场领域,研发基础与技术风格各有差异,但基本都沿袭自己的发展路线,积极投入新产品研发,努力开拓市场,培育生态体系,争取国内外产业链的广泛合作.通过梳理飞腾CPU产品线以及在终端设备和云计算领域的全栈解决方案情况,介绍了飞腾CPU在生态建设中的基本状况,分析了生态发展中所面临的困难,提出了飞腾未来几年在生态方面的发展规划,针对CPU国产化生态所面临的共性问题,提出了相应的政策建议. 展开更多
关键词 从端到云 协同创新 开放联合 标准兼容 生态碎片化
在线阅读 下载PDF
便笺式存储器中一种新颖的交错映射数据布局
6
作者 曾灵灵 张敦博 +1 位作者 沈立 窦强 《计算机工程》 CAS CSCD 北大核心 2024年第5期33-40,共8页
现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案... 现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案是对原始矩阵进行预先转置操作,将列优先访问的复杂性集中在一次矩阵转置运算中,然而矩阵转置不仅会引入额外的数据传输操作,而且会消耗额外的存储空间用于存储转置后的矩阵。为了在不引入额外开销的情况下使行优先与列优先数据访问具有同样高效的访存效率,提出一种新颖的交错映射(IM)数据布局,同时在不改变便笺式存储器(SPM)内部结构的基础上,在SPM的输入和输出(I/O)接口处添加循环移位单元和译码单元2个新组件,实现交错映射数据布局并定制访存指令,使程序员可通过定制的访存指令充分利用该数据布局。实验结果表明,应用交错映射数据布局的SPM在仅额外增加了1.73%面积开销的情况下获得了1.4倍的加速。 展开更多
关键词 矩阵转置 单指令多数据 便笺式存储器 数据布局 静态随机存储器
在线阅读 下载PDF
面向众核CPU的稠密线性求解器性能评测与优化
7
作者 付晓 苏醒 +1 位作者 董德尊 钱程东 《计算机工程与科学》 CSCD 北大核心 2024年第6期984-992,共9页
稠密线性求解器在高性能计算和机器学习等领域扮演着重要的角色。其典型的并行算法实现通常构建在著名的fork-join或task-based编程模型之上。尽管采用fork-join模型的主流稠密线性代数库能将大部分的计算转移到高度优化、高性能的BLAS ... 稠密线性求解器在高性能计算和机器学习等领域扮演着重要的角色。其典型的并行算法实现通常构建在著名的fork-join或task-based编程模型之上。尽管采用fork-join模型的主流稠密线性代数库能将大部分的计算转移到高度优化、高性能的BLAS 3例程上,由于fork-join不灵活的执行流,它们仍然未能高效地利用众核CPU的计算资源。采用task-based编程模型的开源库能实现更加灵活、负载更均衡的算法,因此能获得明显的性能提升。然而,在众核CPU平台上,尤其是对于中等矩阵规模的问题而言,它们仍然有较大的优化空间。对稠密线性求解器的性能进行了全面的测评,以定位性能瓶颈,并提出了2种优化策略,以提高程序性能。具体地,通过重叠LU分解和下三角求解的计算过程,减少同步开销线程的空等,从而提高算法的并行性;进一步通过减少冗余的矩阵打包操作,降低算法的访存开销。分别在2个主流的众核CPU平台(Intel®Xeon Gold®6252N(48核)和HiSilicon Kunpeng 920(64核))上进行了性能评估。实验结果表明,该优化的稠密线性求解器在上述两个CPU平台上,相比最佳开源实现分别取得了10.05%(Xeon)和13.63%(Kunpeng 920)的性能提升。 展开更多
关键词 稠密线性求解器 LU分解 fork-join模型 task-based模型 众核CPU
在线阅读 下载PDF
基于可信执行环境的安全推理研究进展 被引量:1
8
作者 孙钰 熊高剑 +1 位作者 刘潇 李燕 《信息网络安全》 CSCD 北大核心 2024年第12期1799-1818,共20页
近年来,以深度神经网络为代表的机器学习技术在自动驾驶、智能家居和语音助手等领域获得了广泛应用。在上述高实时要求场景下,多数服务商将模型部署在边缘设备以规避通信带来的网络时延与通信开销。然而,边缘设备不受服务商控制,所部署... 近年来,以深度神经网络为代表的机器学习技术在自动驾驶、智能家居和语音助手等领域获得了广泛应用。在上述高实时要求场景下,多数服务商将模型部署在边缘设备以规避通信带来的网络时延与通信开销。然而,边缘设备不受服务商控制,所部署模型易遭受模型窃取、错误注入和成员推理等攻击,进而导致高价值模型失窃、推理结果操纵及私密数据泄露等严重后果,使服务商市场竞争力受到致命打击。为解决上述问题,众多学者致力于研究基于可信执行环境(TEE)的安全推理,在保证模型可用性条件下保护模型的参数机密性与推理完整性。文章首先介绍相关背景知识,给出安全推理的定义,并归纳其安全模型;然后对现有TEE安全推理的模型机密性保护方案与推理完整性保护方案进行了分类介绍和比较分析;最后展望了TEE安全推理的未来研究方向。 展开更多
关键词 安全推理 可信执行环境 模型机密性 推理完整性 边缘部署
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部