期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
面向飞腾处理器平台的快速卷积算法优化
1
作者 赵亚飞 杨耀功 +1 位作者 王永刚 魏继增 《上海理工大学学报》 CAS CSCD 北大核心 2024年第6期610-619,共10页
为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中... 为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中的访存效率。配合分块方案设计实现高性能的矩阵乘法微内核,使用向量外积运算更新数据,提高计算访存比,实现最大程度掩盖访存指令的延迟。最终实验结果表明,FastInfer在FT-2000/4处理器上的峰值计算性能达到99.56 GFLOPS。在不同输入规模的通用矩阵乘法测试中,FastInfer性能是OpenBLAS算法的1.07倍和1.52倍。在卷积测试中,FastInfer性能是ARM Compute Library算法的1.32倍,实现了在FT-2000/4多核处理器上的高性能卷积计算。 展开更多
关键词 深度学习 快速卷积算法 并行计算 通用矩阵乘法
在线阅读 下载PDF
Arm架构的分支预测器隐蔽信道研究
2
作者 杨毅 吴凭飞 +7 位作者 邱朋飞 王春露 赵路坦 张锋巍 王博 吕勇强 王海霞 汪东升 《信息安全学报》 2025年第1期1-16,共16页
隐蔽信道是一种在不违背计算机当前安全策略的前提下,在进程间传递信息的攻击方式。共两个进程参与到隐蔽信道的构建中:木马进程和间谍进程,具有高权限的木马进程通过隐蔽信道向低权限的间谍进程传递信息以完成攻击。隐蔽信道的传输介... 隐蔽信道是一种在不违背计算机当前安全策略的前提下,在进程间传递信息的攻击方式。共两个进程参与到隐蔽信道的构建中:木马进程和间谍进程,具有高权限的木马进程通过隐蔽信道向低权限的间谍进程传递信息以完成攻击。隐蔽信道的传输介质种类很多,如时间、功耗、温度等。在现代处理器中,分支预测器作为重要的微架构组件,有效提高了处理器的流水线效率,但由于分支预测器在核内的多进程间共享,使得其存在被用于构建隐蔽信道的风险。目前Intel x86架构已被发现存在基于分支预测器的隐蔽信道攻击,但是Arm架构是否存在相似的攻击还没有得到充分的研究。本文中,我们成功在Arm架构的实际硬件平台上构建了三种基于分支预测器的隐蔽信道。首先我们在Arm架构下设计并实现了类似于x86架构下的基于分支预测器的隐蔽信道CC和RSC,其次我们发现了一个新的基于分支预测组件BTB的隐蔽信道BTBC。我们评估并分析了隐蔽信道参数对信道性能的影响及其成因,并给出参数设置建议。在Cortex-A53及Cortex-A72两种核心上,我们对三种隐蔽信道的信号特性、传输速率和误码率进行了测试和对比分析。实验表明在实际的Arm架构硬件平台下,BTBC的传输信号边缘清晰,震荡幅度小。在连续传输数据时表现出与CC和RSC近似的信道性能,并且在两种核心上均可以低误码率进行数据传输,其在200bps的传输速率下,仅有2%的误码率。最后我们还给出了对于此类隐蔽信道的防御措施。 展开更多
关键词 ARM架构 分支预测器 隐蔽信道
在线阅读 下载PDF
从飞腾芯看国产CPU的生态发展 被引量:11
3
作者 天津飞腾信息技术有限公司 《信息安全研究》 2020年第10期881-886,共6页
CPU在集成电路产业中是一个特殊的领域,不仅技术壁垒高、实现复杂,而且CPU产业化的成功极其依赖生态.所谓CPU生态,即CPU产业链上的企业之间,以及企业与用户之间形成的一种协同、兼容、标准化的协作体系,具体可以理解为在CPU和基于该CPU... CPU在集成电路产业中是一个特殊的领域,不仅技术壁垒高、实现复杂,而且CPU产业化的成功极其依赖生态.所谓CPU生态,即CPU产业链上的企业之间,以及企业与用户之间形成的一种协同、兼容、标准化的协作体系,具体可以理解为在CPU和基于该CPU的整机上运行的相关软硬件应用.因此,生态的作用在CPU市场上表现得十分突出.目前,国产CPU厂商面向不同的市场领域,研发基础与技术风格各有差异,但基本都沿袭自己的发展路线,积极投入新产品研发,努力开拓市场,培育生态体系,争取国内外产业链的广泛合作.通过梳理飞腾CPU产品线以及在终端设备和云计算领域的全栈解决方案情况,介绍了飞腾CPU在生态建设中的基本状况,分析了生态发展中所面临的困难,提出了飞腾未来几年在生态方面的发展规划,针对CPU国产化生态所面临的共性问题,提出了相应的政策建议. 展开更多
关键词 从端到云 协同创新 开放联合 标准兼容 生态碎片化
在线阅读 下载PDF
面向飞腾处理器的一维对流方程数值求解算法及性能评估
4
作者 廖逸枭 邵立松 +1 位作者 王光学 郑敏 《航空计算技术》 2023年第3期35-39,共5页
利用ARMv8的SIMD指令,面向国产飞腾处理器,实现了一种多时间步部分网格推进的一维对流方程加速求解汇编算法。与通过C语言实现的显式时间步推进算法相比,主要有两个优点:1)在相同网格计算量条件下,大量减少时间步长维度上的访问延迟开销... 利用ARMv8的SIMD指令,面向国产飞腾处理器,实现了一种多时间步部分网格推进的一维对流方程加速求解汇编算法。与通过C语言实现的显式时间步推进算法相比,主要有两个优点:1)在相同网格计算量条件下,大量减少时间步长维度上的访问延迟开销;2)在相同时间步的计算条件下,充分利用了SIMD指令降低了计算延迟开销。在国产飞腾CPU上进行了数值实验和性能评估,计算实践表明,在单线程计算中,在使用20个浮点寄存器进行浮点运算的情况下,优化算法最高计算速度是经过编译优化后的一般数值求解算法的4.35倍,显著地提高了串行计算的效率。 展开更多
关键词 一维对流方程 SIMD 飞腾处理器 单线程 加速计算
在线阅读 下载PDF
现代电子技术与计算机应用浅析 被引量:1
5
作者 邓冬明 《科技创新与应用》 2016年第30期93-93,共1页
随着社会的快速发展,科技的不断进步,计算机技术与电子技术逐渐运用到各个领域,且在各领域中均发挥着不可替代的重要作用。伴随着电子技术与计算机技术的结合,现如今大部分行业自动化水平得到了空前的发展,且取得了巨大的成绩。和其他... 随着社会的快速发展,科技的不断进步,计算机技术与电子技术逐渐运用到各个领域,且在各领域中均发挥着不可替代的重要作用。伴随着电子技术与计算机技术的结合,现如今大部分行业自动化水平得到了空前的发展,且取得了巨大的成绩。和其他技术相比,电子技术与计算机技术的结合使得其应用范围更加的广泛。伴随着相关研究的进一步深入,电子技术和计算机技术的综合运用将会在合理控制、编程及管理等方面扮演越来越重要的角色。 展开更多
关键词 电子技术 计算机 应用
在线阅读 下载PDF
基于Innovus提升芯片性能的物理实现方法 被引量:5
6
作者 边少鲜 David He +3 位作者 栾晓琨 蒋剑锋 翟飞雪 蔡准 《电子技术应用》 2019年第8期48-52,60,共6页
对于规模日益增大,工作频率不断增加的高性能芯片设计,性能一直是物理设计的重点和难点。缓冲器的插入是为了最小化信号线延时,进而优化时序,提升性能。描述了使用CadenceInnovus工具建立物理设计流程,减少各步骤间的偏差。同时在此流... 对于规模日益增大,工作频率不断增加的高性能芯片设计,性能一直是物理设计的重点和难点。缓冲器的插入是为了最小化信号线延时,进而优化时序,提升性能。描述了使用CadenceInnovus工具建立物理设计流程,减少各步骤间的偏差。同时在此流程的基础上提出二次布局优化方法,在16nm下,通过一个高性能芯片设计验证了该流程与方法,实例结果表明,设计性能得到很大改善,其中时序优化达85.07%,该流程及方法可有效提升高性能芯片性能。 展开更多
关键词 Innovus 物理实现 二次布局优化
在线阅读 下载PDF
基于Cadence CHI和IVD VIP的多核SoC系统数据一致性验证 被引量:2
7
作者 范君健 晁张虎 +3 位作者 杨庆娜 刘琪 朱红 单建旗 《电子技术应用》 2020年第8期72-76,共5页
在多核的SoC系统中,不同的处理器核对内存空间和设备空间进行着大量的数据读写操作,维护Cache一致性面临严峻挑战。集中于控制流方面的验证环境搭建已非常复杂,而包含数据正确性检查的验证由于控制流程复杂、数据量大等问题而更加困难... 在多核的SoC系统中,不同的处理器核对内存空间和设备空间进行着大量的数据读写操作,维护Cache一致性面临严峻挑战。集中于控制流方面的验证环境搭建已非常复杂,而包含数据正确性检查的验证由于控制流程复杂、数据量大等问题而更加困难。针对这一问题,基于Cadence公司提供CHI VIP、AXI VIP和IVD VIP,实现多核环境下的系统级数据一致性验证。搭建的验证平台中采用CHI VIP通过笔者开发的CHI协议转换桥发出访存请求,使用AXI VIP收集到达主存的数据,由IVD VIP对CHI端口的请求数据与AXI端口的访存数据进行实时分析比对,实现在较高抽象层次上的激励产生和响应检查。该验证平台能够在子系统级及系统级进行数据一致性验证,具有验证环境搭建快速和功能点覆盖完备的优点。 展开更多
关键词 CACHE一致性 子系统级验证 VIP 模块化验证
在线阅读 下载PDF
基于硬件仿真加速平台的PCIE系统级调测试方法 被引量:1
8
作者 柏颖 马玲芝 +1 位作者 郭嘉 陈少辉 《电子技术应用》 北大核心 2017年第8期28-31,共4页
在带真实PCIE设备的系统级测试环境中,由于驱动程序或应用测试程序的更换,可能需要频繁引导操作系统,造成额外时间开销;同时,由于真实外设的存在,系统调试能力急剧降低,给调试带来巨大挑战。分别对带真实PCIE设备的系统级验证流程及调... 在带真实PCIE设备的系统级测试环境中,由于驱动程序或应用测试程序的更换,可能需要频繁引导操作系统,造成额外时间开销;同时,由于真实外设的存在,系统调试能力急剧降低,给调试带来巨大挑战。分别对带真实PCIE设备的系统级验证流程及调试进行了优化。验证流程方面,一方面采用"抽屉式"内存管理机制,通过ramdisk直接更换驱动程序及benchmark,避免重复引导OS;另一方面,通过Ethernet通路实现程序更换,进一步节省状态恢复、PCIE热复位时间。调试能力优化方面,利用display buffer,SDL捕捉关键信号并导出处理后还原成波形,并通过选定合适的捕捉信号、buffer深度、降频操作,尽可能增大连续波形长度,改善调试能力。 展开更多
关键词 硬件仿真加速 ICE 系统级仿真 PCIE
在线阅读 下载PDF
Innovus机器学习在高性能CPU设计中的应用 被引量:1
9
作者 边少鲜 Micheal Feng +3 位作者 David Yue 栾晓琨 蔡准 蒋剑锋 《电子技术应用》 2020年第8期54-59,63,共7页
高性能芯片设计在7 nm及更高级的工艺节点上,设计规模更大、频率更高、设计数据和可变性更复杂,物理设计难度增大。机器学习在多领域均获得成功应用,复杂的芯片设计是应用机器学习的一个很好的领域。Cadence将机器学习算法内置到Innovu... 高性能芯片设计在7 nm及更高级的工艺节点上,设计规模更大、频率更高、设计数据和可变性更复杂,物理设计难度增大。机器学习在多领域均获得成功应用,复杂的芯片设计是应用机器学习的一个很好的领域。Cadence将机器学习算法内置到Innovus工具中,通过对芯片设计数据进行学习建模,建立机器学习模型,从而提升芯片性能表现。建立了一个应用机器学习优化延时的物理流程来提升芯片设计性能。详细讨论分析了分别对单元延时、线延时、单元和线延时进行优化对设计的影响,进而找到一个较好的延时优化方案。最后利用另一款设计难度更大,性能要求更高的模块从时序、功耗、线长等方面较为全面地分析验证设计方案的合理性。 展开更多
关键词 机器学习 Innovus 芯片设计 物理设计
在线阅读 下载PDF
Stratus HLS工具在高性能双精度浮点乘法设计中的应用流程 被引量:1
10
作者 苑佳红 《电子技术应用》 2018年第8期20-23,30,共5页
双精度浮点乘法部件是高性能CPU的核心运算部件之一。描述了使用Cadence Stratus HLS工具设计和实现双精度浮点乘法部件,探索新设计方法学在关键路径延时调整、数据路径优化以及低功耗优化等问题的解决方法,并探讨如何将新的设计流程结... 双精度浮点乘法部件是高性能CPU的核心运算部件之一。描述了使用Cadence Stratus HLS工具设计和实现双精度浮点乘法部件,探索新设计方法学在关键路径延时调整、数据路径优化以及低功耗优化等问题的解决方法,并探讨如何将新的设计流程结合到原有项目开发中等问题。最终,高阶综合设计的RTL,在28 nm工艺下综合实现频率为2.5 GHz、面积为28 211μm^2,基本满足高性能微处理器的开发要求,增强了在项目中更加广泛地使用新设计方法学的信心。 展开更多
关键词 高阶综合 HLS 双精度浮点乘法
在线阅读 下载PDF
Multi-Tap FlexHtree在高性能CPU设计中的应用
11
作者 彭书涛 黄薇 +1 位作者 边少鲜 杜广山 《电子技术应用》 2018年第8期5-9,12,共6页
对于高性能CPU设计,特别是在16 nm以及更高级的工艺节点上,signoff的corner很多,增加公共时钟路径长度、改善各RC端角下时钟延迟的一致性、降低设计的局部时钟偏斜已经成为数字后端设计师的共识。Cadence innovus工具新增的multi-tap Fl... 对于高性能CPU设计,特别是在16 nm以及更高级的工艺节点上,signoff的corner很多,增加公共时钟路径长度、改善各RC端角下时钟延迟的一致性、降低设计的局部时钟偏斜已经成为数字后端设计师的共识。Cadence innovus工具新增的multi-tap FlexHtree结构时钟树方案不仅提供了H-tree对称的时钟缓冲器单元结构和相等的线长特点,而且其对几何对称性降低了要求,确保了时序单元摆放完毕后就可以进行时钟树综合。建立了一个自动化的FlexHtree实现流程来降低不同corner下的时钟偏斜。详细讨论了FlexHtree tap点的数量以及子树时钟综合引擎对时钟偏斜和设计时序的影响,进而找到了一个较好的FlexHtree实现方案。最后从时序、功耗和单元数量等方面对FlexHtree、CCOPT和鱼骨型Fishbone结构时钟树进行了较为全面的比较,从而得出该设计更适合采用灵活的FlexHtree结构。 展开更多
关键词 FlexHtree 时钟偏斜 时钟树 CCOPT innovus
在线阅读 下载PDF
基于web在线教学系统研究
12
作者 邓冬明 《数字技术与应用》 2016年第10期126-126,共1页
近年来,随着互联网的快速发展及多媒体的发展,不但网络资源丰富,电脑结合多媒体在教育的应用也愈来愈广泛。在线教育系统利用互联网、互联网技术信息化实现在线教学,代替现在传统的教学方式。通过开发和架设在线教育系统,规范系统业务流... 近年来,随着互联网的快速发展及多媒体的发展,不但网络资源丰富,电脑结合多媒体在教育的应用也愈来愈广泛。在线教育系统利用互联网、互联网技术信息化实现在线教学,代替现在传统的教学方式。通过开发和架设在线教育系统,规范系统业务流程,促进区教学的便捷化、智能化、高效化、规范化,提升对教学进行全程的业务处理及监控。 展开更多
关键词 学校 信息系统 在线教学 网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部