期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于RISC-V Matrix指令集扩展的LLM矢量点积加速研究
1
作者 陈煦豪 胡思鹏 +3 位作者 刘洪超 刘伯然 唐丹 赵地 《计算机科学》 北大核心 2025年第5期83-90,共8页
鉴于边缘AI的高性能与低功耗需求,基于RISC-V指令集架构,针对边缘设备数字信号处理的实际问题,设计了一种边缘AI的专用指令集处理器,在有限的硬件开销下,提升了边缘AI的执行效率,降低了边缘AI的能量消耗,能够满足边缘AI应用中进行高效... 鉴于边缘AI的高性能与低功耗需求,基于RISC-V指令集架构,针对边缘设备数字信号处理的实际问题,设计了一种边缘AI的专用指令集处理器,在有限的硬件开销下,提升了边缘AI的执行效率,降低了边缘AI的能量消耗,能够满足边缘AI应用中进行高效大语言模型(LLM)推理计算的需求。针对大语言模型的特性,基于RISC-V指令集扩展了自定义指令完成矢量点积计算,在专用的矢量点积加速硬件上进行大语言模型的运算加速;基于开源高性能RISC-V处理器核“香山”nanhu版本架构,实现了矢量点积专用指令集处理器nanhu-vdot,其在高性能处理器“香山”(nanhu版本)的基础上增加了矢量点积计算单元以及流水线处理逻辑;对nanhu-vdot进行FPGA硬件测试,在几乎没有增加额外的硬件资源和功耗消耗的前提下,矢量点积运算速度相比标量方法提高4倍以上,使用软硬件协同方案进行第二代生成式预训练(Generative Pre-Trained-2,GPT-2)模型推理,相比纯软件实现,速度提高了约30%。 展开更多
关键词 指令集扩展 矢量点积 软硬件协同 大语言模型推理
在线阅读 下载PDF
采用指令集扩展和随机调度的AES算法实现技术 被引量:3
2
作者 孙迎红 童元满 王志英 《计算机工程与应用》 CSCD 北大核心 2009年第16期106-110,共5页
在随机掩码技术基础上,定义了若干细粒度的随机掩码操作,将AES(Advanced Encryption Standard)算法中各种变换分解为细粒度随机掩码操作的序列,并使得所有的中间结果均被不同的随机量所掩码。为高效实现基于细粒度随机掩码操作分解的AE... 在随机掩码技术基础上,定义了若干细粒度的随机掩码操作,将AES(Advanced Encryption Standard)算法中各种变换分解为细粒度随机掩码操作的序列,并使得所有的中间结果均被不同的随机量所掩码。为高效实现基于细粒度随机掩码操作分解的AES算法,定义了三种扩展指令,结合指令随机调度方法,给出了AES算法的完整实现流程,并指出这种实现技术可以抗一阶和高阶功耗攻击。实验结果表明,与其他典型防护技术相比,这种实现技术具有安全性、运算性能以及硬件复杂度等方面的综合优势。 展开更多
关键词 功耗攻击 高级加密标准 随机掩码 指令集扩展
在线阅读 下载PDF
密码指令集扩展研究 被引量:1
3
作者 李美峰 戴冠中 +2 位作者 刘航 苗胜 张德刚 《计算机应用研究》 CSCD 北大核心 2008年第6期1833-1835,共3页
详细分析了常见密码算法的基本操作以及密码指令集扩展的研究现状,针对当前密码系统需要支持多种密码算法的特点指出未来密码指令集扩展的发展方向:指令设计需朝通用性上发展且通用密码处理器是处理器密码指令集扩展的最终目的。
关键词 密码指令集扩展 基本操作 通用性 通用密码处理器
在线阅读 下载PDF
基于MIPS32架构三角函数指令集扩展的设计与实现 被引量:2
4
作者 李正平 高杨 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2021年第5期612-615,共4页
基于商用MIPS32处理器架构,文章提出一种CORDIC算法的指令集扩展方法,利用硬件电路的并行性、可定制性以及指令编码的灵活性,使得该方法在计算三角函数时具有高效率、高精度的特点。数字信号在处理过程中涉及到三角函数运算时,大都采用... 基于商用MIPS32处理器架构,文章提出一种CORDIC算法的指令集扩展方法,利用硬件电路的并行性、可定制性以及指令编码的灵活性,使得该方法在计算三角函数时具有高效率、高精度的特点。数字信号在处理过程中涉及到三角函数运算时,大都采用查表映射的方式,其延迟长、效率低、耗费存储空间大,难以满足实时性要求。实验结果表明:该文提出的设计在40 nm CMOS工艺下,运行的频率高达1 GHz。在有限的区间内,相对误差达到10^(-7),和现有硬件电路结构相比,寄存器资源降低了76%,有效地降低了芯片的结构面积。 展开更多
关键词 三角函数 MIPS32处理器 CORDIC算法 指令集扩展
在线阅读 下载PDF
加速有限域GF(2m)上Montgomery乘法实现的指令集扩展研究
5
作者 李美峰 戴冠中 +1 位作者 刘航 胡伟 《计算机应用研究》 CSCD 北大核心 2009年第1期356-358,共3页
通过扩展多项式乘法指令MULGF2和多项式乘加指令MAGF2来加速Montgomery算法的软件实现。性能分析显示,指令集扩展能够显著提高Montgomery算法的执行效率,特别是同时扩展多项式乘法及乘加指令时效果更佳,且当处理器字长越大效果越明显。
关键词 指令集扩展 多项式乘法 多精度 有限域
在线阅读 下载PDF
面向流密码的反馈移位寄存器专用指令集扩展
6
作者 戴强 戴紫彬 张立朝 《小型微型计算机系统》 CSCD 北大核心 2014年第8期1822-1826,共5页
反馈移位寄存器是众多流密码算法的核心部件,加快反馈移位寄存器操作是提高流密码处理速度的关键.为提高传统流密码算法中反馈移位寄存器软件实现性能,在分析通用微处理器上反馈移位操作特征的基础上,设计了相应的反馈移位寄存器RISC扩... 反馈移位寄存器是众多流密码算法的核心部件,加快反馈移位寄存器操作是提高流密码处理速度的关键.为提高传统流密码算法中反馈移位寄存器软件实现性能,在分析通用微处理器上反馈移位操作特征的基础上,设计了相应的反馈移位寄存器RISC扩展指令和灵活高效的硬件支持单元,构建了基于NIOSⅡ的SOPC测试平台,测试结果表明,使用扩展指令后,通用微处理器上反馈移位操作性能最大提高7.5倍,而流密码算法软件实现性能也随之提高了3~4倍. 展开更多
关键词 流密码 反馈移位寄存器 精简指令处理器 指令集扩展
在线阅读 下载PDF
AES算法的SIMD指令集扩展方法与实现
7
作者 卢仕听 王帅 +1 位作者 韩军 曾晓洋 《计算机工程》 CAS CSCD 北大核心 2011年第6期121-123,共3页
基于MIPS32 4k系列的处理器架构,提出一种AES算法的SIMD指令集扩展方法,利用处理器流水线对齐级和AES数据访问单元,实现64 bit数据位宽的并行处理操作。对不同实现方式的性能进行比较,结果表明,该方法的加解密运算性能有较大提高,硬件... 基于MIPS32 4k系列的处理器架构,提出一种AES算法的SIMD指令集扩展方法,利用处理器流水线对齐级和AES数据访问单元,实现64 bit数据位宽的并行处理操作。对不同实现方式的性能进行比较,结果表明,该方法的加解密运算性能有较大提高,硬件代价相对较小,且具有编程灵活性。 展开更多
关键词 指令流多数据流 高等加密标准 指令集扩展
在线阅读 下载PDF
模拟器指令集扩展的设计与实现
8
作者 朱孝银 《计算机应用与软件》 CSCD 2010年第2期148-149,193,共3页
模拟器是体系结构研究中最重要的实验平台。在研究过程中,许多新设计必须通过引入新指令才能实现,这就要求模拟器指令集中包含足够的预留操作码。然而,预留码通常都很有限,并且随着研究的发展,本已有限的预留码可能已被用尽。给出一种... 模拟器是体系结构研究中最重要的实验平台。在研究过程中,许多新设计必须通过引入新指令才能实现,这就要求模拟器指令集中包含足够的预留操作码。然而,预留码通常都很有限,并且随着研究的发展,本已有限的预留码可能已被用尽。给出一种通用的模拟器指令集扩展方案,它通过拉长指令宽度而增加了预留码空间,有效地解决了新指令添加面临的局限性问题。此外,还基于当前流行的多核模拟器SESC展示了该方案的实现过程,对研究者而言具有实用价值。 展开更多
关键词 指令集扩展 模拟器 体系结构
在线阅读 下载PDF
支持FPGA动态重构的RISC-V扩展指令集设计与实现
9
作者 周炫锦 蔡刚 黄志洪 《计算机工程》 北大核心 2025年第5期229-238,共10页
目前实现动态重构的常用方法是通过片上接口进行配置,一般采用现场可编程门阵列(FPGA)官方提供的动态重构控制知识产权(IP)核,并通过系统总线与处理器相连。这种方法会占用较多静态部分的逻辑资源,并且限制了片上接口的运行频率。针对... 目前实现动态重构的常用方法是通过片上接口进行配置,一般采用现场可编程门阵列(FPGA)官方提供的动态重构控制知识产权(IP)核,并通过系统总线与处理器相连。这种方法会占用较多静态部分的逻辑资源,并且限制了片上接口的运行频率。针对这些问题,提出将FPGA抽象为大规模存储器的设计理念,构建DPRC动态重构控制指令集及配套应用程序编程接口(API),以优化逻辑资源占用量,消除缓冲延迟。指令集的实现以原有RV32IMC为基础,采用微指令序列控制片上接口部分,通过与数据通路紧密耦合来减少逻辑资源使用量,使用参数化多周期方案优化时序并确保通用性。实验结果表明,与传统方法相比,该系统中动态重构功能相关逻辑资源占用量减少84%,频率提高312%。相较于原有处理器,添加扩展指令集后处理器自身资源占用量仅增加5%,最差情况下扩展部分对时钟周期的影响小于0.2 ns,表明该动态重构控制方案具有低成本、高主频的特性。 展开更多
关键词 RISC-V指令 扩展指令 动态重构 FPGA技术 大规模存储器
在线阅读 下载PDF
AES快速算法的扩展指令集实现 被引量:1
10
作者 封斌 齐德昱 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第6期97-102,共6页
基于Daemen等提出的AES快速算法,给出了用可配置处理器NiosII扩展指令集实现硬件加速的两种方案——基于片内存储器存储快速算法查找表的方法、用硬件逻辑电路实现S盒并计算出快速算法查找表对应元素的方法,用对前向查找表的查表操作代... 基于Daemen等提出的AES快速算法,给出了用可配置处理器NiosII扩展指令集实现硬件加速的两种方案——基于片内存储器存储快速算法查找表的方法、用硬件逻辑电路实现S盒并计算出快速算法查找表对应元素的方法,用对前向查找表的查表操作代替了AES算法计算密集的轮变换操作.首先,将快速算法的前向查找表存放在片上内存中,并用12条扩展指令分别完成密钥扩展、轮变换和末轮操作,末轮变换所需的S盒采取对前向查找表的掩模得到;然后,对该方案进行优化以消除片上内存的占用,即推导出S盒与前向查找表的逻辑关系,并采取有限元素求逆的方法用逻辑电路实现S盒,增强了系统安全性并降低了功耗;最后,对扩展指令集和协处理器等多种实现方案进行了测试及性能对比.结果表明,相比于经过结构优化的纯软件快速AES算法,文中提出的方案在仅增加223个LE的条件下,达到了2.47倍的加速比. 展开更多
关键词 AES快速算法 扩展指令 S盒 有限域 NIOSII处理器 加速比
在线阅读 下载PDF
IEEE802.15.4中AES-CCM协议的扩展指令集实现 被引量:1
11
作者 封斌 齐德昱 韩海雯 《电子与信息学报》 EI CSCD 北大核心 2013年第2期335-340,共6页
该文在高级加密标准(AES)快速算法的基础上,设计了一组基于可配置处理器NiosII上的扩展指令,用于IEEE802.15.4标准媒体访问控制层中基于AES算法的计数器模式和密码分组链接消息验证码(AES-CCM)协议的硬件加速。该文首先推导出快速算法... 该文在高级加密标准(AES)快速算法的基础上,设计了一组基于可配置处理器NiosII上的扩展指令,用于IEEE802.15.4标准媒体访问控制层中基于AES算法的计数器模式和密码分组链接消息验证码(AES-CCM)协议的硬件加速。该文首先推导出快速算法中用于轮变换的查找表与S盒的逻辑关系,然后通过复合域变换方法用硬件电路实现S盒的计算,从而消除了支撑扩展指令集的硬件逻辑对片上存储空间的消耗。同时给出该协议基于查表法的扩展指令集和协处理器的设计方案,并在EP2C35芯片上进行实现和对比。该方案仅消耗223个逻辑单元(LE),吞吐量为668.7 kbps,时钟周期数比软件算法加速174.6倍,芯片面积仅为协处理器方案的9.5%,显著降低了无线传感网节点设备的成本和功耗。 展开更多
关键词 无线传感网 扩展指令 IEEE802 15 4 高级加密标准的计数器模式和密码块链信息认证码(AES—CCM)协议 S盒 复合域
在线阅读 下载PDF
面向特定应用的指令集自动扩展
12
作者 吕雅帅 沈立 +1 位作者 王志英 戴葵 《计算机工程与科学》 CSCD 2007年第6期84-86,116,共4页
面向应用扩展指令集是面向特定应用处理器设计过程的一个重要环节,这一工作的自动实现对于缩短产品开发周期具有非常重要的意义。现有的技术未能实现该过程的完全自动化,而且在选择指令时并没有全面考虑指令对处理器面积和功耗的影响。... 面向应用扩展指令集是面向特定应用处理器设计过程的一个重要环节,这一工作的自动实现对于缩短产品开发周期具有非常重要的意义。现有的技术未能实现该过程的完全自动化,而且在选择指令时并没有全面考虑指令对处理器面积和功耗的影响。本文设计并实现了一个面向特定应用的指令集自动扩展系统,该系统不仅可以根据应用特征自动扩展新指令,而且可以自动完成编译器的修改。模拟结果显示,扩展的新指令能够在保持功耗、面积基本不变的前提下,带来4.7%~16.7%的性能提升。 展开更多
关键词 ASIP 编译器 指令自动扩展
在线阅读 下载PDF
一种针对多媒体扩展指令集和实际多媒体程序的自动向量化方法 被引量:4
13
作者 姜伟华 梅超 +3 位作者 郭一 朱嘉华 臧斌宇 朱传琪 《计算机学报》 EI CSCD 北大核心 2005年第8期1255-1266,共12页
自动向量化编译是利用处理器的多媒体扩展指令集提升多媒体程序性能的理想工具.但目前的研究不能有效加速实际程序.其主要原因是:普通算术操作的向量化不一定有性能提升;而多媒体典型操作因为其在源代码中表现形式多样而不能充分向量化... 自动向量化编译是利用处理器的多媒体扩展指令集提升多媒体程序性能的理想工具.但目前的研究不能有效加速实际程序.其主要原因是:普通算术操作的向量化不一定有性能提升;而多媒体典型操作因为其在源代码中表现形式多样而不能充分向量化.为了解决这一问题,文章对经典向量化算法[1]进行改进以灵活统一地向量化这两类操作.主要的改进是增加了两个步骤:统一操作的不同表现形式和识别有价值的向量化操作.改进后的算法可以充分利用指令集生成高效代码,从而对实际多媒体程序拥有良好效果.此外,该算法可扩展性也很强. 展开更多
关键词 自动向量化编译技术 多媒体扩展指令 多媒体典型操作
在线阅读 下载PDF
基于MIPS体系的扩展指令融合技术 被引量:2
14
作者 陈文智 姜振宇 吴帆 《计算机学报》 EI CSCD 北大核心 2008年第11期1888-1897,共10页
MIPS作为RISC体系的典型代表,不能避免代码密度不高和指令域的有效利用程度低的缺陷,使得程序体积膨胀.文中将MIPS指令集扩展为exMIPS ISA,并提出一种基于MIPS体系的指令融合技术.它在解码阶段对预取指令扫描并转换成exMIPS ISA,将符合... MIPS作为RISC体系的典型代表,不能避免代码密度不高和指令域的有效利用程度低的缺陷,使得程序体积膨胀.文中将MIPS指令集扩展为exMIPS ISA,并提出一种基于MIPS体系的指令融合技术.它在解码阶段对预取指令扫描并转换成exMIPS ISA,将符合融合条件的相邻两条或多条exMIPS ISA指令压缩合并.一条"融合指令"的执行,等效于多条被融合的指令同时发射执行,不仅提升了CPU性能,也提升了指令域的有效利用率和代码密度.SimpleScalar模拟平台的实验结果显示可获得较大的性能提升. 展开更多
关键词 指令融合 代码压缩 MIPS指令集扩展 指令级并行 SIMPLESCALAR
在线阅读 下载PDF
基于差分进化和贪心策略的自定义指令选择算法研究 被引量:3
15
作者 周学海 纪金松 张敏 《电子学报》 EI CAS CSCD 北大核心 2009年第2期372-376,共5页
本文针对常见启发式算法中忽略指令与指令实例区别的问题,改进了一个已有启发式算法Greedy-Heur:根据指令实例的启发式函数值得出相应指令的权值,并根据指令的优先级关系以贪心策略进行指令实例选择.针对启发式算法无法找到最优解的问题... 本文针对常见启发式算法中忽略指令与指令实例区别的问题,改进了一个已有启发式算法Greedy-Heur:根据指令实例的启发式函数值得出相应指令的权值,并根据指令的优先级关系以贪心策略进行指令实例选择.针对启发式算法无法找到最优解的问题,本文引入基于群体搜索的差分进化算法,并结合贪心策略,提出了ISDE(Instruction Selection Based on Differential Evolution)算法.ISDE算法通过简单的编码和高效的适应度评价机制,快速地迭代搜索最优指令组合.实验结果表明,GreedyHeur和ISDE算法能快速有效地找到比已有启发式算法更优的候选指令组合. 展开更多
关键词 差分进化算法 贪心策略 指令集扩展 指令选择
在线阅读 下载PDF
面向多任务的定制指令模式提取
16
作者 薄拾 葛宁 林孝康 《计算机工程与设计》 CSCD 北大核心 2010年第15期3416-3418,3431,共4页
为提高嵌入式处理器对计算密集型应用的处理能力,并增强定制指令的适应性,提出一种面向多任务的定制指令模式自动化提取方法。该方法以目标应用的热点代码数据流图集合作为分析对象,通过流图频率加权的方式实现目标任务的优先级调整,并... 为提高嵌入式处理器对计算密集型应用的处理能力,并增强定制指令的适应性,提出一种面向多任务的定制指令模式自动化提取方法。该方法以目标应用的热点代码数据流图集合作为分析对象,通过流图频率加权的方式实现目标任务的优先级调整,并挖掘隐藏于任务程序热点中的频繁计算模式作为定制指令模式。安全加密和媒体处理优化实例结果表明,该方法可提高定制指令的适应性和利用率,其优化效果优于传统独立设计方式。 展开更多
关键词 指令集扩展 定制指令 多任务 频繁计算模式 数据流图 可配置处理器
在线阅读 下载PDF
面向ASAP自定义指令生成算法研究
17
作者 王军 周学海 《计算机工程》 CAS CSCD 北大核心 2010年第19期104-106,共3页
从处理器的指令集进行扩展的优势主要是降低系统设计时间和代价以及可减小代码大小、寄存器压力,从而降低取指频率和功耗。基于此,结合ASAP框架给出自定义指令生成的算法,通过数据流分析、指令簇标记、子图枚举、子图合并的方法,找出符... 从处理器的指令集进行扩展的优势主要是降低系统设计时间和代价以及可减小代码大小、寄存器压力,从而降低取指频率和功耗。基于此,结合ASAP框架给出自定义指令生成的算法,通过数据流分析、指令簇标记、子图枚举、子图合并的方法,找出符合自定义扩展指令的多个约束要求的候选指令集合。实验结果表明,该算法能够高效地找出目标应用的所有非平凡自定义指令集合。 展开更多
关键词 自适应处理器 指令集扩展 指令生成
在线阅读 下载PDF
嵌入式领域ECC专用指令处理器的研究 被引量:6
18
作者 夏辉 于佳 +3 位作者 秦尧 程相国 陈仁海 潘振宽 《计算机学报》 EI CSCD 北大核心 2017年第5期1092-1108,共17页
与其他公钥密码算法相比,椭圆曲线密码算法(Elliptic Curve Cryptography,ECC)具有抗攻击能力强、计算量小以及处理速度快等优点,已成为下一代公钥密码体制的标准.随着ECC在嵌入式领域的应用日益广泛,如何提高其执行效率成为目前研究的... 与其他公钥密码算法相比,椭圆曲线密码算法(Elliptic Curve Cryptography,ECC)具有抗攻击能力强、计算量小以及处理速度快等优点,已成为下一代公钥密码体制的标准.随着ECC在嵌入式领域的应用日益广泛,如何提高其执行效率成为目前研究的热点问题.文中提出了一套通用的专用指令处理器(Application Specific Instruction Processor,ASIP)的设计验证方案,并将该方案应用于ECC,从而大幅提升其在硬件资源受限的嵌入式环境中的执行效率.首先借鉴并实现了OpenSSL公开的ECC软件优化方案,并结合处理器平台的特点对大整数乘法运算和多项式平方运算进行了进一步优化.其次对优化后的算法进行基本指令块(Basic Instruction Block,BIB)的划分并转化为数据流图(Data Flow Graph,DFG),在DFG图中依照专用指令设计规则引入近似最优解方法查找可优化指令块.对该类指令块设计相应的专用指令,以实现处理器原有基础指令集架构的扩展.再次基于电子系统级(Electronic System Level,ESL)设计方法依次设计并仿真验证ECC_ASIP的系统级模型和Verilog寄存器传输级(Register Transfer Level,RTL)模型.最后将验证通过的RTL级处理器模型进行综合、布局布线,转换成相对应的门级电路并统计模型使用的硬件资源信息,烧写到FPGA(Field-Programmable Gate Array)平台完成ECC_ASIP的移植操作和性能验证.与ARM11处理器平台下算法实现的性能表现进行对比,实验结果显示,ECC_ASIP牺牲了9.23x%的硬件扩展资源,将算法实现的运算速度提高了2.74x倍,指令代码存储空间减少了59.36x%. 展开更多
关键词 椭圆曲线密码 专用指令处理器 近似最优解方法 指令架构扩展 FPGA
在线阅读 下载PDF
H.264编码器的SSE2指令级优化 被引量:2
19
作者 王琰 向校萱 祁燕 《计算机工程与应用》 CSCD 2012年第10期217-221,共5页
H.264视频编码标准采用了很多新技术,具有更优越的编码效率,同时也增加了计算复杂度,无法满足实时应用。由于单指令多数据扩展指令集2(SSE2)的并行运算能力可以提高计算机对多媒体数据的实时处理。文中主要采用了SSE2对H.264中的一些耗... H.264视频编码标准采用了很多新技术,具有更优越的编码效率,同时也增加了计算复杂度,无法满足实时应用。由于单指令多数据扩展指令集2(SSE2)的并行运算能力可以提高计算机对多媒体数据的实时处理。文中主要采用了SSE2对H.264中的一些耗时较多的关键模块,例如整数像素运动估计中计算SAD、整数DCT变换、量化、Hadamard变换以及亚像素运动估计中计算SATD进行了指令级优化。实验结果表明,经过优化后,在保持视频图像质量的前提下,相应模块运行速度得到了提高,使H.264编码器整体的编码速度较好地满足实时要求。 展开更多
关键词 H.264编码 绝对误差和 整数DCT变换 变换绝对差值总和 指令多数据扩展指令2(SSE2)
在线阅读 下载PDF
基于SSE指令的大内存快速拷贝 被引量:1
20
作者 钱昌松 刘志刚 刘代志 《计算机应用研究》 CSCD 北大核心 2005年第2期113-114,120,共3页
在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各... 在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各内存拷贝函数拷贝速度与拷贝内存量之间的对应关系。 展开更多
关键词 指令多数据流扩展指令 内存拷贝 MMX 代码优化
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部