期刊文献+
共找到66篇文章
< 1 2 4 >
每页显示 20 50 100
基于RISC-V Matrix指令集扩展的LLM矢量点积加速研究
1
作者 陈煦豪 胡思鹏 +3 位作者 刘洪超 刘伯然 唐丹 赵地 《计算机科学》 北大核心 2025年第5期83-90,共8页
鉴于边缘AI的高性能与低功耗需求,基于RISC-V指令集架构,针对边缘设备数字信号处理的实际问题,设计了一种边缘AI的专用指令集处理器,在有限的硬件开销下,提升了边缘AI的执行效率,降低了边缘AI的能量消耗,能够满足边缘AI应用中进行高效... 鉴于边缘AI的高性能与低功耗需求,基于RISC-V指令集架构,针对边缘设备数字信号处理的实际问题,设计了一种边缘AI的专用指令集处理器,在有限的硬件开销下,提升了边缘AI的执行效率,降低了边缘AI的能量消耗,能够满足边缘AI应用中进行高效大语言模型(LLM)推理计算的需求。针对大语言模型的特性,基于RISC-V指令集扩展了自定义指令完成矢量点积计算,在专用的矢量点积加速硬件上进行大语言模型的运算加速;基于开源高性能RISC-V处理器核“香山”nanhu版本架构,实现了矢量点积专用指令集处理器nanhu-vdot,其在高性能处理器“香山”(nanhu版本)的基础上增加了矢量点积计算单元以及流水线处理逻辑;对nanhu-vdot进行FPGA硬件测试,在几乎没有增加额外的硬件资源和功耗消耗的前提下,矢量点积运算速度相比标量方法提高4倍以上,使用软硬件协同方案进行第二代生成式预训练(Generative Pre-Trained-2,GPT-2)模型推理,相比纯软件实现,速度提高了约30%。 展开更多
关键词 指令扩展 矢量点积 软硬件协同 大语言模型推理
在线阅读 下载PDF
支持FPGA动态重构的RISC-V扩展指令集设计与实现
2
作者 周炫锦 蔡刚 黄志洪 《计算机工程》 北大核心 2025年第5期229-238,共10页
目前实现动态重构的常用方法是通过片上接口进行配置,一般采用现场可编程门阵列(FPGA)官方提供的动态重构控制知识产权(IP)核,并通过系统总线与处理器相连。这种方法会占用较多静态部分的逻辑资源,并且限制了片上接口的运行频率。针对... 目前实现动态重构的常用方法是通过片上接口进行配置,一般采用现场可编程门阵列(FPGA)官方提供的动态重构控制知识产权(IP)核,并通过系统总线与处理器相连。这种方法会占用较多静态部分的逻辑资源,并且限制了片上接口的运行频率。针对这些问题,提出将FPGA抽象为大规模存储器的设计理念,构建DPRC动态重构控制指令集及配套应用程序编程接口(API),以优化逻辑资源占用量,消除缓冲延迟。指令集的实现以原有RV32IMC为基础,采用微指令序列控制片上接口部分,通过与数据通路紧密耦合来减少逻辑资源使用量,使用参数化多周期方案优化时序并确保通用性。实验结果表明,与传统方法相比,该系统中动态重构功能相关逻辑资源占用量减少84%,频率提高312%。相较于原有处理器,添加扩展指令集后处理器自身资源占用量仅增加5%,最差情况下扩展部分对时钟周期的影响小于0.2 ns,表明该动态重构控制方案具有低成本、高主频的特性。 展开更多
关键词 RISC-V指令 扩展指令 动态重构 FPGA技术 大规模存储器
在线阅读 下载PDF
基于指令扩展的RISC-V可配置故障注入检测方法
3
作者 刘强 李一可 《北京航空航天大学学报》 北大核心 2025年第1期43-52,共10页
针对处理器运行时受到故障攻击出现的数据流错误,提出了一种面向RISC-V处理器微架构的模式可配置故障注入检测方法。该方法基于RISC-V指令集架构,利用其可扩展性添加带模式配置的自定义算术逻辑运算指令和控制与状态寄存器,以软硬件结... 针对处理器运行时受到故障攻击出现的数据流错误,提出了一种面向RISC-V处理器微架构的模式可配置故障注入检测方法。该方法基于RISC-V指令集架构,利用其可扩展性添加带模式配置的自定义算术逻辑运算指令和控制与状态寄存器,以软硬件结合的方式同时实现算术逻辑运算和故障注入检测。在软件层面,通过写寄存器指令将配置信息写入自定义的控制与状态寄存器,配置自定义指令的故障注入检测模式,包括信息冗余和时间冗余2种故障注入检测模式及其参数;在硬件层面,实现了支持模式可配置故障注入检测方法的RISC-V处理器微架构。采用仿真器命令模拟故障注入,验证扩展后的RISC-V处理器的功能正确性与故障注入检测能力。实验结果表明:当信息冗余模式和时间冗余模式的应用频率相同时,模式可配置方法相较于单信息冗余方法,平均故障检测率提高13.34%,引入4.4%的平均资源开销;相较于单时间冗余方法,降低了8.24%的平均时间开销,故障检测率降低了13.33%。所提模式可配置方法可以实现故障检测率和时间开销的折中,适用于不同安全性和性能需求的应用场景。 展开更多
关键词 硬件安全 故障注入攻击对策 故障注入检测 RISC-V处理器 指令扩展
在线阅读 下载PDF
基于RISC-V指令扩展方式的国密算法SM2、SM3和SM4的高效实现 被引量:2
4
作者 王明登 严迎建 +1 位作者 郭朋飞 张帆 《电子学报》 EI CAS CSCD 北大核心 2024年第8期2850-2865,共16页
基于指令扩展的密码算法实现是兼顾性能和面积的轻量级实现方式,特别适用于日益普及的物联网设备.SM2、SM3和SM4等国密算法有利于提高自主可控设备的安全性,但针对这些算法进行指令扩展的相关研究还不够充分.RISC-V由于其开源、简洁及... 基于指令扩展的密码算法实现是兼顾性能和面积的轻量级实现方式,特别适用于日益普及的物联网设备.SM2、SM3和SM4等国密算法有利于提高自主可控设备的安全性,但针对这些算法进行指令扩展的相关研究还不够充分.RISC-V由于其开源、简洁及可扩展等优点已成为业界最流行的指令集架构之一,本文主要基于国产开源RISC-V处理器对国密算法SM2、SM3和SM4进行指令扩展和高效实现.本文基于软硬件协同的理念提出总体指令的扩展方案.对相关密码算法进行深入分析和方案对比,分别设计了硬件单元,提出高效的实现方式.设计实现的协处理器具有2级流水线结构,顺序派遣、乱序执行和顺序写回的指令执行模式,以及独立内存访问单元和大位宽寄存器.协处理器统一接管了密码算法的部分控制逻辑,降低硬件资源消耗.实验结果表明,本文设计的密码协处理器硬件结构精简,资源利用率高.SM2、SM3和SM4算法占用资源少,但执行速率相比纯硬件有一定程度下降,资源面积和花费时间的乘积与其他相关文献相比有不同程度的优势. 展开更多
关键词 RISC-V 协处理器 国密算法 指令扩展 蜂鸟E203 嵌入式系统
在线阅读 下载PDF
面向嵌入式应用的指令集自动扩展 被引量:6
5
作者 吕雅帅 沈立 +1 位作者 黄立波 王志英 《电子学报》 EI CAS CSCD 北大核心 2008年第5期985-988,共4页
面向特定应用扩展指令集,并通过定制的硬件实现这些扩展指令,能够大幅度提高嵌入式处理器的性能.本文提出了一种全自动的面向特定应用的指令集扩展流程,该流程能够较精确地估算扩展指令的性能加速比和硬件开销,并高效完成指令模板匹配.... 面向特定应用扩展指令集,并通过定制的硬件实现这些扩展指令,能够大幅度提高嵌入式处理器的性能.本文提出了一种全自动的面向特定应用的指令集扩展流程,该流程能够较精确地估算扩展指令的性能加速比和硬件开销,并高效完成指令模板匹配.实验结果表明,在给定的硬件开销限制下,该方法产生的扩展指令能够显著提升嵌入式应用的性能. 展开更多
关键词 嵌入式应用 扩展指令 自动生成
在线阅读 下载PDF
GISEES:面向嵌入式系统的扩展指令集自动产生方法 被引量:2
6
作者 陈虎 陈书明 +2 位作者 陈胜刚 谷会涛 陈小文 《电子学报》 EI CAS CSCD 北大核心 2011年第9期2026-2033,共8页
面向应用的指令集处理器通过增加扩展指令可有效提升处理器的性能,满足上市时间要求.然而为嵌入式系统定制扩展指令需解决以下3个问题:设计空间随应用复杂度的增加指数增加,有限的片上资源限制了扩展指令的数量和复杂度,现有指令集扩展... 面向应用的指令集处理器通过增加扩展指令可有效提升处理器的性能,满足上市时间要求.然而为嵌入式系统定制扩展指令需解决以下3个问题:设计空间随应用复杂度的增加指数增加,有限的片上资源限制了扩展指令的数量和复杂度,现有指令集扩展算法复杂度高难以在嵌入式系统上运行.本文提出了一种快速的指令集扩展方法GISEES.该方法以应用的典型操作为中心产生扩展指令以裁剪了设计空间,并采用基于最大公共等价子串的资源共享策略减少资源开销和插入的多路选择器的数量.实验结果表明,该方法具有线性复杂度,可产生效率更高的扩展指令,更适合为嵌入式系统定制高效的扩展指令. 展开更多
关键词 扩展指令 指令识别 指令选择 资源共享
在线阅读 下载PDF
一种针对位操作密集应用的扩展指令自动选择方法 被引量:3
7
作者 张吉豫 刘先华 +2 位作者 谭明星 程旭 丛京生 《电子学报》 EI CAS CSCD 北大核心 2012年第2期209-214,共6页
本文提出一种结合位操作分析和变换的扩展指令自动选择方法.该方法在数据流图中引入新的位操作中间表示结点,可精简地描述位访问操作.编译器可对程序数据流图进行选择性循环展开和位操作分析优化,并将其转换为带有直接表示位赋值操作结... 本文提出一种结合位操作分析和变换的扩展指令自动选择方法.该方法在数据流图中引入新的位操作中间表示结点,可精简地描述位访问操作.编译器可对程序数据流图进行选择性循环展开和位操作分析优化,并将其转换为带有直接表示位赋值操作结点的数据流图.实验结果表明,基于新的数据流图进行扩展指令选择可有效提升位操作密集型应用的性能. 展开更多
关键词 指令系统扩展 自动选择 位操作变换
在线阅读 下载PDF
基于MIPS体系的扩展指令融合技术 被引量:2
8
作者 陈文智 姜振宇 吴帆 《计算机学报》 EI CSCD 北大核心 2008年第11期1888-1897,共10页
MIPS作为RISC体系的典型代表,不能避免代码密度不高和指令域的有效利用程度低的缺陷,使得程序体积膨胀.文中将MIPS指令集扩展为exMIPS ISA,并提出一种基于MIPS体系的指令融合技术.它在解码阶段对预取指令扫描并转换成exMIPS ISA,将符合... MIPS作为RISC体系的典型代表,不能避免代码密度不高和指令域的有效利用程度低的缺陷,使得程序体积膨胀.文中将MIPS指令集扩展为exMIPS ISA,并提出一种基于MIPS体系的指令融合技术.它在解码阶段对预取指令扫描并转换成exMIPS ISA,将符合融合条件的相邻两条或多条exMIPS ISA指令压缩合并.一条"融合指令"的执行,等效于多条被融合的指令同时发射执行,不仅提升了CPU性能,也提升了指令域的有效利用率和代码密度.SimpleScalar模拟平台的实验结果显示可获得较大的性能提升. 展开更多
关键词 指令融合 代码压缩 MIPS指令扩展 指令级并行 SIMPLESCALAR
在线阅读 下载PDF
微程序控制器扩展指令研究 被引量:6
9
作者 宗德才 王康康 《计算机应用与软件》 北大核心 2019年第6期214-220,276,共8页
在控制器中设计新指令是控制器教学中比较难的内容。为解决TEC-XP16教学机缺少乘法指令和除法指令的问题,基于TEC-XP16教学机,介绍微程序控制器的基本组成与工作原理,分析在微程序控制器中扩展指令的主要过程,提出一种微程序控制器中MU... 在控制器中设计新指令是控制器教学中比较难的内容。为解决TEC-XP16教学机缺少乘法指令和除法指令的问题,基于TEC-XP16教学机,介绍微程序控制器的基本组成与工作原理,分析在微程序控制器中扩展指令的主要过程,提出一种微程序控制器中MUL乘法指令与DIV除法指令的设计方案;以扩展MUL乘法指令为例,详细介绍在TEC-XP16教学机微程序控制器中设计实现扩展指令的完整过程;以实验方式验证了所设计和实现的乘法指令与除法指令的功能。所提出的设计方法对微程序控制器部件的教学与实验有一定的指导作用。 展开更多
关键词 计算机组成原理 TEC-XP16教学机 微程序控制器 扩展指令 乘法指令 除法指令
在线阅读 下载PDF
采用指令集扩展和随机调度的AES算法实现技术 被引量:3
10
作者 孙迎红 童元满 王志英 《计算机工程与应用》 CSCD 北大核心 2009年第16期106-110,共5页
在随机掩码技术基础上,定义了若干细粒度的随机掩码操作,将AES(Advanced Encryption Standard)算法中各种变换分解为细粒度随机掩码操作的序列,并使得所有的中间结果均被不同的随机量所掩码。为高效实现基于细粒度随机掩码操作分解的AE... 在随机掩码技术基础上,定义了若干细粒度的随机掩码操作,将AES(Advanced Encryption Standard)算法中各种变换分解为细粒度随机掩码操作的序列,并使得所有的中间结果均被不同的随机量所掩码。为高效实现基于细粒度随机掩码操作分解的AES算法,定义了三种扩展指令,结合指令随机调度方法,给出了AES算法的完整实现流程,并指出这种实现技术可以抗一阶和高阶功耗攻击。实验结果表明,与其他典型防护技术相比,这种实现技术具有安全性、运算性能以及硬件复杂度等方面的综合优势。 展开更多
关键词 功耗攻击 高级加密标准 随机掩码 指令扩展
在线阅读 下载PDF
密码指令集扩展研究 被引量:1
11
作者 李美峰 戴冠中 +2 位作者 刘航 苗胜 张德刚 《计算机应用研究》 CSCD 北大核心 2008年第6期1833-1835,共3页
详细分析了常见密码算法的基本操作以及密码指令集扩展的研究现状,针对当前密码系统需要支持多种密码算法的特点指出未来密码指令集扩展的发展方向:指令设计需朝通用性上发展且通用密码处理器是处理器密码指令集扩展的最终目的。
关键词 密码指令扩展 基本操作 通用性 通用密码处理器
在线阅读 下载PDF
AES快速算法的扩展指令集实现 被引量:1
12
作者 封斌 齐德昱 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第6期97-102,共6页
基于Daemen等提出的AES快速算法,给出了用可配置处理器NiosII扩展指令集实现硬件加速的两种方案——基于片内存储器存储快速算法查找表的方法、用硬件逻辑电路实现S盒并计算出快速算法查找表对应元素的方法,用对前向查找表的查表操作代... 基于Daemen等提出的AES快速算法,给出了用可配置处理器NiosII扩展指令集实现硬件加速的两种方案——基于片内存储器存储快速算法查找表的方法、用硬件逻辑电路实现S盒并计算出快速算法查找表对应元素的方法,用对前向查找表的查表操作代替了AES算法计算密集的轮变换操作.首先,将快速算法的前向查找表存放在片上内存中,并用12条扩展指令分别完成密钥扩展、轮变换和末轮操作,末轮变换所需的S盒采取对前向查找表的掩模得到;然后,对该方案进行优化以消除片上内存的占用,即推导出S盒与前向查找表的逻辑关系,并采取有限元素求逆的方法用逻辑电路实现S盒,增强了系统安全性并降低了功耗;最后,对扩展指令集和协处理器等多种实现方案进行了测试及性能对比.结果表明,相比于经过结构优化的纯软件快速AES算法,文中提出的方案在仅增加223个LE的条件下,达到了2.47倍的加速比. 展开更多
关键词 AES快速算法 扩展指令 S盒 有限域 NIOSII处理器 加速比
在线阅读 下载PDF
基于MIPS32架构三角函数指令集扩展的设计与实现 被引量:2
13
作者 李正平 高杨 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2021年第5期612-615,共4页
基于商用MIPS32处理器架构,文章提出一种CORDIC算法的指令集扩展方法,利用硬件电路的并行性、可定制性以及指令编码的灵活性,使得该方法在计算三角函数时具有高效率、高精度的特点。数字信号在处理过程中涉及到三角函数运算时,大都采用... 基于商用MIPS32处理器架构,文章提出一种CORDIC算法的指令集扩展方法,利用硬件电路的并行性、可定制性以及指令编码的灵活性,使得该方法在计算三角函数时具有高效率、高精度的特点。数字信号在处理过程中涉及到三角函数运算时,大都采用查表映射的方式,其延迟长、效率低、耗费存储空间大,难以满足实时性要求。实验结果表明:该文提出的设计在40 nm CMOS工艺下,运行的频率高达1 GHz。在有限的区间内,相对误差达到10^(-7),和现有硬件电路结构相比,寄存器资源降低了76%,有效地降低了芯片的结构面积。 展开更多
关键词 三角函数 MIPS32处理器 CORDIC算法 指令扩展
在线阅读 下载PDF
IEEE802.15.4中AES-CCM协议的扩展指令集实现 被引量:1
14
作者 封斌 齐德昱 韩海雯 《电子与信息学报》 EI CSCD 北大核心 2013年第2期335-340,共6页
该文在高级加密标准(AES)快速算法的基础上,设计了一组基于可配置处理器NiosII上的扩展指令,用于IEEE802.15.4标准媒体访问控制层中基于AES算法的计数器模式和密码分组链接消息验证码(AES-CCM)协议的硬件加速。该文首先推导出快速算法... 该文在高级加密标准(AES)快速算法的基础上,设计了一组基于可配置处理器NiosII上的扩展指令,用于IEEE802.15.4标准媒体访问控制层中基于AES算法的计数器模式和密码分组链接消息验证码(AES-CCM)协议的硬件加速。该文首先推导出快速算法中用于轮变换的查找表与S盒的逻辑关系,然后通过复合域变换方法用硬件电路实现S盒的计算,从而消除了支撑扩展指令集的硬件逻辑对片上存储空间的消耗。同时给出该协议基于查表法的扩展指令集和协处理器的设计方案,并在EP2C35芯片上进行实现和对比。该方案仅消耗223个逻辑单元(LE),吞吐量为668.7 kbps,时钟周期数比软件算法加速174.6倍,芯片面积仅为协处理器方案的9.5%,显著降低了无线传感网节点设备的成本和功耗。 展开更多
关键词 无线传感网 扩展指令 IEEE802 15 4 高级加密标准的计数器模式和密码块链信息认证码(AES—CCM)协议 S盒 复合域
在线阅读 下载PDF
RISC3200的MDS-II指令集扩展
15
作者 姚英彪 汪斌 +1 位作者 章坚武 刘鹏 《计算机工程》 CAS CSCD 北大核心 2008年第10期22-24,共3页
通过利用媒体核心算法评估RISC3200的第一代媒体扩展指令集MDS-I的性能,发现MDS-I存在数据处理效率高但数据供应效率低的特点。基于该原因扩展了用于数据供应的第二代媒体扩展指令集MDS-II。实验结果表明,在扩展媒体指令集后,RISC3200... 通过利用媒体核心算法评估RISC3200的第一代媒体扩展指令集MDS-I的性能,发现MDS-I存在数据处理效率高但数据供应效率低的特点。基于该原因扩展了用于数据供应的第二代媒体扩展指令集MDS-II。实验结果表明,在扩展媒体指令集后,RISC3200的媒体核心算法的处理性能提高2-5倍左右。 展开更多
关键词 微处理器 精简指令 媒体应用 指令扩展
在线阅读 下载PDF
指令扩展中相关子图的分析与处理
16
作者 沈立 张晨曦 +1 位作者 吕雅帅 王志英 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2009年第10期1368-1374,共7页
由于没有充分考虑候选子图间重叠、包含等相关关系,按照现有指令扩展方法选出的扩展指令可能无法带来预期的性能收益.详细讨论了子图相关关系和处理方法,并提出相应的指令扩展算法.在子图识别时,根据延迟约束合并相互包含的子图,根据重... 由于没有充分考虑候选子图间重叠、包含等相关关系,按照现有指令扩展方法选出的扩展指令可能无法带来预期的性能收益.详细讨论了子图相关关系和处理方法,并提出相应的指令扩展算法.在子图识别时,根据延迟约束合并相互包含的子图,根据重叠结点的位置合并重叠子图,缩小搜索空间;在子图压缩时,根据子图相关关系动态地调整候选子图的性能收益,减少相关子图引起的估算误差.此外,还根据剩余候选子图的性能收益对时间与精度进行折中.该算法已在传输触发结构ASIP的自动设计流程中实现,实际性能加速比与预期值的平均误差仅为0.17%,远低于原先的3.6%. 展开更多
关键词 专用指令集处理器 指令扩展 计算加速器 相关子图
在线阅读 下载PDF
加速有限域GF(2m)上Montgomery乘法实现的指令集扩展研究
17
作者 李美峰 戴冠中 +1 位作者 刘航 胡伟 《计算机应用研究》 CSCD 北大核心 2009年第1期356-358,共3页
通过扩展多项式乘法指令MULGF2和多项式乘加指令MAGF2来加速Montgomery算法的软件实现。性能分析显示,指令集扩展能够显著提高Montgomery算法的执行效率,特别是同时扩展多项式乘法及乘加指令时效果更佳,且当处理器字长越大效果越明显。
关键词 指令扩展 多项式乘法 多精度 有限域
在线阅读 下载PDF
面向流密码的反馈移位寄存器专用指令集扩展
18
作者 戴强 戴紫彬 张立朝 《小型微型计算机系统》 CSCD 北大核心 2014年第8期1822-1826,共5页
反馈移位寄存器是众多流密码算法的核心部件,加快反馈移位寄存器操作是提高流密码处理速度的关键.为提高传统流密码算法中反馈移位寄存器软件实现性能,在分析通用微处理器上反馈移位操作特征的基础上,设计了相应的反馈移位寄存器RISC扩... 反馈移位寄存器是众多流密码算法的核心部件,加快反馈移位寄存器操作是提高流密码处理速度的关键.为提高传统流密码算法中反馈移位寄存器软件实现性能,在分析通用微处理器上反馈移位操作特征的基础上,设计了相应的反馈移位寄存器RISC扩展指令和灵活高效的硬件支持单元,构建了基于NIOSⅡ的SOPC测试平台,测试结果表明,使用扩展指令后,通用微处理器上反馈移位操作性能最大提高7.5倍,而流密码算法软件实现性能也随之提高了3~4倍. 展开更多
关键词 流密码 反馈移位寄存器 精简指令集处理器 指令扩展
在线阅读 下载PDF
面向特定应用的指令集自动扩展
19
作者 吕雅帅 沈立 +1 位作者 王志英 戴葵 《计算机工程与科学》 CSCD 2007年第6期84-86,116,共4页
面向应用扩展指令集是面向特定应用处理器设计过程的一个重要环节,这一工作的自动实现对于缩短产品开发周期具有非常重要的意义。现有的技术未能实现该过程的完全自动化,而且在选择指令时并没有全面考虑指令对处理器面积和功耗的影响。... 面向应用扩展指令集是面向特定应用处理器设计过程的一个重要环节,这一工作的自动实现对于缩短产品开发周期具有非常重要的意义。现有的技术未能实现该过程的完全自动化,而且在选择指令时并没有全面考虑指令对处理器面积和功耗的影响。本文设计并实现了一个面向特定应用的指令集自动扩展系统,该系统不仅可以根据应用特征自动扩展新指令,而且可以自动完成编译器的修改。模拟结果显示,扩展的新指令能够在保持功耗、面积基本不变的前提下,带来4.7%~16.7%的性能提升。 展开更多
关键词 ASIP 编译器 指令集自动扩展
在线阅读 下载PDF
一种针对多媒体扩展指令集和实际多媒体程序的自动向量化方法 被引量:4
20
作者 姜伟华 梅超 +3 位作者 郭一 朱嘉华 臧斌宇 朱传琪 《计算机学报》 EI CSCD 北大核心 2005年第8期1255-1266,共12页
自动向量化编译是利用处理器的多媒体扩展指令集提升多媒体程序性能的理想工具.但目前的研究不能有效加速实际程序.其主要原因是:普通算术操作的向量化不一定有性能提升;而多媒体典型操作因为其在源代码中表现形式多样而不能充分向量化... 自动向量化编译是利用处理器的多媒体扩展指令集提升多媒体程序性能的理想工具.但目前的研究不能有效加速实际程序.其主要原因是:普通算术操作的向量化不一定有性能提升;而多媒体典型操作因为其在源代码中表现形式多样而不能充分向量化.为了解决这一问题,文章对经典向量化算法[1]进行改进以灵活统一地向量化这两类操作.主要的改进是增加了两个步骤:统一操作的不同表现形式和识别有价值的向量化操作.改进后的算法可以充分利用指令集生成高效代码,从而对实际多媒体程序拥有良好效果.此外,该算法可扩展性也很强. 展开更多
关键词 自动向量化编译技术 多媒体扩展指令 多媒体典型操作
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部