期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
VLIW处理器的变长指令跨边界派发窗设计
1
作者 王东旭 汪东 万江华 《电讯技术》 北大核心 2024年第12期2038-2043,共6页
针对传统超长指令字(Very Long Instruction Word,VLIW)处理器代码体积增大会显著降低处理器性能的问题,设计了一种八流出新型变长指令跨边界派发窗。该派发窗兼容压缩指令派发功能,支持压缩指令和整字指令混合派发,有效减小了处理器代... 针对传统超长指令字(Very Long Instruction Word,VLIW)处理器代码体积增大会显著降低处理器性能的问题,设计了一种八流出新型变长指令跨边界派发窗。该派发窗兼容压缩指令派发功能,支持压缩指令和整字指令混合派发,有效减小了处理器代码体积。同时该派发窗引入指令跨边界派发机制,进一步排出指令间无用气泡。通过搭建派发窗仿真模型,并基于DSP/VoLIB库进行仿真,结果显示,采用新型变长指令跨边界派发窗能够充分发挥指令级并行优势。经编译器调度优化后,库中典型程序体积比传统派发窗平均降低约19.26%,处理器性能提升约15.4%。 展开更多
关键词 超长指令字(vliw) 指令派发 指令压缩 跨边界派发窗
在线阅读 下载PDF
定制VLIW结构实现四精度浮点基本函数 被引量:1
2
作者 雷元武 窦勇 +1 位作者 倪时策 周杰 《电子学报》 EI CAS CSCD 北大核心 2012年第9期1715-1722,共8页
本文针对科学应用中基本函数种类多、实现复杂、使用频率低的特点,提出一种定制VLIW结构四精度浮点基本函数协处理器(QPC-Processor).该结构通过显示并行技术挖掘基本函数实现算法的并行性,在同一硬件平台上通过元操作的不同组合来计算... 本文针对科学应用中基本函数种类多、实现复杂、使用频率低的特点,提出一种定制VLIW结构四精度浮点基本函数协处理器(QPC-Processor).该结构通过显示并行技术挖掘基本函数实现算法的并行性,在同一硬件平台上通过元操作的不同组合来计算多种基本函数.同时,本文还提出基本函数元操作序列到定制VLIW指令的映射算法,指导基本函数的设计.最后,在FPGA平台上进行验证.实验结果表明,相对软件实现,单个QPC-Processor能够取得6倍以上的加速比,而且,QFC-Processor在同一硬件平台上实现多种类型的算法,弥补单一算法的不足,获得较高的硬件资源利用率. 展开更多
关键词 四精度浮点算术 超长指令字 基本函数 CORDIC算法
在线阅读 下载PDF
一种新的基于VLIW的IDCT和运动补偿算法 被引量:2
3
作者 欧阳万里 肖创柏 刘广 《电子学报》 EI CAS CSCD 北大核心 2005年第11期2074-2079,共6页
本文使用矩阵形式在超长指令字(VLIW)的观点下将几种经典算法与已有的适合于VLIW的算法进行了比较.然后利用VLIW结构的特性,提出了一种快速IDCT算法.与现有算法相比,新算法进一步减少了所需的指令周期.并利用VLIW结构的寄存器特性,将视... 本文使用矩阵形式在超长指令字(VLIW)的观点下将几种经典算法与已有的适合于VLIW的算法进行了比较.然后利用VLIW结构的特性,提出了一种快速IDCT算法.与现有算法相比,新算法进一步减少了所需的指令周期.并利用VLIW结构的寄存器特性,将视频编解码过程中的运动补偿(预测)和IDCT(DCT)组合,使运动补偿所需时间降低为原来的约50%,这种思想能应用于MPEG1/2/4,H.263和H.264. 展开更多
关键词 超长指令字(vliw) 离散余弦变换(DCT) IDCT 快速算法 并行算法 运动补偿 视频压缩 DSP
在线阅读 下载PDF
面向图像识别的深度学习VLIW处理器设计 被引量:2
4
作者 李林 张盛兵 吴鹃 《西北工业大学学报》 EI CAS CSCD 北大核心 2020年第1期216-224,共9页
为了适应航空航天领域高分辨率图像识别和本地化高效处理的需求,解决现有研究中计算并行性不足的问题,在对深度卷积神经网络模型各层计算优化的基础上,设计了一款可扩展的多处理器簇的深度学习超长指令字(VLIW)处理器体系结构。设计中... 为了适应航空航天领域高分辨率图像识别和本地化高效处理的需求,解决现有研究中计算并行性不足的问题,在对深度卷积神经网络模型各层计算优化的基础上,设计了一款可扩展的多处理器簇的深度学习超长指令字(VLIW)处理器体系结构。设计中采用了特征图和神经元的并行处理,基于VLIW的指令级并行,多处理器簇的数据级并行以及流水线技术。FPGA原型系统测试结果表明,该处理器可有效完成图像分类和目标检测应用;当工作频率为200 MHz时,处理器的峰值性能可以达到128 GOP/s;针对选取的测试基准,该处理器的计算速度至少是CPU的12倍,是GPU的7倍;对比软件框架运行结果,处理器的测试精度的平均误差不超过1%。 展开更多
关键词 图像识别 深度学习 卷积神经网络 超长指令字(vliw) 处理器 可扩展
在线阅读 下载PDF
VLIW上的软件旁路与细粒度并行调度 被引量:1
5
作者 朱凯佳 王雷 尹宝林 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2003年第10期914-918,共5页
描述并分析了一种新型的VLIW(VeryLongInstructionWord)机器模型 ,为充分利用该模型的并行特性 ,提出了基于静态单一赋值 (SSA)表示的软件旁路方法 ,以及集成的基于操作的指令调度与寄存器分配算法 .与常规的软件旁路方法和基于周期的... 描述并分析了一种新型的VLIW(VeryLongInstructionWord)机器模型 ,为充分利用该模型的并行特性 ,提出了基于静态单一赋值 (SSA)表示的软件旁路方法 ,以及集成的基于操作的指令调度与寄存器分配算法 .与常规的软件旁路方法和基于周期的调度方法相比 ,该方法可以灵活地进行结果寄存器的分配 ,并有效减少由重用结果寄存器导致的“危险值”溢出次数 。 展开更多
关键词 指令调度 寄存器分配 超长指令字 软件旁路
在线阅读 下载PDF
面向密码流体系结构的超长指令字可重构研究 被引量:2
6
作者 严迎建 王寿成 +1 位作者 徐进辉 陈韬 《电子与信息学报》 EI CSCD 北大核心 2017年第1期206-212,共7页
可重构密码流体系结构是一种面向密码运算的新型体系结构,但存在着超长指令字(VLIW)代码稀疏和Kernel体积过大的问题。该文以可重构密码流处理架构S-RCCPA为研究平台,通过大量密码算法在S-RCCPA架构上的适配分析,提出了VLIW可重构技术,... 可重构密码流体系结构是一种面向密码运算的新型体系结构,但存在着超长指令字(VLIW)代码稀疏和Kernel体积过大的问题。该文以可重构密码流处理架构S-RCCPA为研究平台,通过大量密码算法在S-RCCPA架构上的适配分析,提出了VLIW可重构技术,并设计了Kernel级指令集、VLIW可重构算法及指令可重构单元。实验证明,该技术能够有效提高VLIW的指令密度,同时降低了VLIW的指令宽度,使得整个Kernel体积减小了约33.3%,并将微码存储器的容量由96 k B降为64 k B,有效降低芯片整体面积和系统功耗。 展开更多
关键词 密码流处理器 Kernel级指令 超长指令字 可重构 指令密度
在线阅读 下载PDF
流体系结构指令存储器优化设计研究 被引量:3
7
作者 管茂林 何义 +2 位作者 杨乾明 张春元 伍楠 《电子学报》 EI CAS CSCD 北大核心 2012年第7期1379-1385,共7页
针对流体系结构中VLIW代码体积对指令存储器的容量和功耗带来的问题,本文通过分析流处理器的指令特征,提出了一种新的VLIW分域压缩技术.在此基础上,本文为流体系结构设计了分布式的片上指令存储器,并提出了SIMD流水的执行模式.实验结果... 针对流体系结构中VLIW代码体积对指令存储器的容量和功耗带来的问题,本文通过分析流处理器的指令特征,提出了一种新的VLIW分域压缩技术.在此基础上,本文为流体系结构设计了分布式的片上指令存储器,并提出了SIMD流水的执行模式.实验结果证明,该技术减少了38%的片外指令访存,降低约65%的片上指令存储器空间需求;分布式指令存储器减少了约37%的片上指令存储器面积,使得MASA的系统面积降低了8.92%,并降低了61%的指令存储器功耗. 展开更多
关键词 流体系结构 分布式指令存储器 vliw压缩
在线阅读 下载PDF
用超长指令实现DCT的新算法 被引量:11
8
作者 李学明 李继 《电子学报》 EI CAS CSCD 北大核心 2003年第7期1074-1077,共4页
本文介绍一种新的DCT计算方法 ,它以现有的DCT快速算法为基础 ,利用超长指令的并行特征来提高DCT计算的性能 .仿真结果表明 :该方法的运算速度比普通的DCT计算方法提高 73 % ,即便同快速算法相比 ,也可以提高 2
关键词 离散余弦变换 超长指令字 并行算法
在线阅读 下载PDF
基于TMS320C6201的并行高速实时数字脉冲压缩系统研究 被引量:8
9
作者 李方慧 龙腾 毛二可 《电子学报》 EI CAS CSCD 北大核心 2001年第9期1272-1275,共4页
线性调频脉冲是最经典的大时宽-带宽积信号形式,但是这种信号的数字处理需要极大的处理量.本文研制了一个基于TMS320C6201的高速实时数字脉冲压缩系统,具有1600MIPS处理能力.针对TMS320C6201的特点... 线性调频脉冲是最经典的大时宽-带宽积信号形式,但是这种信号的数字处理需要极大的处理量.本文研制了一个基于TMS320C6201的高速实时数字脉冲压缩系统,具有1600MIPS处理能力.针对TMS320C6201的特点,提出了在VLIW体系结构下,提高FFT并行运算效率的方法,从而使系统完成512点数字脉冲压缩的时间仅为124us,基本达到TMS320C6201的性能极限.针对系统定点运算的问题,提出了定点FFT的改进算法,可以兼顾运算速度和精度的要求;对所提出的定点算法的误差进行了理论分析,并在实际的系统中验证了理论分析的结果.研究并解决了系统实现中高速电路等关键技术问题.目前,该系统已成功应用于某雷达系统中,长期工作稳定可靠. 展开更多
关键词 数字信号处理 线性调频 数字脉冲压缩 TMS320C6201 雷达
在线阅读 下载PDF
一种基于HXDSP的移位器查找表技术 被引量:1
10
作者 叶鸿 顾乃杰 +2 位作者 林传文 张孝慈 陈瑞 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2019年第10期2044-2050,共7页
高性能信号处理应用的快速发展,对相应处理器的运算速度及吞吐效率提出了巨大挑战。移位器是数字信号处理器(DSP)上的重要部件,通过为移位器设计额外专用随机存取存储器(RAM)和查找表(LUT),并对其指令集及架构进行优化调整,从而达到提... 高性能信号处理应用的快速发展,对相应处理器的运算速度及吞吐效率提出了巨大挑战。移位器是数字信号处理器(DSP)上的重要部件,通过为移位器设计额外专用随机存取存储器(RAM)和查找表(LUT),并对其指令集及架构进行优化调整,从而达到提高处理器使用效率和传输速率的目的。此外,基于移位器与相应查找表指令,可在数据暂存的同时进行移位、提取、算术与逻辑运算处理,将部分数据运算的过程直接合并在对移位器RAM的数据存读取过程中,显著地提高了运算部件的使用效率。结果表明:基于移位器查找表的暂存技术可以达到与传输总线接近的吞吐率,对信号处理算法快速傅里叶变换(FFT)可以达到加速比约为1. 15~1. 20的性能提升效果。 展开更多
关键词 数字信号处理器(DSP) 移位器 查找表(LUT) 单指令多数据流(SIMD) 超长指令字(vliw)
在线阅读 下载PDF
基于BWDSP100的传播分簇算法研究与实现 被引量:4
11
作者 王昊 黄光红 王向前 《中国集成电路》 2014年第8期24-28,共5页
BWDSP100是一款SIMD和VLIW架构高性能DSP,它的指令级并行性主要通过指令分簇和软件流水来实现。本文针对BWDSP100的特点,提出了一种新的分簇算法——传播分簇,该算法考虑了负载均衡和特殊ABI规则,不会产生簇间转移指令。实验结果表明,... BWDSP100是一款SIMD和VLIW架构高性能DSP,它的指令级并行性主要通过指令分簇和软件流水来实现。本文针对BWDSP100的特点,提出了一种新的分簇算法——传播分簇,该算法考虑了负载均衡和特殊ABI规则,不会产生簇间转移指令。实验结果表明,该分簇方法在Open64编译器上的实现可以取得比传统方法更好的效果。 展开更多
关键词 数字信号处理器 超长指令字 指令级并行 分簇
在线阅读 下载PDF
一种媒体处理器的高级语言及其编译系统
12
作者 张丹 赵银亮 +4 位作者 王海 李增智 宋红 曹德宏 刘波 《微电子学与计算机》 CSCD 北大核心 2004年第12期20-23,27,共5页
媒体处理器通常采用汇编语言编程以满足代码大小、性能和能耗方面的要求。本文提出了媒体处理器高级语言的设计原则,并针对Leadtek公司的媒体处理器设计,实现了VP6-C语言及其编译系统。VP6-C语言用于编写多媒体处理中的核心程序,为程序... 媒体处理器通常采用汇编语言编程以满足代码大小、性能和能耗方面的要求。本文提出了媒体处理器高级语言的设计原则,并针对Leadtek公司的媒体处理器设计,实现了VP6-C语言及其编译系统。VP6-C语言用于编写多媒体处理中的核心程序,为程序员提供一种C风格的、自然的编程方式。试验结果表明编译生成的目标代码有较高的质量。 展开更多
关键词 VP6-C vliw SIMD GCC 媒体处理器
在线阅读 下载PDF
AVS熵编码C64x+优化
13
作者 白伟 张帅 《山西电子技术》 2014年第3期60-62,共3页
AVS标准中,熵编码模块是比较耗时的模块,对其优化可以提高整个编码器的编码速度。DSP平台片内存储器空间较小,为此本文对AVS熵编码算法模块进行分析,提出了一种使用较少存储空间来存储码表的方法。以TI公司C64x+DSP为例,介绍了超长指令... AVS标准中,熵编码模块是比较耗时的模块,对其优化可以提高整个编码器的编码速度。DSP平台片内存储器空间较小,为此本文对AVS熵编码算法模块进行分析,提出了一种使用较少存储空间来存储码表的方法。以TI公司C64x+DSP为例,介绍了超长指令字和打包数据处理结构特性,并分析了基于这些特性的AVS熵编码的快速实现方法。利用TI公司的仿真工具CCS3.3提供的性能分析工具对汇编级优化的效果和C语言级优化的效果进行比较,帧内熵编码模块汇编级优化效果所需时钟周期约为C语言级优化周期的17.62%,帧间熵编码模块汇编级优化效果所需时钟周期约为C语言级优化周期的13.93%。 展开更多
关键词 超长指令字 打包数据处理 ZIG-ZAG扫描 熵编码
在线阅读 下载PDF
Linux内核在新型硬件平台上的实现 被引量:3
14
作者 林仕鼎 任爱华 +1 位作者 王雷 周伯生 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2003年第3期197-201,共5页
新型微处理器M32 70的研制成功 ,使得支持该体系结构的操作系统的研究迫在眉睫 .通过对Linux内核体系结构的研究 ,进而分析出往新型硬件平台移植Linux内核所需进行的工作 ,将大大提高操作系统的设计水平、缩短开发时间 .在分析了Linux... 新型微处理器M32 70的研制成功 ,使得支持该体系结构的操作系统的研究迫在眉睫 .通过对Linux内核体系结构的研究 ,进而分析出往新型硬件平台移植Linux内核所需进行的工作 ,将大大提高操作系统的设计水平、缩短开发时间 .在分析了Linux内核的体系结构和M32 70硬件体系结构的基础上 。 展开更多
关键词 操作系统 移植 系统结构 LINUX内核 超长指令字
在线阅读 下载PDF
BWDSP100数字信号处理器的指令缓存器设计 被引量:4
15
作者 刘小明 朱艳 《中国集成电路》 2013年第4期48-50,56,共4页
本文介绍了一种应用于高性能数字信号处理器BWDSP100的指令缓存器。该指令缓存器支持超长指令字,共有三级缓冲,每级缓冲包含16个指令槽。该指令缓存器可高效完成指令执行行的提取、拼接及废弃等操作,可有效提高DSP的指令执行效率。
关键词 数字信号处理器 指令缓存器 超长指令字
在线阅读 下载PDF
基于TMS320C64系列的H.264的整数变换快速实现
16
作者 邓熙 葛宁 《电视技术》 北大核心 2008年第7期34-35,共2页
介绍了视频标准H.264中的4×4整数变换原理及一种一维整数变换的快速算法,在此基础上利用Kronecker乘积推导出一种适合于TMS320C64系列的二维整数变换的并行算法,结合TMS320C64系列的VILW和SIMD特点进行了相应的优化,提高了算法的... 介绍了视频标准H.264中的4×4整数变换原理及一种一维整数变换的快速算法,在此基础上利用Kronecker乘积推导出一种适合于TMS320C64系列的二维整数变换的并行算法,结合TMS320C64系列的VILW和SIMD特点进行了相应的优化,提高了算法的并行度。 展开更多
关键词 整数变换 单指令多数据流 超长指令字 H.264标准
在线阅读 下载PDF
基于汇编指令词向量特征的恶意软件检测研究 被引量:4
17
作者 杨频 潘岳镭 +1 位作者 贾鹏 刘亮 《信息安全研究》 2020年第2期113-121,共9页
目前基于机器学习的恶意软件检测方法其主要思路是通过静态分析和动态分析的方法提取特征,再选择机器学习分类器进行分类模型的训练.该方法的准确性取决于人工选择的特征质量,在选择的过程中会丢失有价值的特征信息,影响分类效果.针对... 目前基于机器学习的恶意软件检测方法其主要思路是通过静态分析和动态分析的方法提取特征,再选择机器学习分类器进行分类模型的训练.该方法的准确性取决于人工选择的特征质量,在选择的过程中会丢失有价值的特征信息,影响分类效果.针对这个问题,提出了一种基于汇编指令词向量特征的恶意软件检测模型.首先利用反汇编工具提取恶意软件的汇编指令,制定规则替换部分指令,减少复杂度.然后,通过自然语言处理中的词向量模型学习指令的相似性,得到指令的向量表示.最后,使用卷积神经网络和双向长短期记忆的混合模型对可执行文件进行分类.上述方法有效解决了人工特征选择中特征质量不佳、重要信息丢失等问题.对数据集上进行的多组对比实验的结果表明,该方法达到了98.8%的分类准确率和98.7%的F 1值,明显优于对比算法. 展开更多
关键词 恶意软件检测 汇编指令 词向量 卷积神经网络 双向长短期记忆
在线阅读 下载PDF
基于超长指令字的顶点染色处理器设计 被引量:1
18
作者 徐起超 杜慧敏 刘青楠 《微电子学与计算机》 CSCD 北大核心 2018年第10期13-18,共6页
为了提高嵌入式图形处理器GPU(Graphic Process Unit)中顶点染色处理器,设计了一款超长指令字格式的可编程顶点染色处理器,采用六级流水线实现,每条指令在同一个周期最多执行7种操作,软硬件协同设计,降低了功耗.采用基于FPGA的验证方式... 为了提高嵌入式图形处理器GPU(Graphic Process Unit)中顶点染色处理器,设计了一款超长指令字格式的可编程顶点染色处理器,采用六级流水线实现,每条指令在同一个周期最多执行7种操作,软硬件协同设计,降低了功耗.采用基于FPGA的验证方式,可编程顶点染色处理器在Xilinx Virtex-7FPGAs V2000T上最大工作频率达到50MHz,顶点的处理速度达到0.16M/s,处理一个顶点平均44个周期,在Synopsys公司Design Compiler工具130μm工艺综合下,主频150MHz,功耗约为177.742 8mW. 展开更多
关键词 图形处理器 顶点染色 超长指令字(vliw) 可编程
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部