期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
地震叠前逆时偏移算法的CPU/GPU实施对策 被引量:83
1
作者 李博 刘红伟 +4 位作者 刘国峰 佟小龙 刘洪 郭建 裴江云 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2010年第12期2938-2943,共6页
相较于单程波偏移算法而言,逆时偏移成像方法以其物理基础为依托优势,几十年来一直备受国内外地球物理学家的青睐.目前的逆时偏移(RTM)若直接采用双程波动方程进行延拓,尽管可以回避上下行波的分离处理,然就已有算法而言,其计算量和I/O... 相较于单程波偏移算法而言,逆时偏移成像方法以其物理基础为依托优势,几十年来一直备受国内外地球物理学家的青睐.目前的逆时偏移(RTM)若直接采用双程波动方程进行延拓,尽管可以回避上下行波的分离处理,然就已有算法而言,其计算量和I/O(输入/输出)量却是最大的.针对此问题,本文在分析现行逆时偏移的多种算法基础上,提出利用CPU/GPU(中央处理器/图形处理器)作为数值计算核心,建立随机边界模型,从而克服存储I/O难题和提高计算效率.在实际的数据测试中,本文的方法可以大幅度的提高计算效率和减少存储单元,从而促使其高效地应用于生产实际. 展开更多
关键词 逆时偏移 波动方程 随机边界 中央处理器 图形处理器
在线阅读 下载PDF
多核CPU-GPU异构平台下并行Agent仿真负载均衡方法 被引量:3
2
作者 王维平 余文广 +1 位作者 侯洪涛 李群 《系统工程与电子技术》 EI CSCD 北大核心 2012年第11期2366-2373,共8页
多核中央处理器(central processing unit,CPU)-图形处理器(graphic processing unit,GPU)异构平台为并行Agent仿真提供了一个新的硬件执行平台,而负载均衡方法是充分利用硬件计算资源、提高并行仿真运行性能的一个有效途径。针对多核CP... 多核中央处理器(central processing unit,CPU)-图形处理器(graphic processing unit,GPU)异构平台为并行Agent仿真提供了一个新的硬件执行平台,而负载均衡方法是充分利用硬件计算资源、提高并行仿真运行性能的一个有效途径。针对多核CPU-GPU异构平台下并行Agent仿真的负载均衡问题,建立了面向多核CPU-GPU的并行Agent仿真多层负载分配模型,提出了基于带约束的k-means空间聚类算法的并行Agent仿真静态负载划分方法和动态负载均衡策略,并给出了划分子集间的可交互性判定,以过滤掉大量不会发生交互关系的Agent之间的交互判定计算。最后通过实验验证了本文提出方法的有效性。 展开更多
关键词 并行Agent仿真 多核中央处理器 图形处理器 负载均衡
在线阅读 下载PDF
独立翅片式液体自循环CPU散热器 被引量:2
3
作者 马国远 刘思光 彭珑 《北京工业大学学报》 EI CAS CSCD 北大核心 2007年第11期1203-1206,共4页
通过试验,分析了一种独立翅片式液体自循环CPU散热器分别使用不同工质时的散热性能以及充灌率等因素对其散热性能的影响,结果表明,该散热器具有良好的散热性能,CPU表面温度平稳,不出现大幅波动,在R123、R11、R113这3种载热介质中,R123... 通过试验,分析了一种独立翅片式液体自循环CPU散热器分别使用不同工质时的散热性能以及充灌率等因素对其散热性能的影响,结果表明,该散热器具有良好的散热性能,CPU表面温度平稳,不出现大幅波动,在R123、R11、R113这3种载热介质中,R123的散热性能最好且最佳充液率为80%~100%。 展开更多
关键词 散热器 液体自循环冷却 计算机中央处理器(cpu)
在线阅读 下载PDF
多核CPU和GPU加速分子动力学模拟 被引量:6
4
作者 林江宏 林锦贤 吕暾 《计算机应用》 CSCD 北大核心 2011年第3期843-847,共5页
在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了... 在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了计算机的处理能力。性能测试结果表明,相对于优化后的CPU串行计算,多核CPU-GPU异构并行计算模型有强大的性能优势,特别是将占整个程序执行时间90%的作用力的计算移植到GPU上执行,获得了最高可达12倍的计算加速比。 展开更多
关键词 分子动力学 图形处理器 多核中央处理器 AMBER力场 计算统一设备架构 OPENMP
在线阅读 下载PDF
高性能CPU电源Droop检测优化设计实现 被引量:1
5
作者 杨丽琼 章隆兵 +1 位作者 肖俊华 王剑 《高技术通讯》 CAS 2022年第9期894-902,共9页
高性能中央处理器(CPU)进入到纳米工艺设计时代,集成度和性能大幅度提高的同时,功耗和时钟之间的平衡优化已经成为当前面临的主要问题。物理供电寄生阻抗增加明显,功耗急速增加过程导致电源网络动态压降明显,抑制了主频进一步提高。本... 高性能中央处理器(CPU)进入到纳米工艺设计时代,集成度和性能大幅度提高的同时,功耗和时钟之间的平衡优化已经成为当前面临的主要问题。物理供电寄生阻抗增加明显,功耗急速增加过程导致电源网络动态压降明显,抑制了主频进一步提高。本文提出了一种基于全数字快速高精度Droop Sensor的供电监测优化方法。该方法采用易于集成于处理器核数字域内的单数字供电Droop Sensor进行本地供电实时监测。当Droop Sensor检测到电压快速垂降时,实时指导所在处理器核的时钟域进行时钟降频,帮助处理器度过低压危险时期,待垂降结束后再恢复正常的时钟频率。实现了局部压降的针对性时钟优化,避免了整体功耗性能损失。本文采用12 nm数字工艺实现了Droop Sensor设计。仿真结果表明,该传感器可在100 ps内进行一阶Droop的快速响应,帮助CPU度过瞬间大幅度的压降期;高阶Droop响应的阈值调节精度可达3%,支持CPU的供电水平多阈值控制。 展开更多
关键词 高性能中央处理器(cpu) 供电检测 Droop Sensor
在线阅读 下载PDF
基于嵌入式CPU-GPU的高清鱼眼视频实时校正系统 被引量:4
6
作者 公维理 《计算机工程与应用》 CSCD 北大核心 2016年第14期172-179,201,共9页
在安防监控领域,需要鱼眼实时监控系统实现360°×180°大范围高质量无死角全景实时监控,现有的鱼眼校正系统存在成本较高,灵活性差,特别是清晰度不高和实时性差等方面的问题。针对如何提高全景高清鱼眼视频校正的实时性问... 在安防监控领域,需要鱼眼实时监控系统实现360°×180°大范围高质量无死角全景实时监控,现有的鱼眼校正系统存在成本较高,灵活性差,特别是清晰度不高和实时性差等方面的问题。针对如何提高全景高清鱼眼视频校正的实时性问题,提出了基于嵌入式平台STi H418的CPU-GPU高速通信协议和基于可编程着色器的嵌入式CPU-GPU内存共享方法,并利用GPU的纹理映射技术实现了全景高清鱼眼视频实时校正系统。实验结果表明,与相关校正系统相比,该系统很好地兼顾到算法效率、图像校正效果和完整性,可以完全满足360°×180°的全景高清(400万像素,2 048×2 048p30)鱼眼视频实时监控,而且与使用PC服务器相比嵌入式系统降低了系统整体成本,ARM CPU软件生成更新校正算法和可事时实时和事后的虚拟PTZ提高系统灵活性和稳定性,因此该系统具有很高的实用价值。 展开更多
关键词 全景高清鱼眼视频实时校正 嵌入式中央处理器-图形处理器(cpu-GPU) 线性等距球面透视投影 纹理映射
在线阅读 下载PDF
基于负载均衡的CPU-GPU异构计算平台任务调度策略 被引量:5
7
作者 方娟 章佳兴 《北京工业大学学报》 CAS CSCD 北大核心 2020年第7期782-787,共6页
针对中央处理单元-图形处理单元(central processing unit-graphics processing unit,CPU-GPU)异构计算系统中,CPU和GPU负载不均导致系统性能降低的问题,提出了一种基于队列的混合调度策略.该策略通过探测获得CPU和GPU处理指定任务的计... 针对中央处理单元-图形处理单元(central processing unit-graphics processing unit,CPU-GPU)异构计算系统中,CPU和GPU负载不均导致系统性能降低的问题,提出了一种基于队列的混合调度策略.该策略通过探测获得CPU和GPU处理指定任务的计算能力,将计算任务按照探测比例分配给CPU和GPU;将并行任务存入双向队列,以降低调度带来的额外开销.结果表明,使用该策略的基准测试程序系统性能平均提升了28.07%.总体而言,该调度策略能够缩短CPU与GPU完成各自计算任务后的等待时间,有效平衡系统CPU与GPU之间的负载,提升系统性能. 展开更多
关键词 中央处理单元-图形处理单元(central processing unit-graphics processing unit cpu-GPU) 异构计算 高性能计算 任务调度 负载均衡 负载感知
在线阅读 下载PDF
基于多核CPU的脑网络拓扑属性并行分析方法
8
作者 杨灿 郭浩 陈俊杰 《计算机工程与设计》 北大核心 2016年第12期3400-3404,共5页
针对脑网络研究中需计算的网络数目过多造成执行时间过长的问题,提出一种基于多核CPU(central processing unit)的并行计算方法。通过SPMD(single program multiple data)机制利用CPU的多核同时执行,实现并行计算多个网络的属性,利用循... 针对脑网络研究中需计算的网络数目过多造成执行时间过长的问题,提出一种基于多核CPU(central processing unit)的并行计算方法。通过SPMD(single program multiple data)机制利用CPU的多核同时执行,实现并行计算多个网络的属性,利用循环打包方法降低SPMD机制中循环控制的时间,得到并行计算多个网络指标的时间,同串行计算时间相比,可得到此方法的并行计算效果。与传统并行单个算法的策略相比,该方法利用不同脑网络之间计算的独立性,采取同时计算多个网络的策略。在一台多核CPU的主机上,分析CPU核数、网络节点规模这两个因素对网络指标计算并行效果影响。在利用12个CPU核并行计算网络节点规模为3000的指标时,加速比均达到2以上,其中效果最好的是网络同配系数的计算,加速比达到6倍以上。实验结果表明,基于SPMD机制和循环打包方法的并行计算架构对脑网络指标计算的并行效果显著,加速比随着CPU核数、网络节点规模的增长呈上升趋势。 展开更多
关键词 功能脑网络 拓扑属性 并行计算 多核中央处理器 单程序多数据机制
在线阅读 下载PDF
基于数据-模型混合驱动的电力系统机电暂态快速仿真方法 被引量:4
9
作者 王鑫 杨珂 +3 位作者 黄文琦 马云飞 耿光超 江全元 《中国电机工程学报》 EI CSCD 北大核心 2024年第8期2955-2964,I0002,共11页
数据驱动建模方法改变了发电机传统的建模范式,导致传统的机电暂态时域仿真方法无法直接应用于新范式下的电力系统。为此,该文提出一种基于数据-模型混合驱动的机电暂态时域仿真(data and physics driven time domain simulation,DPD-T... 数据驱动建模方法改变了发电机传统的建模范式,导致传统的机电暂态时域仿真方法无法直接应用于新范式下的电力系统。为此,该文提出一种基于数据-模型混合驱动的机电暂态时域仿真(data and physics driven time domain simulation,DPD-TDS)算法。算法中发电机状态变量与节点注入电流通过数据驱动模型推理计算,并通过网络方程完成节点电压计算,两者交替求解完成仿真。算法提出一种混合驱动范式下的网络代数方程组预处理方法,用以改善仿真的收敛性;算法设计一种中央处理器单元-神经网络处理器单元(central processing unit-neural network processing unit,CPU-NPU)异构计算框架以加速仿真,CPU进行机理模型的微分代数方程求解;NPU作协处理器完成数据驱动模型的前向推理。最后在IEEE-39和Polish-2383系统中将部分或全部发电机替换为数据驱动模型进行验证,仿真结果表明,所提出的仿真算法收敛性好,计算速度快,结果准确。 展开更多
关键词 机电暂态 时域仿真 数据-模型混合驱动 收敛性 cpu-NPU异构运算
在线阅读 下载PDF
基于OpenMP的分子动力学并行算法的性能分析与优化 被引量:10
10
作者 白明泽 程丽 +1 位作者 豆育升 孙世新 《计算机应用》 CSCD 北大核心 2012年第1期163-166,共4页
为提高分子动力学模拟在共享内存式服务器上的计算速度,对基于OpenMP的分子动力学并行算法(Critical方法)进行了性能分析与优化。通过在多核服务器上的测试,以及加速比和并行效率的计算分析了Critical方法的并行性能,进而提出优化的三... 为提高分子动力学模拟在共享内存式服务器上的计算速度,对基于OpenMP的分子动力学并行算法(Critical方法)进行了性能分析与优化。通过在多核服务器上的测试,以及加速比和并行效率的计算分析了Critical方法的并行性能,进而提出优化的三角形方法。所提方法中每个线程所计算的粒子数固定,且粒子数目呈阶梯状上升,使得各线程能够错时到达临界区。从而使程序在临界区的闲置时间比Critical方法减半,加速比明显提高。 展开更多
关键词 分子动力学 并行计算 多核中央处理器 OPENMP 临界区
在线阅读 下载PDF
异构计算平台上列存储系统的并行连接优化策略 被引量:4
11
作者 丁祥武 陈金鑫 王梅 《计算机工程与应用》 CSCD 北大核心 2017年第5期73-80,共8页
GPU以及集成式的CPU-GPU架构凭借其强大的并行处理能力和可编程流水线方式,已经成为数据库领域的研究热点。为充分利用异构平台的并行计算能力,提升列存储系统的查询性能,在研究异构平台结构特性的基础上,首先提出了GPU多线程平台上进... GPU以及集成式的CPU-GPU架构凭借其强大的并行处理能力和可编程流水线方式,已经成为数据库领域的研究热点。为充分利用异构平台的并行计算能力,提升列存储系统的查询性能,在研究异构平台结构特性的基础上,首先提出了GPU多线程平台上进行连接的数据划分策略——ICMD(Improved CMD),利用GPU流处理器并行处理各个子空间上的连接,然后利用任务评估分配模型实现查询负载的动态分配,使得查询操作能在多核CPU、GPU上高效并行执行。同时利用片上全局同步机制、局部内存重用技术优化ICMD连接算法。最后采用SSB基准测试集测试,结果表明:Intel~?HD Graphics 4600平台上并行连接查询相比于CPU版本获得了35%的性能提升,较GPU查询引擎的Ocelot性能上提升了18%。 展开更多
关键词 多核中央处理器-图形处理器(cpu-GPU) 流处理器 异构编程 列存储 改进协调模块分布(ICMD) 任务动态评估分配
在线阅读 下载PDF
基于UCOS-Ⅱ的矿用数据采集单元(DTU)系统设计 被引量:4
12
作者 张飞 何雅琴 《实验室研究与探索》 CAS 北大核心 2017年第5期131-134,242,共5页
为了实现矿用数据采集单元(DTU)的相关功能,提出了采用基于UCOS-Ⅱ的DTU系统设计。该DTU的处理器选用STM32F103VE,并把实时操作系统UCOS-Ⅱ移植到该CPU上。介绍了系统硬件和软件的设计方案。通过使用实时操作系统,简化了软件的编写过程... 为了实现矿用数据采集单元(DTU)的相关功能,提出了采用基于UCOS-Ⅱ的DTU系统设计。该DTU的处理器选用STM32F103VE,并把实时操作系统UCOS-Ⅱ移植到该CPU上。介绍了系统硬件和软件的设计方案。通过使用实时操作系统,简化了软件的编写过程,增加了软件的可维护性。通过调试,该DTU系统能够满足企业的需求。 展开更多
关键词 矿用 中央处理器 实时操作系统 硬件 软件
在线阅读 下载PDF
时域有限元运算提速的一种新方法 被引量:1
13
作者 刘昆 杜国宏 廖成 《微波学报》 CSCD 北大核心 2010年第5期50-52,67,共4页
提出一种全新的时域有限元运算加速方法——应用图形处理器(GPU)实现对时域有限元运算的提速。在GPU上通过OpenGL编程完成时域有限元运算,从而利用GPU的并行处理功能达到提高运算速度的目的。文中介绍了编程实现过程,并分析讨论了GPU提... 提出一种全新的时域有限元运算加速方法——应用图形处理器(GPU)实现对时域有限元运算的提速。在GPU上通过OpenGL编程完成时域有限元运算,从而利用GPU的并行处理功能达到提高运算速度的目的。文中介绍了编程实现过程,并分析讨论了GPU提速过程中处理数据量不同具有不同表现的现象,进而得出随着处理数据量的增加,GPU相对于CPU的处理速度将会更快。文中以时域有限元的辐射算例验证了该算法的正确性和有效性,为时域有限元运算提速提供了一条有效途径。 展开更多
关键词 时域有限元(TD-FEM) 图形处理器(GPU) 中心处理器(cpu)
在线阅读 下载PDF
自确认压力传感器硬件平台设计
14
作者 冯志刚 徐涛 王祁 《计算机工程与应用》 CSCD 北大核心 2010年第22期71-74,共4页
自确认压力传感器是一种不仅能输出压力测量值,并且能对其自身工作状态进行在线评估的新型压力传感器。系统利用TMS320F2812和TMS320C6713组成双处理器系统,完成对自确认压力传感器八路信号的同步采集和信号调理,然后利用DSP实现传感器... 自确认压力传感器是一种不仅能输出压力测量值,并且能对其自身工作状态进行在线评估的新型压力传感器。系统利用TMS320F2812和TMS320C6713组成双处理器系统,完成对自确认压力传感器八路信号的同步采集和信号调理,然后利用DSP实现传感器的故障检测、诊断、自确认参数计算等复杂运算,将确认的测量值,测量值确认的不确定度,传感器状态输出给上位机或用户。实验结果表明,该系统实现了自确认压力传感器的各项功能,通过修改DSP软件部分,可以应用于其他传感器信号的数据采集与处理。 展开更多
关键词 自确认压力传感器 故障诊断 确认的不确定度 双处理器系统 数字信号处理器
在线阅读 下载PDF
高性能计算中的亚式期权蒙特卡罗加速方法 被引量:1
15
作者 姜广鑫 徐承龙 +1 位作者 寇大治 徐磊 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第5期792-798,共7页
研究蒙特卡罗控制变量方法在CPU(central processing unit)集群和GPU(graphic processing unit)计算环境中的实现问题.以离散取样的随机波动率下的算术平均亚式期权为例,选取合适的控制变量,分别研究了在CPU集群和GPU计算中算法与硬件... 研究蒙特卡罗控制变量方法在CPU(central processing unit)集群和GPU(graphic processing unit)计算环境中的实现问题.以离散取样的随机波动率下的算术平均亚式期权为例,选取合适的控制变量,分别研究了在CPU集群和GPU计算中算法与硬件并行加速两者的运算效率,并讨论了模型参数的变化对计算结果的影响.数值试验表明采用算法与硬件加速相结合的方法可以极大提高计算效率、缩短运算时间. 展开更多
关键词 蒙特卡罗方法 随机波动率 控制变量 cpu(central processing unit)集群计算
在线阅读 下载PDF
嵌入式系统中典型Cache一致性问题的解决 被引量:3
16
作者 邹可 杜新华 《电子测量技术》 2006年第3期41-42,共2页
随着嵌入式系统CPU主频越来越快,与内存速度差距越来越大,Cache的使用对解决系统的瓶颈起到越来越重要的作用。如果不注意Cache一致性问题的处理,将会对系统软件运行造成难以预料的结果,甚至会导致系统的崩溃。
关键词 中央处理器 高速缓存 POWERPC
在线阅读 下载PDF
BOSS在KVM平台中的性能研究与优化 被引量:2
17
作者 马震太 张晓梅 《计算机工程》 CAS CSCD 北大核心 2017年第7期70-74,共5页
针对BESIII离线软件系统(BOSS)在内核虚拟机平台上的性能损耗,结合BOSS作业特点给出相关优化方法。对引起性能损耗的各种因素进行研究,并根据不同客户机规模的测试情况,定量分析测试结果,进而确定性能损耗。对BOSS作业在物理机和客户机... 针对BESIII离线软件系统(BOSS)在内核虚拟机平台上的性能损耗,结合BOSS作业特点给出相关优化方法。对引起性能损耗的各种因素进行研究,并根据不同客户机规模的测试情况,定量分析测试结果,进而确定性能损耗。对BOSS作业在物理机和客户机上的性能进行测试,结果表明,优化后模拟作业性能损耗降低至1.1%~1.6%,重建作业与分析作业性能分别提高2.6%~4.5%,7%~18.7%。 展开更多
关键词 BESⅢ离线软件系统 内核虚拟机 中央处理单元迁移 透明大页 磁盘预分配 多客户机
在线阅读 下载PDF
A new approach for real time object detection and tracking on high resolution and multi-camera surveillance videos using GPU 被引量:4
18
作者 Mohammad Farukh Hashmi Ritu Pal +1 位作者 Rajat Saxena Avinash G.Keskar 《Journal of Central South University》 SCIE EI CAS CSCD 2016年第1期130-144,共15页
High resolution cameras and multi camera systems are being used in areas of video surveillance like security of public places, traffic monitoring, and military and satellite imaging. This leads to a demand for computa... High resolution cameras and multi camera systems are being used in areas of video surveillance like security of public places, traffic monitoring, and military and satellite imaging. This leads to a demand for computational algorithms for real time processing of high resolution videos. Motion detection and background separation play a vital role in capturing the object of interest in surveillance videos, but as we move towards high resolution cameras, the time-complexity of the algorithm increases and thus fails to be a part of real time systems. Parallel architecture provides a surpass platform to work efficiently with complex algorithmic solutions. In this work, a method was proposed for identifying the moving objects perfectly in the videos using adaptive background making, motion detection and object estimation. The pre-processing part includes an adaptive block background making model and a dynamically adaptive thresholding technique to estimate the moving objects. The post processing includes a competent parallel connected component labelling algorithm to estimate perfectly the objects of interest. New parallel processing strategies are developed on each stage of the algorithm to reduce the time-complexity of the system. This algorithm has achieved a average speedup of 12.26 times for lower resolution video frames(320×240, 720×480, 1024×768) and 7.30 times for higher resolution video frames(1360×768, 1920×1080, 2560×1440) on GPU, which is superior to CPU processing. Also, this algorithm was tested by changing the number of threads in a thread block and the minimum execution time has been achieved for 16×16 thread block. And this algorithm was tested on a night sequence where the amount of light in the scene is very less and still the algorithm has given a significant speedup and accuracy in determining the object. 展开更多
关键词 central processing unit (cpu graphics processing unit (GPU) MORPHOLOGY connected component labelling (CCL)
在线阅读 下载PDF
基于多核并行化差异进化算法的图像配准方法 被引量:6
19
作者 曹国刚 张晴 +1 位作者 张培君 王志敏 《计算机工程与应用》 CSCD 北大核心 2017年第20期166-172,共7页
随着多核处理器的逐渐普及,它将成为未来处理器发展的必然趋势,各种应用都将采用多核架构。在基于差异进化算法的基础上,在图形工作站上充分利用多核处理器的并行计算能力,实现多核并行化差异进化算法,并将其应用于三维医学图像配准,实... 随着多核处理器的逐渐普及,它将成为未来处理器发展的必然趋势,各种应用都将采用多核架构。在基于差异进化算法的基础上,在图形工作站上充分利用多核处理器的并行计算能力,实现多核并行化差异进化算法,并将其应用于三维医学图像配准,实现快速配准算法。实验数据表明,与传统方法相比,多核并行化方法在保证精度和稳定性的前提下,配准速度提升接近于理想加速比。 展开更多
关键词 差异进化 多核处理器 并行化 图像配准
在线阅读 下载PDF
优化信号处理性能的32位双核RISC微处理器设计
20
作者 焦义文 陈源 王元钦 《计算机应用》 CSCD 北大核心 2010年第12期260-262,共3页
提出了一种适合数字信号处理的32位双核RISC微处理器设计方案。通过分析流水线级数对处理性能的影响,给出了易于实现、功能便于扩充的流水线深度及系统结构设计方案,再配合扩充正余弦值查找表、浮点数运算器和增加核的个数等方法有效地... 提出了一种适合数字信号处理的32位双核RISC微处理器设计方案。通过分析流水线级数对处理性能的影响,给出了易于实现、功能便于扩充的流水线深度及系统结构设计方案,再配合扩充正余弦值查找表、浮点数运算器和增加核的个数等方法有效地提高了处理器数字信号处理能力。采用低成本的现场可编程门阵列(FPGA)进行性能验证,结果表明:对于4点快速傅里叶变换(FFT)浮点运算效能提高40.14%,对于1024点FFT浮点运算效能提高49.59%。 展开更多
关键词 cpu设计 流水线 现场可编程门阵列 多核 查找表
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部