期刊文献+
共找到188篇文章
< 1 2 10 >
每页显示 20 50 100
Multi-core optimization for conjugate gradient benchmark on heterogeneous processors
1
作者 邓林 窦勇 《Journal of Central South University》 SCIE EI CAS 2011年第2期490-498,共9页
Developing parallel applications on heterogeneous processors is facing the challenges of 'memory wall',due to limited capacity of local storage,limited bandwidth and long latency for memory access. Aiming at t... Developing parallel applications on heterogeneous processors is facing the challenges of 'memory wall',due to limited capacity of local storage,limited bandwidth and long latency for memory access. Aiming at this problem,a parallelization approach was proposed with six memory optimization schemes for CG,four schemes of them aiming at all kinds of sparse matrix-vector multiplication (SPMV) operation. Conducted on IBM QS20,the parallelization approach can reach up to 21 and 133 times speedups with size A and B,respectively,compared with single power processor element. Finally,the conclusion is drawn that the peak bandwidth of memory access on Cell BE can be obtained in SPMV,simple computation is more efficient on heterogeneous processors and loop-unrolling can hide local storage access latency while executing scalar operation on SIMD cores. 展开更多
关键词 multi-core processor NAS parallelization CG memory optimization
在线阅读 下载PDF
EIA的基于NIT和Multi-Core的面向应用调节架构
2
作者 张炯 金惠华 《计算机工程与应用》 CSCD 北大核心 2007年第11期113-116,共4页
资源受限的嵌入式系统中运行的应用程序与运行于桌面系统的应用程序有显著的不同,需要考虑应用本身的需求,也要更多地关注体系结构对于计算所提供的指令级和微指令级的支持。阐述了与嵌入式Intel架构(EIA)研究有关的重要问题,提出了一... 资源受限的嵌入式系统中运行的应用程序与运行于桌面系统的应用程序有显著的不同,需要考虑应用本身的需求,也要更多地关注体系结构对于计算所提供的指令级和微指令级的支持。阐述了与嵌入式Intel架构(EIA)研究有关的重要问题,提出了一个基于Intel多处理器核技术的嵌入式应用处理器解决方案,其核心思想是提供可定制的计算单元用于对特定计算的适应。这个方案与普通多核技术及可配置处理器架构的差别在于通过粗粒度并行机制获得计算资源的定制以便适应嵌入式系统计算的特殊性。 展开更多
关键词 嵌入式系统 测试 嵌入式英特尔架构 可配置处理器
在线阅读 下载PDF
处理器数据预取器安全研究综述
3
作者 刘畅 黄祺霖 +4 位作者 刘煜川 林世鸿 秦中元 陈立全 吕勇强 《电子与信息学报》 北大核心 2025年第9期3038-3056,共19页
数据预取器是现代处理器用于提高性能的重要微架构组件。然而,由于在设计之初缺乏系统性的安全评估与考量,主流商用处理器中的预取器近年来被揭示出存在严重安全隐患,已被用于针对浏览器、操作系统和可信执行环境的侧信道攻击。面对这... 数据预取器是现代处理器用于提高性能的重要微架构组件。然而,由于在设计之初缺乏系统性的安全评估与考量,主流商用处理器中的预取器近年来被揭示出存在严重安全隐患,已被用于针对浏览器、操作系统和可信执行环境的侧信道攻击。面对这类新型微架构攻击,处理器安全研究亟需解决以下关键问题:如何系统性地分析攻击方法,全面认识预取器潜在风险,量化评估预取器安全程度,从而设计更加安全的数据预取器。为解决这些问题,该文系统调研了商用处理器中已知预取器设计及相关侧信道攻击,通过提取内存访问模式,为7种预取器建立行为模型,并基于此为20种侧信道攻击建立攻击模型,系统整理了各类攻击的触发条件和泄露信息,并分析可能存在的其他攻击方法。在此基础上,该文提出1套包含3个维度和24个指标的安全性评估体系,为数据预取器的安全性提供全面量化评估。最后,该文深入探讨了防御策略、安全预取器设计思路及未来研究方向。作为首篇聚焦于商用处理器数据预取器安全问题的综述性文章,该文有助于深入了解数据预取器面临的安全挑战,推动预取器的安全性量化评估体系构建,从而为设计更加安全的数据预取器提供指导。 展开更多
关键词 计算机体系结构 处理器 数据预取器 微架构安全 侧信道攻击
在线阅读 下载PDF
面向数据密集型应用的近数据处理架构设计 被引量:1
4
作者 谢洋 李晨 陈小文 《计算机工程与科学》 北大核心 2025年第5期797-810,共14页
大数据时代,多核处理器在处理数据密集型应用时,面临着数据局部性低、访存延迟高和内核计算效率低等挑战。近数据处理对于降低访存延迟、提高内核计算效率具有重要潜力。设计了一种计算访存松耦合的近数据处理架构(LcNDP),部署在多核处... 大数据时代,多核处理器在处理数据密集型应用时,面临着数据局部性低、访存延迟高和内核计算效率低等挑战。近数据处理对于降低访存延迟、提高内核计算效率具有重要潜力。设计了一种计算访存松耦合的近数据处理架构(LcNDP),部署在多核处理器的共享缓存端和内存端。一方面通过迁移内核的访存任务,实现内核计算与访存的并行,隐藏访存开销;另一方面通过近数据计算单元,处理流数据计算,降低内核计算量和访存开销。实验结果表明LcNDP相较于传统多核架构,平均延迟降低了43%,与传统近数据处理的多核架构相比平均延迟降低了23%。 展开更多
关键词 近数据 数据密集型应用 计算机体系结构 多核处理器
在线阅读 下载PDF
面向昇腾处理器的高性能同步原语自动插入方法
5
作者 李帅江 张馨元 +4 位作者 赵家程 田行辉 石曦予 徐晓忻 崔慧敏 《计算机研究与发展》 北大核心 2025年第8期1962-1978,共17页
指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限... 指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题.以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限的,限制了ILP的提升.针对这一问题,提出一种面向昇腾处理器的高性能同步原语自动插入方法,通过引入“虚拟同步资源”的抽象将同步原语的插入和物理同步资源的选择进行解耦.首先提出了一种启发式算法在复杂的控制流图上进行虚拟同步原语的插入,随后通过虚拟同步原语合并等技术,将虚拟同步资源映射到有限数量的物理同步资源上,并同时在满足程序正确性与严苛硬件资源限制的前提下,根据指令间的偏序关系删除程序中冗余的同步原语.使用指令级与算子级基准测试程序在昇腾910A平台上的实验表明,该方法自动插入同步原语的程序在保证正确性的基础上,整体性能与专家程序员手动插入同步原语接近或持平. 展开更多
关键词 昇腾处理器 同步原语 异构编程 领域定制架构 自动插入
在线阅读 下载PDF
最坏执行时间分析中的时序异常问题
6
作者 蒋滨泽 朱钇宣 +3 位作者 陈香兰 龚小航 高银康 李曦 《计算机研究与发展》 北大核心 2025年第4期1033-1049,共17页
时序异常是一种程序在最坏执行时间(worst-case execution time,WCET)分析中反直觉的时间行为,其特征在于,尽管局部执行速度更快,但整体的执行时间可能会增加,因此WCET分析必须以保守的态度考虑所有可能的执行情况,以确保分析结果的安全... 时序异常是一种程序在最坏执行时间(worst-case execution time,WCET)分析中反直觉的时间行为,其特征在于,尽管局部执行速度更快,但整体的执行时间可能会增加,因此WCET分析必须以保守的态度考虑所有可能的执行情况,以确保分析结果的安全性,这使得WCET分析变得非常困难.相反地,如果能够确保要分析的程序与平台不存在时序异常,将大大减少WCET分析需要考虑的状态以及所花费的时间.因此,时序异常问题是WCET分析中的关键挑战.然而,尽管历经20多年的研究,学术界对时序异常问题仍未形成统一的定义和共识.自时序异常概念提出以来,学术界涌现出了各种文献描述时序异常,对于这些定义,可以根据定义方式和描述内容对它们进行分类,并分析它们各自的优劣.进一步地,如果对导致时序异常的原因进行研究,可以将其归结为调度策略、高速缓存以及组件影响这3个方面.此外,目前也有一些验证与消除时序异常的相关研究工作,这些工作也存在一些问题和不足.WCET分析的未来应当以分析方式为基础进行时序异常相关的研究,以更好地解决时序异常问题. 展开更多
关键词 最坏执行时间 处理器架构 时序异常 时间可预测 实时系统
在线阅读 下载PDF
基三众核架构中基于同步哈密顿环的无死锁策略
7
作者 李春峰 Karim Soliman +1 位作者 计卫星 石峰 《计算机研究与发展》 北大核心 2025年第4期930-949,共20页
确保片上网络(network-on-chip,NoC)中的数据传输无死锁,是NoC为多处理器片上系统(multi-processor system-on-chip,MPSoC)提供可靠通信服务的前提,决定了NoC甚至MPSoC的可用性.现有的通用防死锁策略难以发挥出特定拓扑结构的自身特点... 确保片上网络(network-on-chip,NoC)中的数据传输无死锁,是NoC为多处理器片上系统(multi-processor system-on-chip,MPSoC)提供可靠通信服务的前提,决定了NoC甚至MPSoC的可用性.现有的通用防死锁策略难以发挥出特定拓扑结构的自身特点和优势,甚至可能会增加网络延迟、功耗以及硬件复杂性.另外,由于路由级和协议级死锁存在显著差异,现有无死锁方案较难同时解决这2类死锁问题,影响了MPSoC的可靠性.利用基三众核架构(triplet-based many-core architecture,TriBA)中拓扑结构自身具有的哈密顿特性提出了基于同步哈密顿环的无死锁策略,该策略依据拓扑结构自身的对称轴和哈密顿边对数据传输进行分类,预防了协议级死锁并提高了数据传输速度;同时使用循环链表技术判断同一缓冲区内数据同步传输方向,消除了路由级死锁并降低了数据传输延迟.在优化前瞻路由算法基础上,设计了基于同步哈密顿环的无死锁路由机制HamSPR(Hamiltonian shortest path routing).GEM5仿真结果表明,与TriBA现有方法相比,HamSPR在合成流量下的平均数据包延迟和功耗分别降低了8.78%~65.40%和6.94%~34.15%,吞吐量提高了8.00%~59.17%;在PARSEC测试集下的应用运行时间和平均数据包延迟分别最高实现了16.51%和42.75%的降低.与2D-Mesh架构相比,TriBA在PARSEC测试集下的应用性能实现了1%~10%的提升. 展开更多
关键词 众核处理器 片上网络 基三众核架构 哈密顿特性 路由算法 死锁预防
在线阅读 下载PDF
体系结构模拟器的研究现状、挑战与展望
8
作者 张锦 陈铸 +2 位作者 陈照云 时洋 陈冠军 《计算机工程》 北大核心 2025年第7期1-11,共11页
在众多科学领域的研究与开发中,模拟器都扮演着不可替代的角色。在体系结构领域尤其如此,模拟器提供了一个安全、成本低廉的虚拟环境,使研究人员能够快速开展实验分析和评测。同时,模拟器还可以加速芯片设计和验证的过程,从而节省时间... 在众多科学领域的研究与开发中,模拟器都扮演着不可替代的角色。在体系结构领域尤其如此,模拟器提供了一个安全、成本低廉的虚拟环境,使研究人员能够快速开展实验分析和评测。同时,模拟器还可以加速芯片设计和验证的过程,从而节省时间和资源成本。然而,随着处理器体系结构的演化进步,尤其是专用处理器发展呈现多元化特点,为了能够对体系结构设计探索提供重要的反馈,模拟器的重要作用日益凸显。综述了体系结构模拟器目前的发展与应用现状,重点介绍了几种目前较为典型的体系结构模拟器。通过对专用于不同处理器的模拟器技术手段的分析,深入了解不同架构下模拟器的侧重点及技术难点。此外,还对体系结构模拟器未来发展的关键点进行了思考与评述,以展望其在处理器设计研究领域的前景。 展开更多
关键词 模拟器 体系结构 处理器 芯片设计反馈 虚拟化
在线阅读 下载PDF
MVSim:面向VLIW多核向量处理器的快速、可扩展和精确的体系结构模拟器 被引量:1
9
作者 刘仲 李程 +3 位作者 田希 刘胜 邓让钰 钱程东 《计算机工程与科学》 CSCD 北大核心 2024年第2期191-199,共9页
设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟... 设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟,采用多线程技术实现了多核处理器的高效和可扩展模拟。实验结果表明,MVSim能够准确模拟多核处理器的目标程序执行,模拟结果完全正确,具有良好的可扩展性。MVSim的平均模拟速度分别是RTL模拟和CCS的227倍和5倍,平均性能误差约为2.9%。 展开更多
关键词 体系结构模拟器 VLIW 多核向量处理器模型 性能模型 节拍精准模拟器
在线阅读 下载PDF
可信执行环境:现状与展望 被引量:7
10
作者 张锋巍 周雷 +2 位作者 张一鸣 任明德 邓韵杰 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期243-260,共18页
当前在云服务、移动社交网络下用户普遍追求隐私保护、安全计算,从而推动了隐私计算、机密计算等领域的快速发展.可信执行环境(trusted execution environment,TEE)作为机密计算服务中重要的技术基础已经广泛部署到各类计算平台中.目前,... 当前在云服务、移动社交网络下用户普遍追求隐私保护、安全计算,从而推动了隐私计算、机密计算等领域的快速发展.可信执行环境(trusted execution environment,TEE)作为机密计算服务中重要的技术基础已经广泛部署到各类计算平台中.目前,以Intel,Arm等为代表的设备制造商采用软硬件隔离机制,推出了多类实用TEE技术并不断迭代更新,从功能上更加方便设备管理者、普通用户使用安全服务.研究人员则根据不同的系统架构和应用需求,优化TEE模型,扩大可信应用领域并提升其工作效率.全面分析主流系统架构(包括x86、Arm、RISC-V、异构计算单元)中TEE技术发展路线、技术特点包括基础硬件设施设计、软件接口定义、安全边界等,挖掘TEE技术可行的应用场景.同时,分析各类TEE技术面临的挑战,探讨TEE技术局限性以及自身面临的安全风险如侧信道攻击等.在此基础上,从安全性、功能性等方面总结各类TEE技术优缺点,并提出TEE技术未来的发展思路. 展开更多
关键词 可信执行环境 操作系统架构 内存隔离 处理器模式 安全性验证
在线阅读 下载PDF
基于AMP模式多核处理器的可信节点构建方法 被引量:1
11
作者 刘威鹏 郝俊芳 +1 位作者 李跃鹏 李虎威 《现代电子技术》 北大核心 2024年第12期37-44,共8页
针对多核处理器的安全性进行研究,深入探讨了微处理器技术的发展背景以及多核处理器在非对称多处理(AMP)模式下所面临的安全挑战。通过运用可信计算技术和双体系架构,结合AMP模式的工作特点以及多核之间的控制机制,提出一种主动免疫防... 针对多核处理器的安全性进行研究,深入探讨了微处理器技术的发展背景以及多核处理器在非对称多处理(AMP)模式下所面临的安全挑战。通过运用可信计算技术和双体系架构,结合AMP模式的工作特点以及多核之间的控制机制,提出一种主动免疫防御系统的策略和可信节点的构建方法,分析了可信计算在全工作过程中的度量机制,有效解决了多核处理器在AMP模式下的安全问题,同时很好地保持了核内原有系统的实时性。该方法不仅可以增强多核处理器的安全性,还能确保系统的可信运行环境,为未来计算设备的安全提供了坚实的支撑。通过对实验验证结果的分析,构建方案完全可行,能够在实际应用中推广。 展开更多
关键词 非对称多处理 多核处理器 可信节点 可信计算技术 双体系架构 安全防护 可信环境
在线阅读 下载PDF
RISC-V指令集架构研究综述 被引量:55
12
作者 刘畅 武延军 +1 位作者 吴敬征 赵琛 《软件学报》 EI CSCD 北大核心 2021年第12期3992-4024,共33页
指令集作为软硬件之间的接口规范,是信息技术生态的起始原点.RISC-V是计算机体系结构走向开放的必然产物,其出现为系统研究领域带来了新的思路,即系统软件问题的研究深度可以进一步向下延伸至指令集架构,从而拓展甚至颠覆软件领域的“... 指令集作为软硬件之间的接口规范,是信息技术生态的起始原点.RISC-V是计算机体系结构走向开放的必然产物,其出现为系统研究领域带来了新的思路,即系统软件问题的研究深度可以进一步向下延伸至指令集架构,从而拓展甚至颠覆软件领域的“全栈”概念.对近年来RISC-V指令集架构相关的研究成果进行了综述.首先介绍了RISC-V指令集的发展现状,指出开展RISC-V研究应重点关注的指令集范围.然后分析了RISC-V处理器设计要点和适用范围.同时,围绕RISC-V系统设计问题,从指令集、功能实现、性能提升、安全策略这4个方面,论述了RISC-V处理器基本的研究思路,并分析了近年来的研究成果.最后借助具体的研究案例,阐述了RISC-V在领域应用的价值,并展望了RISC-V架构后续研究的可能切入点和未来发展方向. 展开更多
关键词 RISC-V 架构设计 处理器 性能优化 系统安全
在线阅读 下载PDF
多核处理器的关键技术及其发展趋势 被引量:49
13
作者 黄国睿 张平 魏广博 《计算机工程与设计》 CSCD 北大核心 2009年第10期2414-2418,共5页
多核处理器以其高性能、低功耗优势正逐步取代传统的单处理器成为市场的主流。介绍了Hydra、Cell、RAW这3种典型的多核处理器结构,重点讨论了核心结构选择、存储结构设计、片上通信、低功耗、操作系统设计、软件应用开发等7个影响当前... 多核处理器以其高性能、低功耗优势正逐步取代传统的单处理器成为市场的主流。介绍了Hydra、Cell、RAW这3种典型的多核处理器结构,重点讨论了核心结构选择、存储结构设计、片上通信、低功耗、操作系统设计、软件应用开发等7个影响当前多核处理器发展的关键技术,最后得出多核处理器的未来将呈现众核、低功耗和异构结构3种发展趋势。 展开更多
关键词 多核处理器结构 存储结构 片上通信 低功耗 异构
在线阅读 下载PDF
龙芯3号互联系统的设计与实现 被引量:23
14
作者 王焕东 高翔 +1 位作者 陈云霁 胡伟武 《计算机研究与发展》 EI CSCD 北大核心 2008年第12期2001-2010,共10页
龙芯3号的互联结构设计采用了一种基于二维Mesh的可伸缩分布式多核结构,可为芯片级、主板级和系统级的互联提供统一的拓扑结构和逻辑设计.龙芯3号的对外接口采用扩展的HyperTransport协议,既可以用于连接IO,又可以实现多芯片的互联.在龙... 龙芯3号的互联结构设计采用了一种基于二维Mesh的可伸缩分布式多核结构,可为芯片级、主板级和系统级的互联提供统一的拓扑结构和逻辑设计.龙芯3号的对外接口采用扩展的HyperTransport协议,既可以用于连接IO,又可以实现多芯片的互联.在龙芯3号的互联结构中还设置了软件路由配置机制,可以在板级直接构筑中等规模的CC-NUMA系统和更大规模的NCC-NUMA系统,提供高效的通信机制.介绍了基于龙芯3号的多处理器系统互联架构.采用了双层可伸缩互联结构:片内由二维Mesh连接多个结点,结点内由交叉开关连接多个处理器核和二级缓存模块.片间无需额外硬件支持即可通过支持缓存一致性的HyperTransport接口实现16核的多处理器系统.利用层次化目录技术,龙芯3号还可以支持更大规模的多处理器系统.龙芯3号的互联架构为搭建简洁、高效、灵活、高度可扩展的共享存储多处理器系统提供了有力支持. 展开更多
关键词 龙芯3号 多核 多片 体系结构 互联 处理器
在线阅读 下载PDF
多核处理器的结构设计研究 被引量:24
15
作者 何军 王飙 《计算机工程》 CAS CSCD 北大核心 2007年第16期208-210,共3页
围绕如何进行多核处理器的结构设计,提高处理器性能这一问题,结合传统多处理机设计原理对多核处理器结构设计进行了研究,并对当前主要商业多核处理器进行了研究,揭示了其发展趋势,探索了未来多核处理器设计的发展方向。
关键词 多核处理器 ILP TLP 处理器结构
在线阅读 下载PDF
多核处理器——技术、趋势和挑战 被引量:20
16
作者 彭晓明 郭浩然 庞建民 《计算机科学》 CSCD 北大核心 2012年第S3期320-326,共7页
多核处理器已经成为当前微处理器技术发展的重要方向。介绍了多核处理器的起源和发展现状,分析了多核处理器技术的发展趋势。重点讨论了多核处理器技术涉及的片上网络、存储结构设计、编程接口以及资源管理等关键技术;在此基础上,进一... 多核处理器已经成为当前微处理器技术发展的重要方向。介绍了多核处理器的起源和发展现状,分析了多核处理器技术的发展趋势。重点讨论了多核处理器技术涉及的片上网络、存储结构设计、编程接口以及资源管理等关键技术;在此基础上,进一步探讨了多核处理器的发展所面临的主要挑战。 展开更多
关键词 多核处理器 体系结构 片上网络 存储结构
在线阅读 下载PDF
大点数FFT的多DSPs并行处理算法及实现 被引量:9
17
作者 刘莉 高梅国 +1 位作者 周闰 王飞 《系统工程与电子技术》 EI CSCD 北大核心 2003年第10期1193-1196,共4页
在FFT变体的基础上 ,提出一种新的并行算法 :先将数据在几片DSPs上并行地进行前几级蝶型运算 ,然后将结果汇总到另一片DSPs进行后几级蝶型运算 ,以实现大点数的FFT。该算法便于流水处理 ,只有一次简单的数据通讯 ,而且旋转因子规律简单... 在FFT变体的基础上 ,提出一种新的并行算法 :先将数据在几片DSPs上并行地进行前几级蝶型运算 ,然后将结果汇总到另一片DSPs进行后几级蝶型运算 ,以实现大点数的FFT。该算法便于流水处理 ,只有一次简单的数据通讯 ,而且旋转因子规律简单易于将大点数FFT拆分成小点数FFT。应用该算法在多DSPs系统上 (5片TI公司的高速DSP芯片 :1片C6 2 0 2和 4片C6 70 1)实现 2 5 6K点复数FFT只需用 4 9ms,说明该算法有并行度高和易于实现的特点。 展开更多
关键词 多处理器结构 并行算法 信号处理
在线阅读 下载PDF
异构多核处理器体系结构设计研究 被引量:24
18
作者 陈芳园 张冬松 王志英 《计算机工程与科学》 CSCD 北大核心 2011年第12期27-36,共10页
多核技术成为当今处理器发展的重要方向,异构多核处理器由于可将不同类型的计算任务分配到不同类型的处理器核上并行处理,从而为不同需求的应用提供更加灵活、高效的处理机制而成为当今研究的热点。本文从体系结构的角度探讨了异构多核... 多核技术成为当今处理器发展的重要方向,异构多核处理器由于可将不同类型的计算任务分配到不同类型的处理器核上并行处理,从而为不同需求的应用提供更加灵活、高效的处理机制而成为当今研究的热点。本文从体系结构的角度探讨了异构多核处理器设计中的关键点,从内核结构、互连方式、存储系统、操作系统支持、测试与验证、动态电压调节等方面分析了异构多核处理器对体系结构设计带来的挑战。最后本文针对高性能应用和嵌入式实时应用分析了异构多核在这两种应用中的设计关键点,指出了高性能异构多核在性能提升、内核数量以及嵌入式异构多核在实时性、低能耗需求等方面的设计难点和研究方向。 展开更多
关键词 多核处理器 异构多核处理器 体系结构 嵌入式实时系统
在线阅读 下载PDF
基于网络处理器的IPv6路由器设计 被引量:4
19
作者 高纪明 赵海滨 +1 位作者 谢铁兵 侯自强 《计算机工程》 CAS CSCD 北大核心 2004年第2期16-19,共4页
分析了当前路由器的体系结构设计,深入研究了网络处理器的技术特点,给出了基于网络处理器的IPv6路由器的设计方案,阐述了此方案在路由查找、报文交换、阻塞管理等方面的问题和解决方法,并讨论了IPv6路由器软件的模块设计。
关键词 网络处理器 IPV6 路由器 体系结构
在线阅读 下载PDF
基于GPU的并行优化技术 被引量:23
20
作者 左颢睿 张启衡 +1 位作者 徐勇 赵汝进 《计算机应用研究》 CSCD 北大核心 2009年第11期4115-4118,共4页
针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法... 针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。 展开更多
关键词 图形处理器 并行优化 累加和 统一计算设备架构
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部