期刊文献+
共找到90篇文章
< 1 2 5 >
每页显示 20 50 100
Imagine流处理器上流的优化组织方法 被引量:4
1
作者 杨学军 曾丽芳 +1 位作者 邓宇 唐玉华 《计算机学报》 EI CSCD 北大核心 2008年第7期1092-1100,共9页
流应用的特点以及传统处理器在处理流应用上的不足,使得支持数据并行的流处理器的设计成为当前体系结构研究领域的一个热点.文中针对Imagine流处理器体系结构的特点,提出了流分割和流压缩两种流的优化组织方法.模拟结果表明,流分割和流... 流应用的特点以及传统处理器在处理流应用上的不足,使得支持数据并行的流处理器的设计成为当前体系结构研究领域的一个热点.文中针对Imagine流处理器体系结构的特点,提出了流分割和流压缩两种流的优化组织方法.模拟结果表明,流分割和流压缩使得流应用程序能充分利用Imagine的并行结构、流水结构和多级带宽存储结构,从而减少流程序的执行时间. 展开更多
关键词 imagine流处理器 应用 优化 分割 压缩
在线阅读 下载PDF
H.264运动估计算法在Imagine流处理器上的加速实现
2
作者 李海燕 文梅 +3 位作者 伍楠 李礼 荀长庆 张春元 《计算机工程与科学》 CSCD 2006年第9期47-49,共3页
鉴于Imagine流处理器在媒体处理领域取得的优越性能,我们将H.264视频编码中耗时较大的运动搜索算法映射到Imagine上,利用流处理的思想充分开发其并行性来提高编码性能,对QCIF图像编码可达372fps,加速效果是非常明显的。由此证明,H.264... 鉴于Imagine流处理器在媒体处理领域取得的优越性能,我们将H.264视频编码中耗时较大的运动搜索算法映射到Imagine上,利用流处理的思想充分开发其并行性来提高编码性能,对QCIF图像编码可达372fps,加速效果是非常明显的。由此证明,H.264是适于Imagine实现的。 展开更多
关键词 imagine流处理器 H.264视频编码 运动估计
在线阅读 下载PDF
地球引力位函数在流处理器上的实现与分析
3
作者 曹维 车永刚 王正华 《计算机工程》 CAS CSCD 北大核心 2009年第6期248-250,共3页
流处理器是新型高性能微处理器的代表之一。该文通过分析Imagine流处理器体系结构,实现某卫星轨道预报系统核心子程序CBPTRB,对基于Imagine的钟精确模拟器ISim进行性能测试,并将结果与该程序在普通x86处理器上的性能进行对比,同时根据... 流处理器是新型高性能微处理器的代表之一。该文通过分析Imagine流处理器体系结构,实现某卫星轨道预报系统核心子程序CBPTRB,对基于Imagine的钟精确模拟器ISim进行性能测试,并将结果与该程序在普通x86处理器上的性能进行对比,同时根据实验结果提出改进方法。 展开更多
关键词 imagine流处理器 编程模型 CBPTRB程序 性能评估
在线阅读 下载PDF
可配置流处理器核心级指令设计及相关编译技术研究 被引量:4
4
作者 何义 任巨 +3 位作者 杨乾明 管茂林 文梅 张春元 《计算机工程与科学》 CSCD 北大核心 2009年第11期40-44,共5页
针对目前微处理器面对通用性、高性能、功耗效率的矛盾,我们提出了可配置流处理器的解决方案。本文重点研究了可配置流处理器中核心级指令设计及相关的编译技术,其核心设计思想是根据应用的计算特征设计流处理器中的核心级指令集,从而... 针对目前微处理器面对通用性、高性能、功耗效率的矛盾,我们提出了可配置流处理器的解决方案。本文重点研究了可配置流处理器中核心级指令设计及相关的编译技术,其核心设计思想是根据应用的计算特征设计流处理器中的核心级指令集,从而降低指令集硬件资源的需求。 展开更多
关键词 可配置 指令集 处理器 编译
在线阅读 下载PDF
基于流体系架构的分组密码处理器设计 被引量:2
5
作者 李功丽 戴紫彬 +3 位作者 徐进辉 王寿成 朱玉飞 冯晓 《计算机研究与发展》 EI CSCD 北大核心 2017年第12期2824-2833,共10页
为提升密码处理器性能,构建了密码处理器性能模型.基于该模型,提出多级资源共享、绑定前/后异或操作、最大化算法并行度等处理器性能提升技术,并根据性能提升技术确定了功能单元的种类和数量.然而功能单元不仅数量较多,而且在操作位宽... 为提升密码处理器性能,构建了密码处理器性能模型.基于该模型,提出多级资源共享、绑定前/后异或操作、最大化算法并行度等处理器性能提升技术,并根据性能提升技术确定了功能单元的种类和数量.然而功能单元不仅数量较多,而且在操作位宽和操作延迟方面均有较大差异,如何有效组织这些功能单元成为了一个关键问题.利用流体系结构可以高效集成大量功能单元的特点,设计并实现了基于流体系结构的可重构分组密码处理器原型,并通过把功能单元划分为基本处理单元,bank间共享单元和簇间共享单元3个层次来解决功能单元处理位宽和操作延迟的差异.在65nm CMOS工艺下对处理器原型进行综合,并在该结构上映射了典型的分组密码算法.实验结果证明:该处理器以较小的面积获得了较高的性能,对典型分组密码算法的处理速度,不仅超越了国际上的密码专用指令处理器,而且高于国内可重构阵列结构密码处理器. 展开更多
关键词 分组密码 处理器 性能模型 可重构 密码处理器
在线阅读 下载PDF
一种流处理器体系结构MASA及其在流体力学计算中的评测 被引量:3
6
作者 伍楠 文梅 +4 位作者 何义 荀长庆 任巨 柴俊 张春元 《计算机学报》 EI CSCD 北大核心 2008年第1期133-141,共9页
提出了面向科学计算的64位流体系结构——MASA,它具有强局域性、并行性、解耦合访存操作和计算操作等特征,特别适合于计算密集型的并行应用.作者使用时钟精确的模拟器评测了流体力学中的典型应用在MASA上的运行性能,结果表明MASA在500MH... 提出了面向科学计算的64位流体系结构——MASA,它具有强局域性、并行性、解耦合访存操作和计算操作等特征,特别适合于计算密集型的并行应用.作者使用时钟精确的模拟器评测了流体力学中的典型应用在MASA上的运行性能,结果表明MASA在500MHz的情况下能够获得比1.6GHz的Iantium2近4倍的加速,证实了流体系结构在高性能计算领域的极大潜力. 展开更多
关键词 处理器 体系结构 科学计算 Ygx2 MASA
在线阅读 下载PDF
流处理器MASA-I在FPGA上的实现 被引量:3
7
作者 杨乾明 伍楠 +2 位作者 何义 荀长庆 张春元 《计算机工程与科学》 CSCD 2008年第3期114-118,共5页
流处理器与传统微处理器相比具有更高的性能和效率,已广泛应用于图像处理、媒体处理等领域。本文基于Altera EP2S180 FPGA芯片设计并实现了一款32位异构多核流处理器MASA-I,并对其硬件开销及性能进行了评估。结果表明,基于流处理的异构... 流处理器与传统微处理器相比具有更高的性能和效率,已广泛应用于图像处理、媒体处理等领域。本文基于Altera EP2S180 FPGA芯片设计并实现了一款32位异构多核流处理器MASA-I,并对其硬件开销及性能进行了评估。结果表明,基于流处理的异构多核系统能够在FPGA上较好地实现,满足了流应用的需求。 展开更多
关键词 处理器 MASA—I FPGA MPEG
在线阅读 下载PDF
一种异构多核处理器的并行流存储结构 被引量:7
8
作者 邓让钰 陈海燕 +7 位作者 窦强 徐炜遐 谢伦国 戴泽福 李永进 夏军 罗莉 张民选 《电子学报》 EI CAS CSCD 北大核心 2009年第2期312-317,共6页
异构多核处理器可结合多种处理器体系结构的优势,既保留传统通用体系结构的灵活性,又拥有大量计算资源,可提供更高的峰值计算性能.YHFT64-3异构多核处理器中浮点处理部件18套,峰值计算能力强大,设计与之相匹配的存储系统是一项重大挑战... 异构多核处理器可结合多种处理器体系结构的优势,既保留传统通用体系结构的灵活性,又拥有大量计算资源,可提供更高的峰值计算性能.YHFT64-3异构多核处理器中浮点处理部件18套,峰值计算能力强大,设计与之相匹配的存储系统是一项重大挑战.针对YHFT64-3处理器,本文提出了一种并行流层次存储结构,深入阐述了如何体现应用特点、支持并行数据流处理的存储系统的设计思想和方法,从多个层次实现对并行数据流的挖掘或捕获.测试结果表明,这种存储结构体现了应用特点,能够较好地发挥YHFT64-3处理器的性能,同频情况下(500MHz),YHFT64-3比YHFT64-2性能高2—3个数量级,与1.6GHz的Itanium2性能相当,但代价更低. 展开更多
关键词 异构多核处理器 体系结构 预取 存储调度 优化的锁步执行模型
在线阅读 下载PDF
基于多核流处理器的BLAST并行化算法研究 被引量:4
9
作者 裴颂文 王心怡 +1 位作者 韦刚 吴百锋 《系统仿真学报》 CAS CSCD 北大核心 2011年第10期2065-2069,共5页
序列比对是生物信息学中最基本、最重要的操作,通过序列比对可以发现生物序列中的功能、结构和进化的信息。BLAST算法是序列比对中应用广泛的算法之一。基于多核流处理器GPU和CPU的异构平台,提出了BLAST算法构造单词表和单词匹配扩展的... 序列比对是生物信息学中最基本、最重要的操作,通过序列比对可以发现生物序列中的功能、结构和进化的信息。BLAST算法是序列比对中应用广泛的算法之一。基于多核流处理器GPU和CPU的异构平台,提出了BLAST算法构造单词表和单词匹配扩展的并行化实现方法。实验证明构造单词表的计算性能获得3倍以上的加速比;单词匹配扩展采用的混合并行方式可以获得7倍左右的加速比,内部并行方式可取得3~4倍的加速比。 展开更多
关键词 序列比对 BLAST算法 生物信息学 多核处理器
在线阅读 下载PDF
考虑运输的柔性流水车间多处理器任务调度的混合遗传优化算法 被引量:13
10
作者 轩华 王潞 +1 位作者 李冰 王薛苑 《计算机集成制造系统》 EI CSCD 北大核心 2020年第3期707-717,共11页
多处理器任务调度在制造业有着较广泛的应用,为了解决实际柔性流水车间环境下的多处理器任务调度优化问题,研究了考虑运输时间和释放时间的多阶段柔性流水车间多处理器任务调度问题,该问题为NP-hard问题,以最小化最大完工时间为目标建... 多处理器任务调度在制造业有着较广泛的应用,为了解决实际柔性流水车间环境下的多处理器任务调度优化问题,研究了考虑运输时间和释放时间的多阶段柔性流水车间多处理器任务调度问题,该问题为NP-hard问题,以最小化最大完工时间为目标建立了柔性流水车间多处理器任务调度整数规划模型。为有效求解该问题,首先研究了工件加工机器流生成机制、单工件加工机器流矩阵编码方案和批量工件加工机器流编码方案。进而设计了基于机器空闲随机筛选的工件安排机制,产生该规划的初始解生成方法,以最小化最大完工时间原则进行新解筛选。然后构建基于工件顺序与加工机器流同步交叉的新解更新过程、基于工件顺序与加工机器流同步变异的新解调整过程,并利用迭代贪婪算法完成调整和重建操作,产生全新方案以改善求解质量,最终形成结合迭代贪婪算法的混合遗传融合优化策略。仿真实验利用解的下界得出偏差百分比,分别用遗传算法、迭代贪婪算法和混合遗传融合优化算法对不同规模的问题进行测试,结果表明,混合遗传融合优化算法能够获得较好的近优解。 展开更多
关键词 处理器任务调度 柔性水车间 工件加工机器 迭代贪婪过程 遗传算法
在线阅读 下载PDF
基于流体系结构的高效能分组密码处理器研究 被引量:3
11
作者 王寿成 严迎建 徐进辉 《电子学报》 EI CAS CSCD 北大核心 2017年第4期937-943,共7页
针对现有密码处理器存在的问题,借鉴流处理器架构,提出了高效能的可重构分组密码流处理器架构.该架构采用层次化设计思想,通过分块式本地寄存器组的数据组织方式和共享拼接使用运算单元机制,实现了软件流水和硬件流水的协同工作,能够挖... 针对现有密码处理器存在的问题,借鉴流处理器架构,提出了高效能的可重构分组密码流处理器架构.该架构采用层次化设计思想,通过分块式本地寄存器组的数据组织方式和共享拼接使用运算单元机制,实现了软件流水和硬件流水的协同工作,能够挖掘分组内和分组间的指令级并行性并提高功能单元的利用率.在65nm CMOS工艺下对架构进行了综合仿真,并经过了大量算法映射.实验结果证明,该架构在CBC和ECB加密模式下均具有良好的加密性能.与其他密码处理器相比,该架构具有小面积、高效能的特点. 展开更多
关键词 分组密码 处理器 可重构 软件 面积能效比
在线阅读 下载PDF
线性方程组迭代法在流处理器上的映射与分析 被引量:1
12
作者 王桂彬 唐沛蓉 唐玉华 《计算机工程与科学》 CSCD 2007年第7期88-90,95,共4页
斯坦福大学的Imagine流处理器具有很强的计算能力,如何将该体系结构应用在科学计算领域是当前研究的热点。解线性方程组的迭代法在工程和科学计算的各个领域中有着十分广泛的应用,该算法具有较好的计算密集性和并行性,十分适合流处理器... 斯坦福大学的Imagine流处理器具有很强的计算能力,如何将该体系结构应用在科学计算领域是当前研究的热点。解线性方程组的迭代法在工程和科学计算的各个领域中有着十分广泛的应用,该算法具有较好的计算密集性和并行性,十分适合流处理器的计算模型。本文分别针对系数矩阵的规模大小和稠密程度,介绍了Jacobi和Seidel迭代在流处理器上的映射。实验结果表明,迭代算法能高效地开发Imagine的计算能力,取得较高的性能加速。 展开更多
关键词 imagine Jaeobi迭代 Seidel迭代 编程模型
在线阅读 下载PDF
面向实时流处理的多核多线程处理器访存队列 被引量:3
13
作者 田杭沛 高德远 +1 位作者 樊晓桠 朱怡安 《计算机研究与发展》 EI CSCD 北大核心 2009年第10期1634-1641,共8页
针对多核多线程处理器中乱序访存影响计算实时性的问题,在对典型访存队列进行研究的基础上提出了一种新的访存队列构建模型及其硬件结构.该模型采用窗口优化算法控制最差情况下的访存延迟,保证访存的实时性,同时又利用优化的乱序调度策... 针对多核多线程处理器中乱序访存影响计算实时性的问题,在对典型访存队列进行研究的基础上提出了一种新的访存队列构建模型及其硬件结构.该模型采用窗口优化算法控制最差情况下的访存延迟,保证访存的实时性,同时又利用优化的乱序调度策略减少访存延迟.实验证明,该访存队列可控制最大访存延迟,与顺序访存相比,存储器具备更高的带宽,与传统的乱序访存相比较,可以充分满足计算的实时性需求,而存储器有效带宽基本不受影响,解决了多核多线程处理器承担实时流计算的基础难题. 展开更多
关键词 计算机体系结构 实时处理 多核多线程处理器 访存队列 窗口优化
在线阅读 下载PDF
分片式流处理器上存储系统的设计与实现 被引量:1
14
作者 汪芳 安虹 +2 位作者 徐光 许牧 姚平 《计算机工程》 CAS CSCD 北大核心 2010年第11期217-220,共4页
针对"存储墙"问题,从提高片外带宽使用率的角度出发,为分片式流处理器设计实现数据并行存储系统。该存储系统通过多级调度能有效减少片外访存的次数,降低片外带宽的需求。软件模拟和仿真验证的结果表明,在不同工作负载特征下... 针对"存储墙"问题,从提高片外带宽使用率的角度出发,为分片式流处理器设计实现数据并行存储系统。该存储系统通过多级调度能有效减少片外访存的次数,降低片外带宽的需求。软件模拟和仿真验证的结果表明,在不同工作负载特征下,通过设计参数的优化选择,该设计能够充分挖掘存储访问的行局部性和体间并行性,从而提高带宽的使用效率。 展开更多
关键词 分片式处理器 数据并行存储系统 片外带宽
在线阅读 下载PDF
流处理器技术研究与发展 被引量:1
15
作者 杨学军 晏小波 唐滔 《计算机工程与科学》 CSCD 2008年第4期113-117,共5页
高性能计算技术在过去十年中不断向前发展,但片外存储、通信延迟等问题一直得不到本质改善,线延迟和功耗问题也越来越突出。高性能计算领域正在寻求能够解决这一问题的新型处理器体系结构。流处理器是在众多新兴的处理器体系结构中发展... 高性能计算技术在过去十年中不断向前发展,但片外存储、通信延迟等问题一直得不到本质改善,线延迟和功耗问题也越来越突出。高性能计算领域正在寻求能够解决这一问题的新型处理器体系结构。流处理器是在众多新兴的处理器体系结构中发展非常迅速、被学界和业界广泛关注的一种新型处理器,它在数字处理、多媒体以及图像等领域已取得很好的效果。本文分析了当前流行的几种流处理器,指出了流体系结构在科学计算领域的应用前景和所面临的挑战。 展开更多
关键词 体系结构 科学计算 处理器
在线阅读 下载PDF
基于程序特征分析的流处理器VLIW压缩技术与解压实现 被引量:1
16
作者 管茂林 何义 +1 位作者 杨乾明 张春元 《国防科技大学学报》 EI CAS CSCD 北大核心 2012年第1期138-143,共6页
代码体积和代码稀疏是VLIW处理器一直存在的问题。通过对一系列典型应用在流处理器上的程序特征进行分析,提出了一种新的VLIW分域压缩技术,剔除各个子域中的空操作,并设计了分布式指令存储器对压缩后的代码进行解压缩执行。实验证明,该... 代码体积和代码稀疏是VLIW处理器一直存在的问题。通过对一系列典型应用在流处理器上的程序特征进行分析,提出了一种新的VLIW分域压缩技术,剔除各个子域中的空操作,并设计了分布式指令存储器对压缩后的代码进行解压缩执行。实验证明,该技术能够减少MASA流处理器中近39%的片外指令访存,降低约65%的片上指令存储器空间需求;同时使得指令存储器面积和系统面积分别减少了约37%和8.9%。 展开更多
关键词 特征分析 处理器 代码压缩 分布式指令存储器
在线阅读 下载PDF
图形处理器的流执行模型
17
作者 李海燕 张春元 +1 位作者 李礼 任巨 《计算机工程》 CAS CSCD 北大核心 2008年第22期258-260,共3页
图形处理器极高的流计算能力使其成为实现实时流应用的有效方案。该文抽象出图形处理器的流执行模型,描述图形处理器流处理机制的执行过程,在图形处理器上实现了二维离散余弦变换。实验结果表明,图形处理器对标清格式的视频压缩编码效... 图形处理器极高的流计算能力使其成为实现实时流应用的有效方案。该文抽象出图形处理器的流执行模型,描述图形处理器流处理机制的执行过程,在图形处理器上实现了二维离散余弦变换。实验结果表明,图形处理器对标清格式的视频压缩编码效率可达70 fps。 展开更多
关键词 图形处理器 处理 执行模型
在线阅读 下载PDF
一种面向流处理器的条件随机场并行计算方法
18
作者 裴颂文 王文浩 +1 位作者 马超 吴百锋 《小型微型计算机系统》 CSCD 北大核心 2011年第12期2392-2395,共4页
条件随机场(Conditional Random Fields,CRF)是一种用于结构化数据标注的机器学习方法,可以应用于序列标注任务.样本训练中随着样本标签数量的增加,训练过程的计算时间呈非线性增长.利用GPU流处理器的多核计算单元和多级存储结构,在OPEC... 条件随机场(Conditional Random Fields,CRF)是一种用于结构化数据标注的机器学习方法,可以应用于序列标注任务.样本训练中随着样本标签数量的增加,训练过程的计算时间呈非线性增长.利用GPU流处理器的多核计算单元和多级存储结构,在OPECNCL编程模型下采用并行计算方法提高样本训练的计算效率.实验结果表明,采用并行计算的性能相对于面向单核CPU环境下的单线程计算能获得16倍的计算加速比. 展开更多
关键词 条件随机场 处理器 并行计算 OPENCL GPU
在线阅读 下载PDF
基于国产处理器增量式实时交通流预测算法及实现
19
作者 季一木 杨启凡 +4 位作者 李奎 尤帅 邵思思 刘强 刘尚东 《计算机应用研究》 CSCD 北大核心 2021年第5期1468-1471,共4页
针对城市交通难以处理大量数据且实时性差等问题,提出了根据增量式城市交通流数据预测拥堵情况的一种基于国产处理器的L-BFGS(limited-memory BFGS)算法。该算法通过存储向量序列计算Hessian矩阵,改进Two-Loop算法求下降方向,在Spark集... 针对城市交通难以处理大量数据且实时性差等问题,提出了根据增量式城市交通流数据预测拥堵情况的一种基于国产处理器的L-BFGS(limited-memory BFGS)算法。该算法通过存储向量序列计算Hessian矩阵,改进Two-Loop算法求下降方向,在Spark集群中并行处理时收敛速度快,适用于实时性要求强的城市交通场景。实验结果证明,L-BFGS预测算法完全可以在国产平台上对大规模的实时交通数据流进行快速建模、预测,在改善城市交通管理水平提供有效支撑的同时也丰富了国产芯片的应用领域。 展开更多
关键词 国产处理器 增量式城市交通数据 Spark集群 L-BFGS算法 交通预测
在线阅读 下载PDF
基于指令级冗余的密码流处理器并发错误检测方法
20
作者 戴强 戴紫彬 +2 位作者 王寿成 李功丽 李伟 《计算机应用与软件》 北大核心 2018年第10期286-291,298,共7页
自然故障与恶意故障将降低密码流处理器的可靠性与安全性。针对此情况,提出基于指令级冗余的低开销并发错误检测方法。分析密码流处理器上不同算法实现时的功能单元利用率,验证指令级冗余方法实现的可行性与高效性。提出脆弱性感知的指... 自然故障与恶意故障将降低密码流处理器的可靠性与安全性。针对此情况,提出基于指令级冗余的低开销并发错误检测方法。分析密码流处理器上不同算法实现时的功能单元利用率,验证指令级冗余方法实现的可行性与高效性。提出脆弱性感知的指令复制算法,在满足性能约束条件下优先复制脆弱性高的指令。实验证明,该方法引入的硬件开销仅为1. 5%,且在相同性能开销时,对随机故障与恶意故障的检测能力优于其他指令级冗余方法。全指令复制后典型SP(AES-128)、Feistel(SMS4)、L-M(IDEA)结构算法实现性能开销分别为25.6%、17. 9%、15. 7%,对比于具有相似故障检测能力的其他指令级冗余方法,其性能开销最低。 展开更多
关键词 密码处理器 并发错误检测 VLIW 指令复制
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部