期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
Multi-core optimization for conjugate gradient benchmark on heterogeneous processors
1
作者 邓林 窦勇 《Journal of Central South University》 SCIE EI CAS 2011年第2期490-498,共9页
Developing parallel applications on heterogeneous processors is facing the challenges of 'memory wall',due to limited capacity of local storage,limited bandwidth and long latency for memory access. Aiming at t... Developing parallel applications on heterogeneous processors is facing the challenges of 'memory wall',due to limited capacity of local storage,limited bandwidth and long latency for memory access. Aiming at this problem,a parallelization approach was proposed with six memory optimization schemes for CG,four schemes of them aiming at all kinds of sparse matrix-vector multiplication (SPMV) operation. Conducted on IBM QS20,the parallelization approach can reach up to 21 and 133 times speedups with size A and B,respectively,compared with single power processor element. Finally,the conclusion is drawn that the peak bandwidth of memory access on Cell BE can be obtained in SPMV,simple computation is more efficient on heterogeneous processors and loop-unrolling can hide local storage access latency while executing scalar operation on SIMD cores. 展开更多
关键词 multi-core processor NAS parallelization CG memory optimization
在线阅读 下载PDF
四级流水线堆栈处理器研究与设计
2
作者 朱恒宇 周永录 +1 位作者 刘宏杰 代红兵 《计算机工程与设计》 北大核心 2025年第1期265-273,共9页
针对现有堆栈处理器主频较低的问题,设计一种16位的四级流水线堆栈处理器ZP16。采用冯诺伊曼结构与J1指令集,具有数据堆栈和返回堆栈两个独立堆栈。四级流水线包括取指、译码、执行和回写。通过合理的结构设计与流水线冲刷技术解决ZP16... 针对现有堆栈处理器主频较低的问题,设计一种16位的四级流水线堆栈处理器ZP16。采用冯诺伊曼结构与J1指令集,具有数据堆栈和返回堆栈两个独立堆栈。四级流水线包括取指、译码、执行和回写。通过合理的结构设计与流水线冲刷技术解决ZP16中流水线冒险问题。实验结果表明,在Xilinx XC7A100T FPGA目标芯片上,ZP16的运行主频稳定在230 MHz。与J1堆栈处理器相比,ZP16流水线加速比为1.3,资源占用率基本相当,功耗增加8%,主频提升130%。与其它同类型堆栈处理器在不同的目标芯片上进行比较,ZP16主频有较为明显的提升。 展开更多
关键词 堆栈处理器 流水线 现场可编程门阵列 主频 加速比 资源占用率 功耗
在线阅读 下载PDF
多核堆栈处理器研究与设计
3
作者 刘自昂 周永录 +1 位作者 代红兵 刘宏杰 《计算机工程与设计》 北大核心 2024年第4期1256-1263,共8页
为满足日趋复杂的嵌入式环境对堆栈处理器和Forth技术的应用需求,在单核堆栈处理器模型研究的基础上,设计一种多核堆栈处理器模型。基于J1单核堆栈处理器模型,针对多核目标,增加计时器、中断等功能,形成新的L32单核堆栈处理器模型,并以... 为满足日趋复杂的嵌入式环境对堆栈处理器和Forth技术的应用需求,在单核堆栈处理器模型研究的基础上,设计一种多核堆栈处理器模型。基于J1单核堆栈处理器模型,针对多核目标,增加计时器、中断等功能,形成新的L32单核堆栈处理器模型,并以该单核模型为内核,引入共享总线和十字开关互联方式的Wishbone总线、多端口存储器和面向多任务Forth系统的指令集,建立一种多核堆栈处理器模型L32-MC。利用该多核模型,在FPGA上实现4核和8核的L32-MC原型多核堆栈处理器。实验结果表明,4核和8核的L32-MC原型堆栈处理器满足高性能低功耗的多核处理器设计目标。 展开更多
关键词 多核堆栈处理器 Forth技术 Wishbone片上总线 多端口存储器 指令集 现场可编程门阵列 嵌入式
在线阅读 下载PDF
基于交叉开关互连的多核堆栈处理器架构设计
4
作者 刘欢庆 周永录 +1 位作者 刘宏杰 代红兵 《计算机工程与设计》 北大核心 2024年第7期2212-2219,共8页
为满足堆栈处理器对于并行化程序应用的需求,提出一种多核堆栈处理器架构。在单核堆栈处理器的基础上,以交叉开关作为核间互连结构,通过对指令集、高速缓存器、一致性协议以及中断机制的设计,可在一个时钟周期内完成取指、译码、执行、... 为满足堆栈处理器对于并行化程序应用的需求,提出一种多核堆栈处理器架构。在单核堆栈处理器的基础上,以交叉开关作为核间互连结构,通过对指令集、高速缓存器、一致性协议以及中断机制的设计,可在一个时钟周期内完成取指、译码、执行、核间数据传输和中断响应操作。在Xilinx FPGA芯片上进行单核、双核和四核堆栈处理器的实现,通过矩阵乘法计算进行性能实验验证,在100 MHz时钟频率的情况下,四核堆栈处理器的最大性能相当于单核堆栈处理器的3.99倍。实验结果表明,基于交叉开关互连的多核堆栈处理器架构可较好发挥多核堆栈处理器中每一个核心的性能。 展开更多
关键词 堆栈处理器 多核处理器 交叉开关 高速缓存 一致性协议 中断控制器 现场可编程门阵列
在线阅读 下载PDF
面向飞腾迈创DSP的自主软件栈设计
5
作者 时洋 陈照云 +3 位作者 孙海燕 王耀华 文梅 扈啸 《计算机工程与科学》 CSCD 北大核心 2024年第6期968-976,共9页
飞腾迈创DSP是国防科技大学计算机学院为了突破卡脖子技术,解决我国相关重点领域内芯片长久受制于人的现实问题而自主设计的高性能数字信号处理器。由于该系列芯片采用全自主设计的指令集,无法兼容已有的软件,一套自主完备且高效的软件... 飞腾迈创DSP是国防科技大学计算机学院为了突破卡脖子技术,解决我国相关重点领域内芯片长久受制于人的现实问题而自主设计的高性能数字信号处理器。由于该系列芯片采用全自主设计的指令集,无法兼容已有的软件,一套自主完备且高效的软件栈是决定飞腾迈创DSP生命力的关键。基于团队长期以来的持续工作,系统阐述了飞腾迈创DSP软件栈的设计原则与层次化架构,重点介绍了包括支持层、编译层以及工具层在内的相关软件工具的创新功能、实现方法以及性能。同时,结合用户的反馈与团队的思考,还讨论了飞腾迈创DSP软件栈未来需要探索的相关问题。 展开更多
关键词 DSP 软件栈 编译器 调试器 自主芯片
在线阅读 下载PDF
基于DM9000A的嵌入式以太网接口设计与实现 被引量:26
6
作者 施勇 温阳东 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第4期519-524,共6页
文章提出了一种基于32位ARM处理器LPC2468和以太网控制器DM9000A的嵌入式以太网接口设计方法。硬件方面主要涉及以太网网络接口电路的设计,软件方面主要涉及以太网控制芯片驱动程序和上层网路协议。该嵌入式系统网络接入方案具有硬件接... 文章提出了一种基于32位ARM处理器LPC2468和以太网控制器DM9000A的嵌入式以太网接口设计方法。硬件方面主要涉及以太网网络接口电路的设计,软件方面主要涉及以太网控制芯片驱动程序和上层网路协议。该嵌入式系统网络接入方案具有硬件接口简单、外围器件少、价格低廉、开发周期短等特点。 展开更多
关键词 嵌入式系统 LPC2468处理器 DM9000A控制器 网络驱动 TCP/IP网络协议栈
在线阅读 下载PDF
多核网络处理器iSCSI发起端研究与实现 被引量:1
7
作者 查奇文 张武 +1 位作者 曾学文 宋毅 《计算机工程》 CAS CSCD 2014年第5期304-308,共5页
针对已有的互联网小型计算机系统接口(iSCSI)发起端实现方式在面向多核网络处理器时存在的性能和扩展性不佳等问题,研究多核网络处理器的网络处理软件框架,提出基于多核网络处理器异构操作系统的网络处理软件框架。采用软件框架和P-SPL... 针对已有的互联网小型计算机系统接口(iSCSI)发起端实现方式在面向多核网络处理器时存在的性能和扩展性不佳等问题,研究多核网络处理器的网络处理软件框架,提出基于多核网络处理器异构操作系统的网络处理软件框架。采用软件框架和P-SPL数据层面编程模型,给出一种iSCSI发起端实现方式。实验结果证明,相比基于Linux操作系统的iSCSI发起端实现,基于多核网络处理器异构操作系统的iSCSI发起端实现在吞吐率和响应时间上都有明显的性能提升。在6个千兆网口的测试环境中,读写吞吐率最高可达到180 MB/s,响应时间最多减少1.6 ms。 展开更多
关键词 互联网小型计算机系统接口 iSCSI发起端 多核网络处理器 LINUX操作系统 TCP IP协议栈 网络处理操作系统
在线阅读 下载PDF
基于SOPC的以太网实时数据采集系统设计与实现 被引量:5
8
作者 梅大成 柴志勇 《计算机应用》 CSCD 北大核心 2009年第B12期108-109,112,共3页
设计了一个基于SOPC技术的实时数据采集系统。系统采用NiosⅡ软核处理器为主控制器,以嵌入式实时操作系统μC/OS-Ⅱ为软件运行平台,以LWIP为以太网通信协议,实现了数据采集系统的以太网传输及控制。整个系统在CycloneⅡ EP2C35开发板上... 设计了一个基于SOPC技术的实时数据采集系统。系统采用NiosⅡ软核处理器为主控制器,以嵌入式实时操作系统μC/OS-Ⅱ为软件运行平台,以LWIP为以太网通信协议,实现了数据采集系统的以太网传输及控制。整个系统在CycloneⅡ EP2C35开发板上实现并通过验证。 展开更多
关键词 NiosⅡ软核处理器 SOPC μC/OS-Ⅱ LWIP协议栈 实时数据采集
在线阅读 下载PDF
NP防火墙协议栈驱动模块的设计与实现 被引量:1
9
作者 韩志耕 罗军舟 《计算机工程》 EI CAS CSCD 北大核心 2006年第21期136-138,共3页
彻底打通网络处理器光口到本地协议栈间通路需要协议栈驱动提供支持。针对协议栈驱动基本组成和内在驱动机制,同时确保遵循Intel IXA软件架构分层设计原则,该文提出了在Linux平台上的实现方案并进行了分析,指出了实现过程中牵涉的关键... 彻底打通网络处理器光口到本地协议栈间通路需要协议栈驱动提供支持。针对协议栈驱动基本组成和内在驱动机制,同时确保遵循Intel IXA软件架构分层设计原则,该文提出了在Linux平台上的实现方案并进行了分析,指出了实现过程中牵涉的关键技术。Enp2611评估板上硬件光口打通测试表明设计达到了预先要求。 展开更多
关键词 协议栈驱动 防火墙 网络处理器 包分类 主动式安全防范系统
在线阅读 下载PDF
基于网络处理器的新型IPv6转发系统的设计与实现
10
作者 苏金树 时向泉 吴纯青 《国防科技大学学报》 EI CAS CSCD 北大核心 2005年第5期6-11,共6页
转发与控制分离结构的提出和网络处理器的发展对路由器的扩展性、灵活性、性能具有重要的影响,而IPv6作为下一代互联网协议的核心,是路由器研究的重要对象。简要阐述了基于转发与控制分离结构ForCES的IPv6路由器的系统结构,重点论述了... 转发与控制分离结构的提出和网络处理器的发展对路由器的扩展性、灵活性、性能具有重要的影响,而IPv6作为下一代互联网协议的核心,是路由器研究的重要对象。简要阐述了基于转发与控制分离结构ForCES的IPv6路由器的系统结构,重点论述了基于网络处理器的IPv6路由器的转发结构、双栈转发系统的流程设计和隧道机制设计的实现,给出IPv6路由器原型系统的实际测试结果。 展开更多
关键词 IPV6 转发与控制分离 网络处理器 双栈 隧道
在线阅读 下载PDF
支持程序无缝切换的高性能硬件堆栈
11
作者 陈志坚 孟建熠 +1 位作者 葛海通 严晓浪 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2011年第9期1587-1592,共6页
针对函数调用中上下文切换产生的性能损失,提出一种支持程序无缝切换的嵌入式处理器高性能硬件堆栈.高性能硬件堆栈包括数据栈和返回栈,采用动态可重构的两级缓存机制,消除程序切换的性能开销.数据栈实现单周期多数据压栈/出栈,隐藏程... 针对函数调用中上下文切换产生的性能损失,提出一种支持程序无缝切换的嵌入式处理器高性能硬件堆栈.高性能硬件堆栈包括数据栈和返回栈,采用动态可重构的两级缓存机制,消除程序切换的性能开销.数据栈实现单周期多数据压栈/出栈,隐藏程序切换中的堆栈操作;返回栈实现指令超前预取,消除程序返回时流水线气泡.数据栈与返回栈分别复用数据和指令高速暂存器,实现用户可重构的二级缓存.实验结果显示:本方法平均提升性能10%以上,功耗降低2%. 展开更多
关键词 硬件堆栈 无缝切换 嵌入式处理器 高速暂存器
在线阅读 下载PDF
基于FPGA的Java处理器设计 被引量:1
12
作者 南兆阔 须文波 柴志雷 《计算机工程》 CAS CSCD 北大核心 2008年第1期253-255,共3页
针对Java技术在嵌入式领域的广泛应用,设计了一个适用于低端嵌入式设备的32位环境的Java处理器JPOR。该处理器由FPGA芯片实现,采用一种新的Java栈结构,指令系统简洁,可以直接执行Java字节码,能够对实时Java规范(RTSJ)提供有效支持。在Xi... 针对Java技术在嵌入式领域的广泛应用,设计了一个适用于低端嵌入式设备的32位环境的Java处理器JPOR。该处理器由FPGA芯片实现,采用一种新的Java栈结构,指令系统简洁,可以直接执行Java字节码,能够对实时Java规范(RTSJ)提供有效支持。在Xilinx SPARTAN-3平台上通过了功能仿真,表明该Java处理器能够在低成本的FPGA芯片中实现。 展开更多
关键词 JAVA处理器 RTSJ 实时Java平台 栈帧
在线阅读 下载PDF
基于堆栈处理器的实时多任务调度机制研究与实现 被引量:7
13
作者 郭金辉 刘宏杰 +1 位作者 代红兵 周永录 《计算机应用研究》 CSCD 北大核心 2021年第9期2752-2756,2772,共6页
针对堆栈处理器特殊架构,为提高实时性,引入多任务堆栈技术,采用Forth自生成器技术,提出一种基于堆栈处理器的抢占式与时间片轮转调度方法,实现了在Forth堆栈处理器中实时多任务的运行,弥补了Forth堆栈处理器在实时多任务操作系统方面... 针对堆栈处理器特殊架构,为提高实时性,引入多任务堆栈技术,采用Forth自生成器技术,提出一种基于堆栈处理器的抢占式与时间片轮转调度方法,实现了在Forth堆栈处理器中实时多任务的运行,弥补了Forth堆栈处理器在实时多任务操作系统方面的的不足。实验表明,与当前基于寄存器处理器的嵌入式Forth实时系统相比,本文方法在最大关中断时间、任务上下文切换时间和任务响应时间三项重要的实时任务性能指标方面,实时性能有明显提升,从而保证了Forth系统应用的高效性和安全性,满足人们对Forth堆栈处理器实时多任务操作系统方面的应用需求。 展开更多
关键词 实时多任务 Forth堆栈处理器 Forth自生成器技术 抢占式与时间片轮转调度
在线阅读 下载PDF
基于嵌入式系统的TCP/IP协议栈的实现 被引量:5
14
作者 孟松 《无线电通信技术》 2007年第4期8-10,共3页
uIP协议栈是一种免费的可实现的极小的TCP/IP协议栈,可以使用于由8位或16位微处理器构建的嵌入式系统。介绍了一种基于uIP0.9的小型TCP/IP协议栈在三星公司的嵌入式微处理器S3C44B0上的移植和实现过程。分析了uIP协议栈的结构和应用接口... uIP协议栈是一种免费的可实现的极小的TCP/IP协议栈,可以使用于由8位或16位微处理器构建的嵌入式系统。介绍了一种基于uIP0.9的小型TCP/IP协议栈在三星公司的嵌入式微处理器S3C44B0上的移植和实现过程。分析了uIP协议栈的结构和应用接口,描述了硬件开发板连接和组成,对uIP的研究和应用具有较好的参考价值。 展开更多
关键词 嵌入式微处理器 TCP/IP协议栈 UIP ARM7 RTL8019
在线阅读 下载PDF
后摩尔时代的3D封装技术--高端通信网络芯片对3D封装技术的应用驱动 被引量:3
15
作者 王晓明 《中兴通讯技术》 2016年第4期64-66,共3页
认为通过封装技术的发展创新延续摩尔定律,满足未来通信芯片及消费性电子的需求已成为业界新的热点。介绍了3D封装技术发展现状与优势,提出"高带宽、高性能、大容量、高密度"通信网络芯片对3D封装技术有迫切的应用需求,并深... 认为通过封装技术的发展创新延续摩尔定律,满足未来通信芯片及消费性电子的需求已成为业界新的热点。介绍了3D封装技术发展现状与优势,提出"高带宽、高性能、大容量、高密度"通信网络芯片对3D封装技术有迫切的应用需求,并深入分析了堆叠封装技术如何解决400G网络处理器(NP)所面临的瓶颈问题。建议中国芯片产业链应协同合作,从整体上推动IC产业的发展。 展开更多
关键词 后摩尔时代 三维硅通孔 堆叠封装 通信网络芯片 网络处理器 存储墙
在线阅读 下载PDF
ThreadX操作系统在ARM处理器上的移植
16
作者 安蓉 章军 《计算机工程与设计》 CSCD 北大核心 2008年第9期2229-2232,共4页
嵌入式操作系统在微处理器上的移植一直是嵌入式应用所关注的内容。详细论述了ThreadX操作系统在ARM处理器上的移植过程,并针对ThreadX和ARM各自的特点,着重阐述了在移植过程中需要注意的问题,如堆栈的构造,系统堆栈和线程堆栈的不同,... 嵌入式操作系统在微处理器上的移植一直是嵌入式应用所关注的内容。详细论述了ThreadX操作系统在ARM处理器上的移植过程,并针对ThreadX和ARM各自的特点,着重阐述了在移植过程中需要注意的问题,如堆栈的构造,系统堆栈和线程堆栈的不同,处理器的7种模式对应的不同物理寄存器等。 展开更多
关键词 ThreadX操作系统 ARM处理器 移植 堆栈 处理器模式
在线阅读 下载PDF
DPDK在国产申威处理器平台上的应用与研究 被引量:5
17
作者 明旭 何慧文 陈磊 《信息安全研究》 2018年第1期53-62,共10页
发展自主可控处理器,对我国新时代中国特色社会主义的建设具有重大的战略意义.经过10多年的发展,国产申威处理器在超算等领域取得了举世瞩目的成就,已经基本具备了与当今国际先进处理器相抗衡的能力.DPDK是Intel提供的数据平面开发工具... 发展自主可控处理器,对我国新时代中国特色社会主义的建设具有重大的战略意义.经过10多年的发展,国产申威处理器在超算等领域取得了举世瞩目的成就,已经基本具备了与当今国际先进处理器相抗衡的能力.DPDK是Intel提供的数据平面开发工具集,由一系列功能库、网卡驱动组成,开发者可以利用这些库进行二次开发,实现网络数据包的快速处理.基于DPDK实现用户态网络协议栈,且用户态协议栈可以避免中断,避免不必要的上下文切换,可以作到真正的zero-copy,在云计算,大数据场景下越发重要.DPDK正在SDN和NFV中发挥越来越重要的作用,并逐渐成为事实上的标准.将DPDK移植到国产申威处理器硬件的平台上,不仅可以大幅提升基于申威平台的网络设备的数据包处理能力,还可以拓宽申威硬件平台在高性能计算、大数据平台、安全设备以及服务器领域的应用.首先阐述了将DPDK移植到国产申威处理器平台上的重要意义,并简述了DPDK的架构和核心技术;然后分析了将DPDK移植到申威处理器平台上的难点,描述了移植工作的具体技术实现;最后,简述了基于申威SW411处理器的防火墙原型机的设计与实现工作,并通过对比移植前后原型机的关键性能指标,验证了DPDK移植到申威平台上能够达到的效果. 展开更多
关键词 DPDK 申威处理器 移植 框架 协议栈
在线阅读 下载PDF
快速低切换开销的堆栈处理器架构研究与实现
18
作者 郭金辉 代红兵 +1 位作者 周永录 刘宏杰 《计算机工程与设计》 北大核心 2023年第1期292-298,共7页
为解决当前Forth堆栈处理器架构不支持多任务并发和事件实时响应等问题,提出一种快速低切换开销的Forth堆栈处理器架构。在现有Forth堆栈处理器架构的基础上,引入新的指令、定时器、中断机制以及采用多任务堆栈技术,使得该架构支持实时... 为解决当前Forth堆栈处理器架构不支持多任务并发和事件实时响应等问题,提出一种快速低切换开销的Forth堆栈处理器架构。在现有Forth堆栈处理器架构的基础上,引入新的指令、定时器、中断机制以及采用多任务堆栈技术,使得该架构支持实时多任务的运行。实验结果表明,基于堆栈处理器架构的Forth实时多任务调度支持多任务运行,与当前基于寄存器处理器的Forth实时多任务调度相比,实时任务响应、任务上下文切换和最大关中断等时间均明显缩短。 展开更多
关键词 Forth堆栈处理器 新指令 定时器 多任务堆栈技术 实时多任务 寄存器处理器
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部