期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
Multi-core optimization for conjugate gradient benchmark on heterogeneous processors
1
作者 邓林 窦勇 《Journal of Central South University》 SCIE EI CAS 2011年第2期490-498,共9页
Developing parallel applications on heterogeneous processors is facing the challenges of 'memory wall',due to limited capacity of local storage,limited bandwidth and long latency for memory access. Aiming at t... Developing parallel applications on heterogeneous processors is facing the challenges of 'memory wall',due to limited capacity of local storage,limited bandwidth and long latency for memory access. Aiming at this problem,a parallelization approach was proposed with six memory optimization schemes for CG,four schemes of them aiming at all kinds of sparse matrix-vector multiplication (SPMV) operation. Conducted on IBM QS20,the parallelization approach can reach up to 21 and 133 times speedups with size A and B,respectively,compared with single power processor element. Finally,the conclusion is drawn that the peak bandwidth of memory access on Cell BE can be obtained in SPMV,simple computation is more efficient on heterogeneous processors and loop-unrolling can hide local storage access latency while executing scalar operation on SIMD cores. 展开更多
关键词 multi-core processor NAS parallelization CG memory optimization
在线阅读 下载PDF
Using multi-threads to hide deduplication I/O latency with low synchronization overhead 被引量:1
2
作者 朱锐 秦磊华 +1 位作者 周敬利 郑寰 《Journal of Central South University》 SCIE EI CAS 2013年第6期1582-1591,共10页
Data deduplication, as a compression method, has been widely used in most backup systems to improve bandwidth and space efficiency. As data exploded to be backed up, two main challenges in data deduplication are the C... Data deduplication, as a compression method, has been widely used in most backup systems to improve bandwidth and space efficiency. As data exploded to be backed up, two main challenges in data deduplication are the CPU-intensive chunking and hashing works and the I/0 intensive disk-index access latency. However, CPU-intensive works have been vastly parallelized and speeded up by multi-core and many-core processors; the I/0 latency is likely becoming the bottleneck in data deduplication. To alleviate the challenge of I/0 latency in multi-core systems, multi-threaded deduplication (Multi-Dedup) architecture was proposed. The main idea of Multi-Dedup was using parallel deduplication threads to hide the I/0 latency. A prefix based concurrent index was designed to maintain the internal consistency of the deduplication index with low synchronization overhead. On the other hand, a collisionless cache array was also designed to preserve locality and similarity within the parallel threads. In various real-world datasets experiments, Multi-Dedup achieves 3-5 times performance improvements incorporating with locality-based ChunkStash and local-similarity based SiLo methods. In addition, Multi-Dedup has dramatically decreased the synchronization overhead and achieves 1.5-2 times performance improvements comparing to traditional lock-based synchronization methods. 展开更多
关键词 multi-thread multi-core parallel data deduplication
在线阅读 下载PDF
面向实时流处理的多核多线程处理器访存队列 被引量:3
3
作者 田杭沛 高德远 +1 位作者 樊晓桠 朱怡安 《计算机研究与发展》 EI CSCD 北大核心 2009年第10期1634-1641,共8页
针对多核多线程处理器中乱序访存影响计算实时性的问题,在对典型访存队列进行研究的基础上提出了一种新的访存队列构建模型及其硬件结构.该模型采用窗口优化算法控制最差情况下的访存延迟,保证访存的实时性,同时又利用优化的乱序调度策... 针对多核多线程处理器中乱序访存影响计算实时性的问题,在对典型访存队列进行研究的基础上提出了一种新的访存队列构建模型及其硬件结构.该模型采用窗口优化算法控制最差情况下的访存延迟,保证访存的实时性,同时又利用优化的乱序调度策略减少访存延迟.实验证明,该访存队列可控制最大访存延迟,与顺序访存相比,存储器具备更高的带宽,与传统的乱序访存相比较,可以充分满足计算的实时性需求,而存储器有效带宽基本不受影响,解决了多核多线程处理器承担实时流计算的基础难题. 展开更多
关键词 计算机体系结构 实时流处理 多核多线程处理器 访存队列 窗口优化
在线阅读 下载PDF
基于同构多核处理器的H.264多粒度并行编码器 被引量:11
4
作者 于俊清 李江 魏海涛 《计算机学报》 EI CSCD 北大核心 2009年第6期1100-1109,共10页
H.264码率低和视频质量高的优越性能以增加编码计算的复杂度为代价,如何开发适用于多核处理器平台的并行编码算法是提高其编码速度的重要研究内容,对于满足高清视频实时传输和大规模共享具有十分重要的意义.利用H.264开源编码器项目X264... H.264码率低和视频质量高的优越性能以增加编码计算的复杂度为代价,如何开发适用于多核处理器平台的并行编码算法是提高其编码速度的重要研究内容,对于满足高清视频实时传输和大规模共享具有十分重要的意义.利用H.264开源编码器项目X264,在片级和数据级并行编码算法的基础上,通过分析图像帧之间的参考关系,提出并实现了B帧个数可变的帧级并行算法;根据宏块之间的参考关系,设计了一种类似流水线的宏块级并行方法;基于Intel同构多核平台,提出融合帧级、片级、宏块级和数据级4种不同粒度的并行编码方案,开发了H.264多粒度并行编码器.实验结果表明,在码率增加不大的情况下,H.264多粒度并行编码器可以很好地提升编码加速比,视频编码质量符合高质量的要求. 展开更多
关键词 多核处理器 多线程 H.264编码器 多粒度并行
在线阅读 下载PDF
一种多核环境下的WebGIS模型优化策略 被引量:5
5
作者 郭明强 黄颖 谢忠 《计算机工程》 CAS CSCD 2013年第8期15-19,共5页
为提高网络地理信息系统(WebGIS)的并发访问性能,提出一种多核服务器集群环境下的WebGIS模型优化策略。设计集群中各服务节点和服务节点内部两级并行处理机制,利用任务响应比计算方法、请求队列缓冲机制和多线程调度方法提高系统并发处... 为提高网络地理信息系统(WebGIS)的并发访问性能,提出一种多核服务器集群环境下的WebGIS模型优化策略。设计集群中各服务节点和服务节点内部两级并行处理机制,利用任务响应比计算方法、请求队列缓冲机制和多线程调度方法提高系统并发处理性能。实验结果表明,优化后的模型能在大用户量并发访问下充分利用服务器节点的多核计算优势,CPU核心越多,并发处理能力提升越高。 展开更多
关键词 网络地理信息系统 集群 多核处理器 多线程 负载均衡 并发
在线阅读 下载PDF
面向多线程多道程序的加权共享Cache划分 被引量:12
6
作者 所光 杨学军 《计算机学报》 EI CSCD 北大核心 2008年第11期1938-1947,共10页
并行应用在共享Cache结构的多核处理器执行时,会因为对共享Cache的冲突访问而产生性能下降和执行时间不确定的现象.共享Cache划分技术可以把共享Cache互斥地分配给多个进程使用,是解决该问题的有效方法.由于线程间的数据共享,线程数目... 并行应用在共享Cache结构的多核处理器执行时,会因为对共享Cache的冲突访问而产生性能下降和执行时间不确定的现象.共享Cache划分技术可以把共享Cache互斥地分配给多个进程使用,是解决该问题的有效方法.由于线程间的数据共享,线程数目不同的应用对共享Cache的利用率不同,但传统的以失效率最低为目标的共享Cache划分算法(例如UCP)没有区分应用线程数目的不同.文中设计了一种面向多线程多道程序的加权共享Cache划分框架(Weighted Cache Partitioning,WCP),包括面向应用的失效率监控器和加权Cache划分算法.失效率监控器以进程为单位动态监控在不同的Cache容量下应用的失效率;而加权Cache划分算法扩展了传统的失效率最优的Cache划分算法,根据应用线程数目的不同在进行Cache划分时给应用赋予不同的权值,以使具有更多线程的应用获得更多的共享Cache,从而提高系统的整体性能.实验结果表明:加权Cache划分算法虽然失效率有所增高,但却改进了IPC吞吐率、加权加速比和公平性.在由科学和工程计算应用组成的多道程序测试用例中,WCP-1的IPC吞吐率比以失效率最低为目标函数的共享Cache划分算法最高高出10.8%,平均高出5.5%. 展开更多
关键词 多核处理器 多线程多道程序 加权共享Cache划分 AMRM
在线阅读 下载PDF
实时微处理器体系结构综述 被引量:5
7
作者 石伟 张明 +1 位作者 郭御风 龚锐 《计算机工程与科学》 CSCD 北大核心 2015年第5期857-864,共8页
实时应用已经成为嵌入式应用中一类快速崛起的典型应用。作为实时系统的核心部件,实时微处理器体系结构是微处理器领域的一个重要研究方向。与通用处理器追求最大吞吐量不同,实时处理器要求具有紧凑且可计算的最坏执行时间。传统的实时... 实时应用已经成为嵌入式应用中一类快速崛起的典型应用。作为实时系统的核心部件,实时微处理器体系结构是微处理器领域的一个重要研究方向。与通用处理器追求最大吞吐量不同,实时处理器要求具有紧凑且可计算的最坏执行时间。传统的实时处理器往往采用较为简单的处理器结构,避免复杂结构引入执行时间的不确定性。随着实时应用对处理器性能需求越来越高,实时处理器正逐渐向多线程与多核结构发展。在多线程与多核处理器中,共享资源竞争导致实时系统的确定性变差,对实时处理器体系结构带来了更大挑战。对实时微处理器体系结构进行综述,首先从指令集、微体系结构、存储、I/O、任务调度等多个方面对传统实时处理器进行分析;然后分别对采用多线程与多核结构的高性能实时处理器展开分析;最后对几种商用实时处理器结构进行比较,总结实时处理器发展现状与未来发展趋势。 展开更多
关键词 实时微处理器 可预测性 及时性 体系结构 多线程 多核
在线阅读 下载PDF
面向多线程程序基于效用的Cache优化策略 被引量:5
8
作者 唐轶轩 吴俊敏 +2 位作者 陈国良 隋秀峰 黄景 《计算机研究与发展》 EI CSCD 北大核心 2013年第1期170-180,共11页
为了提供高速的数据访问,多核处理器常使用Cache划分机制来分配二级Cache资源,但传统的共享Cache划分算法大多是面向多道程序的,忽略了多线程负载中共享和私有数据访问模式的差别,使得共享数据的使用效率降低.提出了一种面向多线程程序... 为了提供高速的数据访问,多核处理器常使用Cache划分机制来分配二级Cache资源,但传统的共享Cache划分算法大多是面向多道程序的,忽略了多线程负载中共享和私有数据访问模式的差别,使得共享数据的使用效率降低.提出了一种面向多线程程序的Cache管理机制UPP,它通过监控Cache中共享、私有数据的效用信息,为每个线程以及共享数据分配Cache空间,使得各个线程以及共享数据的边际效用最大化,从而提高负载的整体性能.另外,UPP还考虑了程序中数据的使用频率以及临近性信息,通过提升、动态插入策略过滤低重用数据,从而使得高频数据块留在Cache中.通过实验表明,其性能相对于基于LRU的纯共享Cache结构和基于公平的静态Cache划分结构均有提升. 展开更多
关键词 多核处理器 共享CACHE划分 插入策略 替换算法 多线程程序
在线阅读 下载PDF
基于粒子群优化算法的多核处理器任务调度研究 被引量:14
9
作者 田佳 胡威 +2 位作者 李琳 柯鹏 张凯 《计算机应用研究》 CSCD 北大核心 2017年第12期3698-3700,共3页
针对多核处理器在调度多个任务时效率不高的问题,提出了一种基于粒子群优化算法的嵌入式多核多线程系统任务调度算法,用来找寻任务调度过程中的最优解,以求取任务的最短完成时间。在算法中通过针对多核多线程任务模型而选择粒子群算法... 针对多核处理器在调度多个任务时效率不高的问题,提出了一种基于粒子群优化算法的嵌入式多核多线程系统任务调度算法,用来找寻任务调度过程中的最优解,以求取任务的最短完成时间。在算法中通过针对多核多线程任务模型而选择粒子群算法的适应度函数,综合利用局部最优极值和全局最优极值的优势,优化了粒子群算法中存在的过早收敛问题,使算法具有较高的收敛效率。实验结果表明,与基于遗传算法的多核多线程任务调度算法相比,该算法能更快地找到最优解。 展开更多
关键词 粒子群优化算法 多核处理器 多核多线程 任务调度
在线阅读 下载PDF
基于SB3500多核处理器的软件无线电系统设计 被引量:3
10
作者 钟达 郭伟 +1 位作者 习勇 唐麒 《现代电子技术》 2014年第21期5-8,共4页
针对基于软件无线电架构的现代移动通信手持终端设计,研究了基于SB3500国产多核多线程数字信号处理器的软件无线电设计方法,实现了基于SB3500的软件无线电硬件系统。在此基础上开发了一套适合该硬件系统的OFDM通信波形软件,用于验证该... 针对基于软件无线电架构的现代移动通信手持终端设计,研究了基于SB3500国产多核多线程数字信号处理器的软件无线电设计方法,实现了基于SB3500的软件无线电硬件系统。在此基础上开发了一套适合该硬件系统的OFDM通信波形软件,用于验证该硬件系统是否满足手持终端小型化和低功耗的要求。研究表明,使用该国产多核多线程处理器进行软件无线电系统的设计开发具有广泛的应用前景。 展开更多
关键词 软件无线电 手持终端 SB3500 多核多线程处理器
在线阅读 下载PDF
基于OpenMP的近场动力学模拟并行实现 被引量:4
11
作者 徐凤洲 张健飞 《河南理工大学学报(自然科学版)》 CAS 北大核心 2020年第5期130-138,共9页
针对近场动力学模拟计算量大、计算效率低等问题,研究基于OpenMP的近场动力学(peridynamic,PD)并行化方法,即在多核处理器计算机上利用OpenMP技术对PD程序中耗时占比大的构建邻接节点域、计算物质点表面修正系数、时间积分3个模块进行... 针对近场动力学模拟计算量大、计算效率低等问题,研究基于OpenMP的近场动力学(peridynamic,PD)并行化方法,即在多核处理器计算机上利用OpenMP技术对PD程序中耗时占比大的构建邻接节点域、计算物质点表面修正系数、时间积分3个模块进行并行化处理,实现PD模拟的多线程并行化。通过对二维各向同性板的2种键型PD模型(准静态模拟PD模型和动态裂纹扩展模拟PD模型)测试,得出不同线程数下并行计算时间。结果表明,采用OpenMP并行技术可有效提高近场动力学模拟运算中的计算效率,相比于串行计算,并行计算获得了2.0~4.0倍的加速比。 展开更多
关键词 近场动力学模拟 OPENMP 多核处理器 多线程 并行计算
在线阅读 下载PDF
多核架构下的数据处理算法优化策略综述 被引量:7
12
作者 陈伟 杜凌霞 陈红 《计算机科学与探索》 CSCD 2011年第12期1057-1075,共19页
多核处理器,尤其是单芯片多处理器(chip multi-processor,CMP)能够提供强大的共享内存的并行资源,然而单核处理器上的程序和算法并不能充分利用多核架构提供的并行计算资源,因此必须针对多核体系架构特点,对算法进行改进优化,提高算法... 多核处理器,尤其是单芯片多处理器(chip multi-processor,CMP)能够提供强大的共享内存的并行资源,然而单核处理器上的程序和算法并不能充分利用多核架构提供的并行计算资源,因此必须针对多核体系架构特点,对算法进行改进优化,提高算法的执行性能。以优化程序局部性、减少cache访问冲突、提高线程并行度、充分利用单指令多数据流(single instruction multipledata,SIMD)并行和带宽优化等几方面为出发点,归纳和分析了多核处理器上数据处理算法的相关优化策略,并对多核算法进行了总结评述。最后阐述了该领域亟待解决的诸多问题,展望了未来的研究发展方向。 展开更多
关键词 多核 单芯片多处理器(CMP) 数据级别并行(DLP) 线程级别并行(TLP) 单指令多数据流(SIMD)
在线阅读 下载PDF
多核多线程处理器的随机测试流量生成技术
13
作者 刘瑞东 安克 张烁 《计算机工程》 CAS CSCD 北大核心 2009年第10期95-97,100,共4页
以可编程多核多线程处理器IXP2400为例,围绕随机测试流量的生成问题进行讨论,推导出随机测试流量生成公式,利用分解法对GI/G/m/∞/FCFS多类型客户输入开放排队网络求解,给出输出流到达时间间隔变异系数的求解方法,通过控制测试帧间时延... 以可编程多核多线程处理器IXP2400为例,围绕随机测试流量的生成问题进行讨论,推导出随机测试流量生成公式,利用分解法对GI/G/m/∞/FCFS多类型客户输入开放排队网络求解,给出输出流到达时间间隔变异系数的求解方法,通过控制测试帧间时延使得生成的测试流量符合多种概率分布。提出的技术应用于"基于IXP2400的网络测试系统",并对其进行测试,实验验证了该技术的可用性及有效性。 展开更多
关键词 多核多线程处理器 排队网络 测试流量 变异系数
在线阅读 下载PDF
多核多线程处理器XLR732的多核间通信
14
作者 张国杰 张毅 《重庆工学院学报(自然科学版)》 2008年第10期148-152,共5页
介绍了CMP、SMP处理器与多核多线程处理器的特点,然后以多核多线程处理器XLR732为例,分析对比了该处理器几种可用的核间通信机制,提出其适用范围,最后在一款使用该处理器的网络设备中实现了多核间通信方案.
关键词 多核多线程处理器 XIR732 核间通信
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部