检索结果-维普期刊中文期刊服务平台

H.264编码器的SSE2指令级优化被引量：1: 1; 作者王琰向校萱祁燕《计算机工程与应用》 CSCD 2012年第10期217-221,共5页; H.264视频编码标准采用了很多新技术,具有更优越的编码效率,同时也增加了计算复杂度,无法满足实时应用。由于单指令多数据扩展指令集2(SSE2)的并行运算能力可以提高计算机对多媒体数据的实时处理。文中主要采用了SSE2对H.264中的一些耗... 展开更多; 关键词 H.264编码绝对误差和整数DCT变换变换绝对差值总和单指令多数据扩展指令集2(SSE2); 在线阅读下载PDF 职称材料

等效环路时域有限差分算法及其核内加速技术: 2; 作者刘立国莫锦军 +1 位作者付云起袁乃昌《系统工程与电子技术》 EI CSCD 北大核心 2013年第6期1138-1142,共5页; 提出了一种新颖的有限差分算法——等效环路有限差分算法。这种算法借鉴传输线算法的思想,在Yee氏网格中引入集总元件的概念,由于其良好的物理思想,可实现对于色散介质的仿真计算。单指令多数据指令集(streaming single-instruction mul... 展开更多; 关键词等效环路时域有限差分加速比单指令多数据指令集集总元件; 在线阅读下载PDF 职称材料

一种面向申威26010处理器的分布式传递锁机制: 3; 作者李明亮庞建民岳峰《计算机科学》 CSCD 北大核心 2022年第10期52-58,共7页; 在并行程序中,互斥锁通常被用来避免访问共享资源时发生冲突。申威26010处理器是“神威·太湖之光”超级计算机采用的异构众核处理器,众核之间并无硬件互斥锁机制。其开发人员基于原子操作实现了一种软件互斥锁,但是该软件锁在激烈... 展开更多; 关键词申威26010处理器混合分布锁锁传递单指令多数据指令寄存器通信; 在线阅读下载PDF 职称材料

面向飞腾迈创数字处理器的内核代码自动生成框架被引量：2: 4; 作者赵宵磊陈照云 +2 位作者时洋文梅张春元《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1232-1245,共14页; 数字信号处理器(digital signal processor,DSP)通常采用超长指令字(very long instruction word,VLIW)和单指令多数据(single instruction multiple data,SIMD)的架构来提升处理器整体计算性能,从而适用于高性能计算、图像处理、嵌入... 展开更多; 关键词内核代码生成超长指令字-单指令多数据循环分块标量-向量协同数字信号处理器; 在线阅读下载PDF 职称材料

题名H.264编码器的SSE2指令级优化被引量：1: 1; 作者王琰向校萱祁燕; 机构沈阳理工大学信息科学与工程学院; 出处《计算机工程与应用》 CSCD 2012年第10期217-221,共5页; 基金辽宁省高等学校科技计划项目(No.1810162); 文摘 H.264视频编码标准采用了很多新技术,具有更优越的编码效率,同时也增加了计算复杂度,无法满足实时应用。由于单指令多数据扩展指令集2(SSE2)的并行运算能力可以提高计算机对多媒体数据的实时处理。文中主要采用了SSE2对H.264中的一些耗时较多的关键模块,例如整数像素运动估计中计算SAD、整数DCT变换、量化、Hadamard变换以及亚像素运动估计中计算SATD进行了指令级优化。实验结果表明,经过优化后,在保持视频图像质量的前提下,相应模块运行速度得到了提高,使H.264编码器整体的编码速度较好地满足实时要求。; 关键词 H.264编码绝对误差和整数DCT变换变换绝对差值总和单指令多数据扩展指令集2(SSE2); Keywords H.264 encoding Sum of Absolute Difference(SAD) integer DCT Sum of Absolute Transformed Dif-ference(SATD) Streaming SIMD Extensions 2(SSE2); 分类号 TN919.81 [电子电信—通信与信息系统]; 在线阅读下载PDF 职称材料

题名等效环路时域有限差分算法及其核内加速技术: 2; 作者刘立国莫锦军付云起袁乃昌; 机构国防科学技术大学电子科学与工程学院; 出处《系统工程与电子技术》 EI CSCD 北大核心 2013年第6期1138-1142,共5页; 基金国家自然科学基金(60871069) 新世纪优秀人才支持计划(NCET-10-0894)资助课题; 文摘提出了一种新颖的有限差分算法——等效环路有限差分算法。这种算法借鉴传输线算法的思想,在Yee氏网格中引入集总元件的概念,由于其良好的物理思想,可实现对于色散介质的仿真计算。单指令多数据指令集(streaming single-instruction multiple-data extensions,SSE)技术是Intel公司提出的核内并行加速技术,普通的个人电脑都支持这种技术。结合SSE技术,可实现对算法的有效加速,这种加速技术无须硬件的改进即可实现理论上最高4倍的加速。分别利用等效环路有限差分算法、普通有限差分算法仿真计算了平面倒F天线(pla-nar inverted-F antenna,PIFA)的端口反射系数和天线方向图,并与实测数据进行了比较,验证了算法的正确性。在实际的运算中,使用SSE技术普遍可实现2倍以上的加速比,加速算法的有效性得到了验证。; 关键词等效环路时域有限差分加速比单指令多数据指令集集总元件; Keywords equivalent circuit finite difference time domain （FDTD） speedup ratio streaming single in struction multiple-data extensions （SSE） lumped element; 分类号 O411 [理学—理论物理]; 在线阅读下载PDF 职称材料

题名一种面向申威26010处理器的分布式传递锁机制: 3; 作者李明亮庞建民岳峰; 机构数学工程与先进计算国家重点实验室(信息工程大学); 出处《计算机科学》 CSCD 北大核心 2022年第10期52-58,共7页; 基金国家自然科学基金(61472447,61802433,61802435)。; 文摘在并行程序中,互斥锁通常被用来避免访问共享资源时发生冲突。申威26010处理器是“神威·太湖之光”超级计算机采用的异构众核处理器,众核之间并无硬件互斥锁机制。其开发人员基于原子操作实现了一种软件互斥锁,但是该软件锁在激烈锁竞争情况下会产生大量的锁操作开销,影响了并行程序的性能。针对这一问题,提出了一种分布式传递锁机制HDT-LOCK。首先,提出并实现了基于众核上便签存储器和主存的混合分布锁来避免访存拥塞;其次,设计了基于寄存器通信和单指令多数据指令(Single-instruction Multiple-data Instruction)的锁传递机制,以进一步提高HDT-LOCK机制的吞吐量。实验结果表明,与原锁机制相比,所提HDT-LOCK机制避免了访存拥塞,并且可扩展性更佳。此外,锁传递机制使HDT-LOCK的吞吐量提升最高可达5.6倍。; 关键词申威26010处理器混合分布锁锁传递单指令多数据指令寄存器通信; Keywords SW26010 processor Hybrid distributed lock Inter-core passing Single-instruction multiple-data instruction Register communication; 分类号 TP319 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名面向飞腾迈创数字处理器的内核代码自动生成框架被引量：2: 4; 作者赵宵磊陈照云时洋文梅张春元; 机构国防科技大学计算机学院; 出处《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1232-1245,共14页; 基金国家自然科学基金项目(62002366)。; 文摘数字信号处理器(digital signal processor,DSP)通常采用超长指令字(very long instruction word,VLIW)和单指令多数据(single instruction multiple data,SIMD)的架构来提升处理器整体计算性能,从而适用于高性能计算、图像处理、嵌入式系统等各个领域.飞腾迈创数字处理器(FT-Matrix)作为国防科技大学自主研制的高性能通用数字信号处理器,其极致计算性能的体现依赖于对VLIW与SIMD架构特点的充分挖掘.不止是飞腾迈创系列,绝大多数处理器上高度优化的内核代码或核心库函数都依赖于底层汇编级工具或手工开发.然而,手工编写内核算子的开发方法总是需要大量的时间和人力开销来充分释放硬件的性能潜力.尤其是VLIW+SIMD的处理器,专家级汇编开发的难度更为突出.针对这些问题,提出一种面向飞腾迈创数字处理器的高性能的内核代码自动生成框架(automatic kernel code-generation framework on FT-Matrix),将飞腾迈创处理器的架构特性引入到多层次的内核代码优化方法中.该框架包括3层优化组件:自适应循环分块、标向量协同的自动向量化和细粒度的指令级优化.该框架可以根据硬件的内存层次结构和内核的数据布局自动搜索最优循环分块参数,并进一步引入标量-向量单元协同的自动向量化指令选择与数据排布,以提高内核代码执行时的数据复用和并行性.此外,该框架提供了类汇编的中间表示,以应用各种指令级优化来探索更多指令级并行性(ILP)的优化空间,同时也为其他硬件平台提供了后端快速接入和自适应代码生成的模块,以实现高效内核代码开发的敏捷设计.实验表明,该框架生成的内核基准测试代码的平均性能是目标-数字信号处理器(DSP)--的手工函数库的3.25倍,是使用普通向量C语言编写的内核代码的20.62倍.; 关键词内核代码生成超长指令字-单指令多数据循环分块标量-向量协同数字信号处理器; Keywords kernel code generation VLIW-SIMD loop tiling scalar-vector cooperation digital signal processor(DSP); 分类号 TP314 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	H.264编码器的SSE2指令级优化	王琰向校萱祁燕	《计算机工程与应用》 CSCD	2012	1	在线阅读下载PDF 职称材料
2	等效环路时域有限差分算法及其核内加速技术	刘立国莫锦军付云起袁乃昌	《系统工程与电子技术》 EI CSCD 北大核心	2013	0	在线阅读下载PDF 职称材料
3	一种面向申威26010处理器的分布式传递锁机制	李明亮庞建民岳峰	《计算机科学》 CSCD 北大核心	2022	0	在线阅读下载PDF 职称材料
4	面向飞腾迈创数字处理器的内核代码自动生成框架	赵宵磊陈照云时洋文梅张春元	《计算机研究与发展》 EI CSCD 北大核心	2023	2	在线阅读下载PDF 职称材料