期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于SSE指令的大内存快速拷贝 被引量:1
1
作者 钱昌松 刘志刚 刘代志 《计算机应用研究》 CSCD 北大核心 2005年第2期113-114,120,共3页
在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各... 在深入研究单指令多数据流扩展指令集(StreamingSIMDExtensions,SSE)数据传输指令操作特点的基础上,充分考虑了数据预取、数据对齐、CPU缓存和新的128位寄存器等因素,在VisualC++平台上用嵌入汇编开发了内存拷贝函数。通过实验分析了各内存拷贝函数拷贝速度与拷贝内存量之间的对应关系。 展开更多
关键词 单指令多数据流扩展指令集 内存拷贝 MMX 代码优化
在线阅读 下载PDF
H.264编码器的SSE2指令级优化 被引量:2
2
作者 王琰 向校萱 祁燕 《计算机工程与应用》 CSCD 2012年第10期217-221,共5页
H.264视频编码标准采用了很多新技术,具有更优越的编码效率,同时也增加了计算复杂度,无法满足实时应用。由于单指令多数据扩展指令集2(SSE2)的并行运算能力可以提高计算机对多媒体数据的实时处理。文中主要采用了SSE2对H.264中的一些耗... H.264视频编码标准采用了很多新技术,具有更优越的编码效率,同时也增加了计算复杂度,无法满足实时应用。由于单指令多数据扩展指令集2(SSE2)的并行运算能力可以提高计算机对多媒体数据的实时处理。文中主要采用了SSE2对H.264中的一些耗时较多的关键模块,例如整数像素运动估计中计算SAD、整数DCT变换、量化、Hadamard变换以及亚像素运动估计中计算SATD进行了指令级优化。实验结果表明,经过优化后,在保持视频图像质量的前提下,相应模块运行速度得到了提高,使H.264编码器整体的编码速度较好地满足实时要求。 展开更多
关键词 H.264编码 绝对误差和 整数DCT变换 变换绝对差值总和 单指令多数据扩展指令集2(sse2)
在线阅读 下载PDF
一种电子输运的矢量化Monte Carlo模拟方法 被引量:1
3
作者 翁学军 罗立民 汪家旺 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2002年第2期193-196,共4页
给出了一种采用SSE(StreamingSIMDExtensions)技术实现矢量化模拟电子在人体组织中输运的蒙特卡罗方法 ,并对一个计算放疗剂量分布的蒙特卡罗代码DPM进行了实施 ,将DPM模拟电子的方式由原来的一个个顺序模拟改为一次模拟 4个电子 ,这 4... 给出了一种采用SSE(StreamingSIMDExtensions)技术实现矢量化模拟电子在人体组织中输运的蒙特卡罗方法 ,并对一个计算放疗剂量分布的蒙特卡罗代码DPM进行了实施 ,将DPM模拟电子的方式由原来的一个个顺序模拟改为一次模拟 4个电子 ,这 4个电子进行同一个动作时 ,这部分程序可借助于SSE指令实现并行处理 .计算结果显示 :在不增加任何硬件成本的情况下 ,可以提高计算电子剂量分布的速度 1 .8倍左右 . 展开更多
关键词 放射治疗 蒙特卡罗模拟 剂量分布计算 sse技术 DPM代码 电子输运 矢量化模拟 人体组织
在线阅读 下载PDF
FDTD算法的三级并行实现 被引量:1
4
作者 张立红 余文华 《计算机工程》 CAS CSCD 北大核心 2011年第S1期333-335,共3页
传统的并行FDTD算法都是基于MPI或OpenMP或MPI+OpenMP的一级或两级并行算法。为加速基于MPI+OpenMP的两级并行FDTD算法,把基于SSE指令集的并行加速技术引入到FDTD算法中,采用基于MPI+OpenMP+SSE指令集的三级并行加速技术。在PC集群上对C... 传统的并行FDTD算法都是基于MPI或OpenMP或MPI+OpenMP的一级或两级并行算法。为加速基于MPI+OpenMP的两级并行FDTD算法,把基于SSE指令集的并行加速技术引入到FDTD算法中,采用基于MPI+OpenMP+SSE指令集的三级并行加速技术。在PC集群上对CPML吸收边界下点源在真空中传播的理想情况进行加速测试。基于SSE指令集的加速技术理想加速比为4,实验中在网格数为200 200 200情况下得到的加速比为2.44,加速效果较好。 展开更多
关键词 时域有限差分 消息传递接口 OpenMP共享存储编程 sse指令集 并行
在线阅读 下载PDF
等效环路时域有限差分算法及其核内加速技术
5
作者 刘立国 莫锦军 +1 位作者 付云起 袁乃昌 《系统工程与电子技术》 EI CSCD 北大核心 2013年第6期1138-1142,共5页
提出了一种新颖的有限差分算法——等效环路有限差分算法。这种算法借鉴传输线算法的思想,在Yee氏网格中引入集总元件的概念,由于其良好的物理思想,可实现对于色散介质的仿真计算。单指令多数据指令集(streaming single-instruction mul... 提出了一种新颖的有限差分算法——等效环路有限差分算法。这种算法借鉴传输线算法的思想,在Yee氏网格中引入集总元件的概念,由于其良好的物理思想,可实现对于色散介质的仿真计算。单指令多数据指令集(streaming single-instruction multiple-data extensions,SSE)技术是Intel公司提出的核内并行加速技术,普通的个人电脑都支持这种技术。结合SSE技术,可实现对算法的有效加速,这种加速技术无须硬件的改进即可实现理论上最高4倍的加速。分别利用等效环路有限差分算法、普通有限差分算法仿真计算了平面倒F天线(pla-nar inverted-F antenna,PIFA)的端口反射系数和天线方向图,并与实测数据进行了比较,验证了算法的正确性。在实际的运算中,使用SSE技术普遍可实现2倍以上的加速比,加速算法的有效性得到了验证。 展开更多
关键词 等效环路 时域有限差分 加速比 单指令多数据指令集 集总元件
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部