期刊文献+
共找到145篇文章
< 1 2 8 >
每页显示 20 50 100
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:3
1
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
在线阅读 下载PDF
基于Cortex-M3处理器的ZigBee自组网的设计 被引量:2
2
作者 裴菊静 王经卓 +1 位作者 董自键 许红艳 《核电子学与探测技术》 CAS CSCD 北大核心 2013年第4期519-521,466,共4页
无线传感器网络是物联网的应用基础,通过ZigBee技术使物与物之间能够通信,达到全方位覆盖、移动点覆盖的目标。Cortex-M3处理器具有极高的运算能力和极强的中断响应能力,满足了ZigBee通信程序设计的要求。论文介绍了ZigBee组网设计中芯... 无线传感器网络是物联网的应用基础,通过ZigBee技术使物与物之间能够通信,达到全方位覆盖、移动点覆盖的目标。Cortex-M3处理器具有极高的运算能力和极强的中断响应能力,满足了ZigBee通信程序设计的要求。论文介绍了ZigBee组网设计中芯片的性能和无线传感器网络节点通信的实现以及在实际中的应用。 展开更多
关键词 cortex—M3 ZIGBEE 物联网 无线传感器网络
在线阅读 下载PDF
基于ARM处理器的MP3播放器分析与实现 被引量:17
3
作者 王道乾 刘定智 文俊浩 《计算机工程与设计》 CSCD 北大核心 2007年第7期1595-1597,共3页
提出了一种基于ARM处理器的MP3播放器的设计方法。此播放器采用ARM体系结构的ARM7作为系统控制器,利用USB接口下载MP3歌曲,用Compactflashcard存贮MP3文件。用UML详细描述了嵌入式MP3播放器的开发过程,包括功能分析、硬件设计、软件设... 提出了一种基于ARM处理器的MP3播放器的设计方法。此播放器采用ARM体系结构的ARM7作为系统控制器,利用USB接口下载MP3歌曲,用Compactflashcard存贮MP3文件。用UML详细描述了嵌入式MP3播放器的开发过程,包括功能分析、硬件设计、软件设计、软件实现、系统编译、移植等方面。 展开更多
关键词 MP3播放器 处理器 建模语言 嵌入式
在线阅读 下载PDF
基于S3C2440处理器系统的数字图像处理技术和嵌入式技术结合机制 被引量:6
4
作者 李蓉 邹昆 马慧 《现代电子技术》 北大核心 2016年第23期55-57,62,共4页
研究基于S3C2440处理器系统的数字图像处理技术和嵌入式技术的结合机制。通过对S3C2440处理器系统进行分析,结合数字图像处理技术和嵌入式技术,优化设计出图像处理系统,提升系统应用效益。结果证实,基于S3C2440处理器系统,结合应用数字... 研究基于S3C2440处理器系统的数字图像处理技术和嵌入式技术的结合机制。通过对S3C2440处理器系统进行分析,结合数字图像处理技术和嵌入式技术,优化设计出图像处理系统,提升系统应用效益。结果证实,基于S3C2440处理器系统,结合应用数字图像处理技术与嵌入式技术,使系统处理数字图像的精度提升了12.0%,可以自动识别出图像的形状、颜色、大小等信息。结论表明,基于S3C2440处理器系统,优化设计数字图像处理技术、嵌入式技术的结合机制,对提升图像信息处理精度,发挥了积极的影响。 展开更多
关键词 图像处理系统 数字图像处理技术 S3C2440处理器 嵌入式技术
在线阅读 下载PDF
基于龙芯3B处理器的Linpack优化实现 被引量:3
5
作者 刘刚 张恒 +1 位作者 张滇 毛睿 《深圳大学学报(理工版)》 EI CAS 北大核心 2014年第3期286-292,共7页
HPL是高性能计算广泛采用的Linpack测试软件包.针对龙芯3B处理器体系结构的特点,为Linpack中的核心部分——矩阵乘法设计矩阵分块策略,利用龙芯3B的cache锁机制将频繁调用的数据分块锁在cache中,从而显著降低cache缺失率.同时为龙芯3B... HPL是高性能计算广泛采用的Linpack测试软件包.针对龙芯3B处理器体系结构的特点,为Linpack中的核心部分——矩阵乘法设计矩阵分块策略,利用龙芯3B的cache锁机制将频繁调用的数据分块锁在cache中,从而显著降低cache缺失率.同时为龙芯3B处理器中的访存加速部件设计了高效的预取算法,以实现计算时间掩盖访存时间.另外,分别对Linpack所调用的dtrsm和行交换等热点函数进行优化,并通过参数训练来优化Linpack参数.实验结果表明,在龙芯3B处理器上,单节点4核以及双节点8核的Linpack实测性能均达到理论峰值的60%左右,优化后的Linpack性能较优化前提升了10倍左右. 展开更多
关键词 计算机系统结构 龙芯3B处理器 线性系统软件包 矩阵乘法 数据预取
在线阅读 下载PDF
基于3G终端的双处理器间的通信模块设计 被引量:1
6
作者 刘红海 侯向华 蒋云良 《计算机应用与软件》 CSCD 2009年第2期28-30,共3页
在现在的手机终端中,由于视频、音频的编解码需要占用大量的CPU时间,因此在3G终端中再增加一个CPU来进行多媒体信息的处理成为必然。通过主CPU上运行多媒体的编解码程序,而从CPU上运行视频采集程序,那么双CPU间的数据的发送和接收则是... 在现在的手机终端中,由于视频、音频的编解码需要占用大量的CPU时间,因此在3G终端中再增加一个CPU来进行多媒体信息的处理成为必然。通过主CPU上运行多媒体的编解码程序,而从CPU上运行视频采集程序,那么双CPU间的数据的发送和接收则是通信模块所要解决的核心问题。通过主从CPU之间约定特定的消息来实现主CPU对从CPU的控制,而从CPU对主CPU的定时和携带数据满足固定大小这两种反馈机制有效解决了双CPU间的通信问题。 展开更多
关键词 3G 处理器 消息泵
在线阅读 下载PDF
拖拉机助力转向控制策略研究—基于3C2410微处理器 被引量:3
7
作者 高瑞敏 《农机化研究》 北大核心 2023年第9期260-264,共5页
为了改善拖拉机转向困难,保证车辆行驶的安全性,提出了一种基于3C2410微处理器的拖拉机助力转向控制策略,可实现拖拉机方向盘转向的精准控制。试验结果表明:系统方向盘助力电流可以快速跟随方向盘变化,给方向盘转向提供助力,说明系统助... 为了改善拖拉机转向困难,保证车辆行驶的安全性,提出了一种基于3C2410微处理器的拖拉机助力转向控制策略,可实现拖拉机方向盘转向的精准控制。试验结果表明:系统方向盘助力电流可以快速跟随方向盘变化,给方向盘转向提供助力,说明系统助力电机跟随性能好,验证了系统的可行性和可靠性。 展开更多
关键词 拖拉机 3C2410微处理器 助力转向 方向盘
在线阅读 下载PDF
FT1500处理器中仿真驱动的DDR3封装设计
8
作者 黎铁军 孙岩 +1 位作者 邹京 张秀峰 《计算机工程与科学》 CSCD 北大核心 2014年第4期579-583,共5页
针对高性能微处理器封装中DDR3的信号完整性和电源完整性问题,提出了仿真驱动的封装设计方法:在设计之初通过前仿真制定准确的设计规则和目标,在设计过程中通过仿真指导设计优化,在设计完成后用后仿真验证设计结果。应用该方法设计了FT1... 针对高性能微处理器封装中DDR3的信号完整性和电源完整性问题,提出了仿真驱动的封装设计方法:在设计之初通过前仿真制定准确的设计规则和目标,在设计过程中通过仿真指导设计优化,在设计完成后用后仿真验证设计结果。应用该方法设计了FT1500芯片封装,实测结果表明,该芯片的DDR3接口可以稳定工作在1 400Mbps。 展开更多
关键词 高性能微处理器 DDR3 信号完整性 电源完整性 封装设计
在线阅读 下载PDF
数字音频AC-3比特流分析处理器的FPGA实现
9
作者 徐华结 郭立 《电子测量技术》 2008年第1期142-144,共3页
通过对AC-3的标准比特流语法进行分析,设计了一种适用于AC-3的比特流分析处理器。该分析处理器从经过CRC校验的AC-3比特帧流中解帧格式化以分离出用于解码所需的比特流信息,然后分配一定的地址空间并将其送入音频缓冲寄存器组中以供后... 通过对AC-3的标准比特流语法进行分析,设计了一种适用于AC-3的比特流分析处理器。该分析处理器从经过CRC校验的AC-3比特帧流中解帧格式化以分离出用于解码所需的比特流信息,然后分配一定的地址空间并将其送入音频缓冲寄存器组中以供后续电路的进一步处理。本文最后在FPGA上实现了AC-3比特流分析处理器的设计与仿真,仿真结果表明40 ns内即可完成一个标准的比特流帧的分析,能满足实时性要求。 展开更多
关键词 FPGA 数字音频AC-3 比特流分析处理器
在线阅读 下载PDF
基于PXA3xx处理器的NAND闪存DMA方案 被引量:5
10
作者 史斌 丁志刚 张伟宏 《计算机应用》 CSCD 北大核心 2009年第8期2136-2138,2142,共4页
针对PXA3xx处理器的特性,提出一种DMA控制器系统架构方案,并在此架构上结合嵌入式Linux操作系统实现NAND Flash的底层驱动程序。重点设计了基于JFFS2文件系统的读操作测试方案,测试结果表明,DMA方式能够有效降低CPU处理负载,缓解NAND Fl... 针对PXA3xx处理器的特性,提出一种DMA控制器系统架构方案,并在此架构上结合嵌入式Linux操作系统实现NAND Flash的底层驱动程序。重点设计了基于JFFS2文件系统的读操作测试方案,测试结果表明,DMA方式能够有效降低CPU处理负载,缓解NAND Flash性能瓶颈。 展开更多
关键词 PXA3xx处理器 NAND 直接存储器存取
在线阅读 下载PDF
基于龙芯3A处理器的跨平台二进制翻译器QEMU的优化研究 被引量:2
11
作者 张弢 陈香兰 《计算机应用与软件》 CSCD 北大核心 2014年第7期259-262,共4页
动态二进制翻译与优化技术推动了计算机体系结构的发展。以龙芯3A处理器为实现平台,在系统级模拟模式下,针对原二进制翻译器QEMU寄存器分配方案提出跨平台优化方法,同时引入热路径对动态二进制翻译过程中冗余代码进行优化。实验结果表明... 动态二进制翻译与优化技术推动了计算机体系结构的发展。以龙芯3A处理器为实现平台,在系统级模拟模式下,针对原二进制翻译器QEMU寄存器分配方案提出跨平台优化方法,同时引入热路径对动态二进制翻译过程中冗余代码进行优化。实验结果表明,经过优化后,在龙芯3A平台上通过QEMU翻译器运行Windows XP操作系统,其常用X86应用程序的运行速度得到可观提升。以上研究对基于龙芯平台的系统级跨平台应用程序的实用化具有深远的现实意义。 展开更多
关键词 龙芯3A处理器 二进制翻译 寄存器 热路径 动态优化
在线阅读 下载PDF
基于ARM946E处理器的MP3解码优化设计 被引量:4
12
作者 胡瑞明 耿相铭 《现代电子技术》 2009年第6期172-174,177,共4页
对于消费类电子产品来说,在不增加硬件成本的情况下实现MP3软解码具有较大的现实意义。为了额外增加产品的MP3功能,在分析MPEG I Audio Layer3解码算法的基础上,提出基于ARM946E处理器的MP3解码优化设计方法,其主要包括解码算法和代码实... 对于消费类电子产品来说,在不增加硬件成本的情况下实现MP3软解码具有较大的现实意义。为了额外增加产品的MP3功能,在分析MPEG I Audio Layer3解码算法的基础上,提出基于ARM946E处理器的MP3解码优化设计方法,其主要包括解码算法和代码实现2方面,并根据ARM946E处理器支持DSP扩展指令的特点进行代码优化,通过在硬件平台上的运行验证了软件优化的正确性,并取得了比较好的实时解码效果。 展开更多
关键词 MP3解码器 ARM946E处理器 ARM-DSP扩展指令 内联函数
在线阅读 下载PDF
ARM7TDMI内核微处理器S3C4510B中断开发方法 被引量:2
13
作者 秦洪新 王忠义 《电子测量技术》 2004年第3期45-46,共2页
文中给出 Samsung 的 ARM7TDMI 内核的16/32位微处理器 S3C4510B 的中断的开发方法。
关键词 ARM7TDMI 处理器 S3C4510B 中断服务程序
在线阅读 下载PDF
基于H^3MP-16多核处理器片上软件优化
14
作者 潘鹏 潘红兵 +2 位作者 易伟 李丽 高明伦 《电子测量技术》 2010年第6期74-78,共5页
概述了本项目组自主研发设计的H3MP-16多核处理器演示系统软硬件架构,并基于这一特定的系统平台,完成了两幅图像渐入渐出的Fade in Fade out算法。为了满足系统的实时性要求,讨论了针对该算法的一些优化方法,实现了基于NoC的层次化多核... 概述了本项目组自主研发设计的H3MP-16多核处理器演示系统软硬件架构,并基于这一特定的系统平台,完成了两幅图像渐入渐出的Fade in Fade out算法。为了满足系统的实时性要求,讨论了针对该算法的一些优化方法,实现了基于NoC的层次化多核处理器系统片上软件效率的提高,使得演示系统取得了满意的演示效果。 展开更多
关键词 H3MP-16多核处理器 渐入渐出算法 NOC
在线阅读 下载PDF
矩阵乘协处理器上BLAS level-3运算的设计
15
作者 贾迅 钱磊 +2 位作者 原昊 张昆 吴东 《计算机工程与科学》 CSCD 北大核心 2020年第11期1913-1921,共9页
BLAS level-3运算的计算复杂度较高,其往往成为应用的性能瓶颈。采用线性阵列结构的矩阵乘协处理器可实现高性能、高效的矩阵乘运算。在矩阵乘协处理器上高效实现BLAS level-3运算,对大规模科学与工程仿真应用的计算加速至关重要。以矩... BLAS level-3运算的计算复杂度较高,其往往成为应用的性能瓶颈。采用线性阵列结构的矩阵乘协处理器可实现高性能、高效的矩阵乘运算。在矩阵乘协处理器上高效实现BLAS level-3运算,对大规模科学与工程仿真应用的计算加速至关重要。以矩阵乘为核心运算,结合线性阵列的结构特点,提出了矩阵乘协处理器上BLAS level-3运算的设计,并构建了相应的性能分析模型。实验结果表明,矩阵乘协处理器上SYMM、SYRK和TRMM运算的计算效率分别达到了99%,98%和80%,与SW26010和NVIDIA V100 GPU上矩阵运算的计算效率相比,最高提升了31%。 展开更多
关键词 线性阵列 矩阵乘 处理器 BLAS level-3
在线阅读 下载PDF
133MHz外频微处理器大现身
16
作者 刘大伟 《现代电子技术》 1999年第12期30-34,共5页
电脑处理器的发展速度用一日千里这个成语来形容,真是再适合不过了,犹记得我在电脑公司当工程师时,客户为选Pentium 100还是Pentium 133伤透了脑筋(价差很大),那时CPU的外频也不过是50、60或66MHz而已,如今的PC133规格,外频可以高达133M... 电脑处理器的发展速度用一日千里这个成语来形容,真是再适合不过了,犹记得我在电脑公司当工程师时,客户为选Pentium 100还是Pentium 133伤透了脑筋(价差很大),那时CPU的外频也不过是50、60或66MHz而已,如今的PC133规格,外频可以高达133MHz,真可说是天壤之别啊! 展开更多
关键词 处理器 外频 CYRIX PentiumⅢ AMD K6-2 K6-3
在线阅读 下载PDF
图形处理器流水线数据压缩技术研究综述 被引量:11
17
作者 韩立敏 田泽 +2 位作者 张骏 郑新建 任向隆 《计算机应用研究》 CSCD 北大核心 2018年第3期648-653,共6页
提高功耗效率是高端GPU的关键设计目标之一。在3D图形渲染流水线的多个阶段,使用数据压缩技术能够显著减少GPU片外存储器的访问量,从而达到提高图形绘制性能和降低功耗的效果。为了对图形处理器流水线数据压缩技术的应用现状进行总结和... 提高功耗效率是高端GPU的关键设计目标之一。在3D图形渲染流水线的多个阶段,使用数据压缩技术能够显著减少GPU片外存储器的访问量,从而达到提高图形绘制性能和降低功耗的效果。为了对图形处理器流水线数据压缩技术的应用现状进行总结和分析,立足于GPU图形渲染流水线和存储系统的结构特征,归纳了各种缓冲区对象、纹理数据专用压缩算法的关键特性;分析了图形流水线数据压缩技术的研究现状、不足与挑战;并基于应用需求指明GPU流水线数据压缩技术进一步的研究内容。 展开更多
关键词 图形处理器 数据压缩 3D渲染流水线 功耗效率
在线阅读 下载PDF
一个面向移动设备的可编程顶点处理器的设计 被引量:1
18
作者 杨毅 郭立 +1 位作者 史鸿声 季建 《中国科学技术大学学报》 CAS CSCD 北大核心 2010年第2期140-145,共6页
为了取代传统的功能单一、电路复杂的固定功能的几何单元电路,设计了一个高性能的面向移动设备的可编程顶点处理器(VPU).该处理器采用了定点的4路单指令多数据(SIMD)的运算结构和具备数据旁路功能的流水线结构,并具有一个高精度的特殊... 为了取代传统的功能单一、电路复杂的固定功能的几何单元电路,设计了一个高性能的面向移动设备的可编程顶点处理器(VPU).该处理器采用了定点的4路单指令多数据(SIMD)的运算结构和具备数据旁路功能的流水线结构,并具有一个高精度的特殊函数求值单元.这些结构加快了处理器的运算速度,并有效减少了电路面积.该处理器已经在FPGA平台上实现.实验结果表明,该处理器能够完成几何部分的计算功能,并且允许用户编程实现自定义的变换模型和光照模型,以实现各种特殊效果. 展开更多
关键词 3D图形处理 顶点处理器 SIMD FPGA
在线阅读 下载PDF
基于ARM920T微处理器的IDE硬盘接口设计与实现 被引量:5
19
作者 何明聪 胡继承 孙世磊 《计算机工程与设计》 CSCD 北大核心 2005年第3期768-769,786,共3页
为了在嵌入式系统中实现对IDE 硬盘的读写, 介绍了基于ARM920T 处理器的嵌入式系统结构,设计了系统与IDE硬盘的接口电路,分析并改造了Linux操作系统下的硬盘驱动,最终在S3C2410 开发板上实现了对硬盘的稳定快速的读写。
关键词 IDE硬盘 ARM920T 嵌入式系统 读写 处理器 S3C2410 接口设计 开发板 接口电路 驱动
在线阅读 下载PDF
IGES后处理器的实现研究 被引量:2
20
作者 张毅 李昌华 《现代电子技术》 2009年第5期119-121,130,共4页
CAx之间的差异性,导致产品数据信息难以进行共享、集成。IGES作为一个对此解决方案的规范,是一种实现不同CAD/CAM系统之间数据转换的中性文件标准规范。IGES后处理器是一种为了将数据从该规格定义的交换文件格式,翻译成本地CAD系统的数... CAx之间的差异性,导致产品数据信息难以进行共享、集成。IGES作为一个对此解决方案的规范,是一种实现不同CAD/CAM系统之间数据转换的中性文件标准规范。IGES后处理器是一种为了将数据从该规格定义的交换文件格式,翻译成本地CAD系统的数据、其他图形系统的数据或另标准交换格式的工具。介绍IGES的主要特点以及使用Direct3D技术实现IGES的CAD/CAM后置处理器设计思路与基本过程。 展开更多
关键词 IGES CAX D3D 处理器
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部