期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
龙芯3号多核处理器的低功耗测试技术 被引量:2
1
作者 齐子初 刘慧 +1 位作者 石小兵 韩银和 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第11期2021-2028,2036,共9页
龙芯3号是一款低功耗处理器芯片,要求测试时保持较低功耗.为了解决低功耗测试的问题,对龙芯3号测试功耗进行了细致分析,提出一套考虑测试时间和测试开销的低功耗测试方案,并对整套方案中的各种技术在功耗、面积、时延以及测试时间等方... 龙芯3号是一款低功耗处理器芯片,要求测试时保持较低功耗.为了解决低功耗测试的问题,对龙芯3号测试功耗进行了细致分析,提出一套考虑测试时间和测试开销的低功耗测试方案,并对整套方案中的各种技术在功耗、面积、时延以及测试时间等方面进行了详细分析.针对龙芯3号测试功耗主要消耗在逻辑电路的翻转和测试时钟网络上的特点,采用IP级测试分割技术减少逻辑电路和时钟网络的翻转;采用门控时钟对局部扫描触发器进行控制减少单核扫描捕获期间的逻辑翻转,并采用了阻隔门技术、不关心位(X位)填充技术减少单核扫描移位的逻辑翻转.实验结果表明,龙芯3号4核处理器达到了预定小于15W的测试平均功耗需求,单个IP核最大平均功耗降低为6W左右,约是正常功能平均功耗的40%,有效地保证了芯片的测试质量. 展开更多
关键词 低功耗测试 微处理器测试 多核微处理器测试 基于IP的测试
在线阅读 下载PDF
基于模型树的多核设计空间探索技术 被引量:2
2
作者 郭崎 陈天石 陈云霁 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2012年第6期710-720,共11页
处理器设计面临的重要挑战是如何在庞大的设计空间中高效地找到满足约束的设计结构,而预测模型方法是探索复杂设计空间的重要方法.为了提高预测模型的实用性,提出一种基于模型树的多核设计空间探索技术.首先对整个设计空间中部分设计结... 处理器设计面临的重要挑战是如何在庞大的设计空间中高效地找到满足约束的设计结构,而预测模型方法是探索复杂设计空间的重要方法.为了提高预测模型的实用性,提出一种基于模型树的多核设计空间探索技术.首先对整个设计空间中部分设计结构进行采样模拟,然后通过模型树算法构建设计参数与处理器响应之间的预测模型,最后通过该模型预测出其他设计结构的响应以找到满足约束的最优设计.实验结果表明,与现有的基于支持向量机和人工神经网络的预测模型技术相比,针对性能预测,采用文中技术能够提高74.87%和38.87%的准确度;针对能耗预测,能够提高2.66%和16.82%的准确度. 展开更多
关键词 设计空间探索 多核处理器 预测模型 模型树
在线阅读 下载PDF
处理器验证激励在线筛选技术
3
作者 郭崎 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2012年第5期690-698,共9页
如何生成高质量的验证激励是功能验证中的核心问题之一.随着功能验证的不断进行,验证激励的有效性也随之降低.为了提高验证激励的质量,提出一种在线筛选技术来处理验证激励.该技术采用单分类支持向量机来在线地构建分类器,以对新生成的... 如何生成高质量的验证激励是功能验证中的核心问题之一.随着功能验证的不断进行,验证激励的有效性也随之降低.为了提高验证激励的质量,提出一种在线筛选技术来处理验证激励.该技术采用单分类支持向量机来在线地构建分类器,以对新生成的验证激励是否冗余进行预测,如果是冗余的,则不进入仿真阶段进行仿真.在此基础上,进一步提出指令序列核函数来衡量不同指令序列的相似程度.实验结果表明,与约束随机生成技术相比,文中技术可以减少约83%的验证激励及79%的验证时间. 展开更多
关键词 功能验证 激励生成 在线学习 功能覆盖率 核函数
在线阅读 下载PDF
面向云计算的多核处理器存储和网络子系统优化设计 被引量:6
4
作者 苏文 王焕东 +1 位作者 台运方 王靖 《高技术通讯》 CAS CSCD 北大核心 2013年第4期360-367,共8页
针对传统多核处理器设计缺乏对虚拟机和典型云服务的支持的问题,分析了云计算数据中心和虚拟机的基本架构和特点,指出数据传输、网络性能、I/O虚拟化是一直未被关注的影响系统性能的关键因素,进而提出了一种改进的多核处理器设计方案。... 针对传统多核处理器设计缺乏对虚拟机和典型云服务的支持的问题,分析了云计算数据中心和虚拟机的基本架构和特点,指出数据传输、网络性能、I/O虚拟化是一直未被关注的影响系统性能的关键因素,进而提出了一种改进的多核处理器设计方案。该方案通过采用片上内存拷贝引擎、改进直接内存访问(DMA)设计、改进直接缓存访问(DCA)设计和采用快速地址转换和远程内存访问(RDMA)技术,来较大地提高存储系统、网络、I/O的性能和系统的并行性。实验表明,该方案实现的单核800MHz处理器千兆以太网络TCP传输带宽较传统方案提高48.2%并达到峰值800Mbps,内存拷贝操作加速比达到14倍以上,快速傅立叶变换(FFT)和矩阵乘法加速比达到2倍以上,同时系统高速缓存效率显著提高。 展开更多
关键词 云计算 多核处理器 网络优化 虚拟机 计算机体系结构
在线阅读 下载PDF
支持V2显示芯片LVDS输出的Linux驱动 被引量:1
5
作者 朱晓静 褚越杰 +1 位作者 胡明昌 李正民 《小型微型计算机系统》 CSCD 北大核心 2010年第10期2105-2107,共3页
采用自主研发的龙芯2F处理器芯片,设计并实现了ETX计算机主板.该主板选用V2显示芯片,支持VGA与LVDS两个显示端口同时显示,分辨率达1600×1200./Linux显示驱动原始代码已经实现了V2显示芯片的VGA显示功能,但对LVDS显示功能的支持尚... 采用自主研发的龙芯2F处理器芯片,设计并实现了ETX计算机主板.该主板选用V2显示芯片,支持VGA与LVDS两个显示端口同时显示,分辨率达1600×1200./Linux显示驱动原始代码已经实现了V2显示芯片的VGA显示功能,但对LVDS显示功能的支持尚不完备.为支持V2显示芯片的LVDS端口输出,需要对Linux显示驱动程序作一系列改进,才能实现上述显示效果.这里介绍在L inux驱动源码中,针对V2显示芯片的LVDS端口输出所作的一系列改进优化工作. 展开更多
关键词 显示芯片 LVDS 双路显示 驱动程序 LINUX内核 改进
在线阅读 下载PDF
多标准视频解码可重构分像素插值结构设计 被引量:1
6
作者 汪文祥 沈海华 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2011年第9期1603-1613,共11页
在各类高清视频解码过程中,分像素插值是计算最为密集的处理环节之一.针对已有分像素插值结构在兼顾性能与灵活性方面所存在的不足,提出一种适用于多标准视频解码处理的可重构分像素插值结构设计.通过分析不同标准的插值计算模式之间的... 在各类高清视频解码过程中,分像素插值是计算最为密集的处理环节之一.针对已有分像素插值结构在兼顾性能与灵活性方面所存在的不足,提出一种适用于多标准视频解码处理的可重构分像素插值结构设计.通过分析不同标准的插值计算模式之间的共性与差异,提出一种新型可重构并串混合滤波结构,其中的数据传输通路、输入/输出数据模式以及滤波计算单元均可进行动态配置,能够支持包括VC-1,H.264/263,AVS和MPEG-1/2/4在内的多种视频标准.实验结果表明,该设计能够完成多标准实时HDTV 1080 p(1920x1088@30 fps)视频解码;同已有工作相比,该设计在同等硅片资源下能够支持更多高清视频编解码标准.该设计目前已实际应用在一款多媒体SoC芯片中. 展开更多
关键词 可重构 视频解码 多标准 分像素插值 高清
在线阅读 下载PDF
一种递归定义的可扩展片上网络拓扑结构 被引量:3
7
作者 朱晓静 《计算机学报》 EI CSCD 北大核心 2011年第5期924-930,共7页
晶体管工艺的持续发展导致片上处理器数的逐渐增多,片上系统的核间通信要求吞吐量高、延时低、可扩展性好,传统的片上总线和crossbar互连结构已无法满足片上系统的通信需求,为此研究者提出新的片上互连结构,称为片上网络.为满足片上网... 晶体管工艺的持续发展导致片上处理器数的逐渐增多,片上系统的核间通信要求吞吐量高、延时低、可扩展性好,传统的片上总线和crossbar互连结构已无法满足片上系统的通信需求,为此研究者提出新的片上互连结构,称为片上网络.为满足片上网络的特有通信需求,提出了一种可扩展的拓扑结构Rgrid及其路由算法DR,它缩短了片上处理器间的平均距离并且比Torus结构容易实现.作者在龙芯用户级模拟器上分别实现Mesh和Rgrid结构,运行Splash2并行测试程序集比较这两种结构的性能优劣.运行程序结果表明,Splash2程序在Rgrid结构中运行得到的IPC比在Mesh结构增加了0.5%~148%,Rgrid结构的平均延时比Mesh小5%~81%. 展开更多
关键词 拓扑结构 片上网络 可扩展 性能优化
在线阅读 下载PDF
场景前颜色缓冲区压缩 被引量:1
8
作者 蒋毅飞 张戈 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第9期1502-1507,共6页
内存带宽通常是计算机图形系统的瓶颈,文中总结了用于降低图形系统带宽开销的常见机制,在纹理压缩算法S3TC基础上,提出场景前颜色缓冲区压缩方法——YCoCg-R CBC.该方法定义了2种颜色缓冲区压缩数据格式,将像素转换到YCoCg-R颜色空间,... 内存带宽通常是计算机图形系统的瓶颈,文中总结了用于降低图形系统带宽开销的常见机制,在纹理压缩算法S3TC基础上,提出场景前颜色缓冲区压缩方法——YCoCg-R CBC.该方法定义了2种颜色缓冲区压缩数据格式,将像素转换到YCoCg-R颜色空间,对亮度和色度数据分别处理,并使亮度数据具有较高精度.实验结果表明,YCoCg-R CBC 2种数据格式的平均PSNR值各为41.71 dB和47.24 dB,较S3TC算法分别提高了7.87 dB和13.40 dB;解压图像质量得到显著改善,已经很难观察到它们与原始图像的差异. 展开更多
关键词 GPU 颜色缓冲区压缩 YCoCg-R颜色空间
在线阅读 下载PDF
一种基于RAM的降低异构多核切换开销的方法
9
作者 刘奇 郝守青 +1 位作者 沈海华 章隆兵 《计算机研究与发展》 EI CSCD 北大核心 2011年第S1期266-272,共7页
同一程序的不同执行阶段或者不同程序运行时行为特征不同.异构多核处理器包含多种类型处理器核,可以根据程序运行时的行为特征切换到性能、功耗合适的核.异构多核相对于同构多核处理器能够更好地满足性能和功耗要求,但是不同核间切换时... 同一程序的不同执行阶段或者不同程序运行时行为特征不同.异构多核处理器包含多种类型处理器核,可以根据程序运行时的行为特征切换到性能、功耗合适的核.异构多核相对于同构多核处理器能够更好地满足性能和功耗要求,但是不同核间切换时保存、恢复程序现场开销严重影响了异构多核处理器的性能.增加少量片上随机存储单元(RAM),并适当优化处理器核硬件结构是有效降低核间切换开销的方法.上述方法使得核间切换时不需要执行切换程序,通过发送RAM读写请求实现了程序现场的保存和恢复.基于龙芯异构多核处理器平台评估了软、硬件实现核间切换开销.实验结果表明上述硬件方法将核间切换开销下降到软件开销的11%,且仅带来了2.49%的面积增加和1.8%的功耗增加. 展开更多
关键词 龙芯异构多核 核间切换开销 寄存器重命名 存储单元
在线阅读 下载PDF
基于确定性的处理器硅后调试系统
10
作者 苏孟豪 高翔 陈云霁 《高技术通讯》 CAS CSCD 北大核心 2011年第2期196-202,共7页
针对处理器硅后调试芯片可观测性差的问题,提出了一个可将硅片错误在仿真器中重现的处理器硅后仿真调试系统。为使实际系统的行为确定化,提出了简单有效的确定性同步器(DSync)。通过将不同时钟域的时间确定地关联在一起,该同步器... 针对处理器硅后调试芯片可观测性差的问题,提出了一个可将硅片错误在仿真器中重现的处理器硅后仿真调试系统。为使实际系统的行为确定化,提出了简单有效的确定性同步器(DSync)。通过将不同时钟域的时间确定地关联在一起,该同步器可消除由于跨时钟域信号传输而导致的不确定性。根据处理器验证的实际需要,提出基本系统的概念。通过控制验证软件在基本系统范围内运行,无需记录系统输入就可实现仿真调试。实验结果表明,所提出的DSync和处理器仿真调试系统功能正确,实现简便,硬件开销小。 展开更多
关键词 处理器 硅后调试 确定性 跨时钟域传输 快照
在线阅读 下载PDF
具有可变数据格式的透明度压缩
11
作者 蒋毅飞 郇丹丹 解鑫 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2011年第2期247-255,共9页
对纹理元素透明度alpha的压缩是纹理压缩的重要组成部分.通过分析透明度和颜色的本质差异,提出了具有可变数据格式的透明度压缩——龙芯透明度压缩(LAC)方法.该方法定义了3种alpha压缩数据格式,用聚类算法和线性插值方法将16个输入alph... 对纹理元素透明度alpha的压缩是纹理压缩的重要组成部分.通过分析透明度和颜色的本质差异,提出了具有可变数据格式的透明度压缩——龙芯透明度压缩(LAC)方法.该方法定义了3种alpha压缩数据格式,用聚类算法和线性插值方法将16个输入alpha数据压缩为64比特,并依据压缩数据格式采用灵活的解压方式;实现了LAC的压缩和解压过程,以及DXT5的alpha通道压缩.实验结果表明,与DXT5的alpha压缩相比,LAC方法可使测试图像的平均PSNR值提高0.25 dB,alpha数据的平均压缩时间缩短约18%,硬件实现的平均单元面积减小25%左右,解压功耗降低10%~30%. 展开更多
关键词 GPU 纹理压缩 聚类算法
在线阅读 下载PDF
片上偏差模型下Mesh结构时钟网络性能不确定性的分析 被引量:3
12
作者 杨梁 范宝峡 赵继业 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第11期2045-2052,共8页
由于多驱动及回路特征使得Mesh结构时钟网络分析较为复杂,现有的定性或定量分析方法都难以针对具体Mesh结构设计寻求到准确的时钟不确定性约束,为此提出基于Mesh结构在片波动简化模型的时钟不确定性的遗传算法求解方法.首先将众多片上... 由于多驱动及回路特征使得Mesh结构时钟网络分析较为复杂,现有的定性或定量分析方法都难以针对具体Mesh结构设计寻求到准确的时钟不确定性约束,为此提出基于Mesh结构在片波动简化模型的时钟不确定性的遗传算法求解方法.首先将众多片上偏差源转化为单级延迟概率密度分布,然后进行多级传播叠加为Mesh结构末级驱动点延迟分布,进而缩减变量数目,合理分离时钟网络中树形结构和Mesh结构.在此基础上,借助遗传算法的全局趋优搜索能力来求解Mesh结构性能不确定性问题,以得到更为合理的时序裕量估算.与传统的蒙特卡洛分析方法及定性解析分析方法相比,基于65nm工艺的仿真实验结果证明了该方法的有效性. 展开更多
关键词 片上偏差 MESH结构 时钟网络分析 时钟不确定性 蒙特卡洛分析 遗传算法
在线阅读 下载PDF
二进制翻译控制转移的软硬件协同设计 被引量:2
13
作者 郝守青 刘奇 +1 位作者 沈海华 章隆兵 《高技术通讯》 CAS CSCD 北大核心 2012年第6期583-588,共6页
针对控制转移开销是影响二进制翻译和优化系统性能的主要因素,进行了提高二进制翻译优化系统性能的研究,提出并实现了硬件设计开销较小的基于硬件内容可寻址存储器(CAM)机制的软硬件协同设计方法。通过实验充分分析了CAM大小、软件... 针对控制转移开销是影响二进制翻译和优化系统性能的主要因素,进行了提高二进制翻译优化系统性能的研究,提出并实现了硬件设计开销较小的基于硬件内容可寻址存储器(CAM)机制的软硬件协同设计方法。通过实验充分分析了CAM大小、软件替换算法对CAM命中率的影响,并根据分析提出了一种新颖的、软硬件结合的降低CAM访问缺失率的方法。该方法相对于传统的软件和硬件优化方法,硬件实现及验证复杂度低且优化效果明显。实验结果表明该方法使得二进制翻译系统整体性能提高了13.44%。该方法已实际应用于龙芯x86二进制翻译系统中。 展开更多
关键词 软硬件协同设计 二进制翻译和优化 控制转移 龙芯 指令集架构(ISA)
在线阅读 下载PDF
高性能多媒体SoC分组访存调度算法 被引量:2
14
作者 张广飞 汪文祥 +1 位作者 蒋毅飞 苏孟豪 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2011年第9期1585-1592,共8页
根据多媒体处理单元的访存特点,提出一种面向高性能多媒体SoC的分组访存调度算法.该算法将访存请求按照访存ID和页地址分组,以访存组为单位进行乱序调度,并通过维护相同ID访存请求之间的顺序保证访存的正确性:综合考虑访存单元的访存效... 根据多媒体处理单元的访存特点,提出一种面向高性能多媒体SoC的分组访存调度算法.该算法将访存请求按照访存ID和页地址分组,以访存组为单位进行乱序调度,并通过维护相同ID访存请求之间的顺序保证访存的正确性:综合考虑访存单元的访存效率和服务质量要求,在每个访存单元独立的调度周期内提供最低带宽保障服务.将该分组访存调度算法应用于访存调度装置,实际应用仿真结果表明,与已有基于带宽分配的访存调度算法相比,文中算法在保障访存单元带宽需求的同时降低了访存延迟,并将平均带宽利用率提高了15%. 展开更多
关键词 访存调度 多媒体 片上系统 SDRAM
在线阅读 下载PDF
采用同步分析的零延迟GRLS通信机制
15
作者 王茹 王焕东 +1 位作者 范宝峡 杨梁 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2011年第8期1455-1462,共8页
全局异步局部同步(GALS)与频率调整相结合能够有效地降低动态功耗.针对频率切换以及跨时钟域传输开销会损害芯片性能的问题,提出一种基于计数器的分频方法.该方法根据计数结果生成分频后的时钟沿,并在此基础上建立了一个全局比例同步局... 全局异步局部同步(GALS)与频率调整相结合能够有效地降低动态功耗.针对频率切换以及跨时钟域传输开销会损害芯片性能的问题,提出一种基于计数器的分频方法.该方法根据计数结果生成分频后的时钟沿,并在此基础上建立了一个全局比例同步局部同步(GRLS)的通信机制.GRLS利用2个时钟的频率及相位关系实现了零延迟的跨时钟域传输,并引进同步电路分析方法来保证其正确性和健壮性;GRLS不会对原有的时钟设计做任何改变,频率切换可以在一个周期内完成,且面积功耗开销可以忽略不计.最后通过基于GRLS建立的存储系统证明了该机制的高效性.目前GRLS已经成功地应用于一款商业SoC. 展开更多
关键词 全局异步局部同步 全局比例同步局部同步 频率比例 零延迟 同步机制
在线阅读 下载PDF
GALS处理器的功耗有效性方法研究
16
作者 段玮 凡启飞 +1 位作者 黄琨 张戈 《高技术通讯》 CAS CSCD 北大核心 2011年第12期1232-1239,共8页
鉴于多核时代的到来使功耗成为处理器设计的首要限制因素,功耗有效性也成为重要的设计目标,而且全局异步局部同步(GALS)的时钟设计可以很好地结合动态电压/频率调节(DVFS)的策略来提高多核处理器的功耗有效性,以采用GALS结构的... 鉴于多核时代的到来使功耗成为处理器设计的首要限制因素,功耗有效性也成为重要的设计目标,而且全局异步局部同步(GALS)的时钟设计可以很好地结合动态电压/频率调节(DVFS)的策略来提高多核处理器的功耗有效性,以采用GALS结构的多核处理器为目标,设计出了一种适用于研究目标的DVFS算法——基于投票选择的延迟决定算法。这种DVFS算法能动态统计各处理器核运行时的结构信息,利用这些信息进行投票,根据投票结果来动态调节各处理器核的电压和频率,从而降低处理器运行时的功耗和提高功耗有效性。根据实验结果统计,采用上述方法的处理器运行负载程序时,功耗节省24.8%,性能损失仅9.9%。 展开更多
关键词 全局异步局部同步(GALS) 动态电压/频率调节(DVFS) 多核微处理器 功耗有效性
在线阅读 下载PDF
片上实时功耗监控与估测的分析设计
17
作者 段玮 章隆兵 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第11期2053-2060,共8页
为了给操作系统提供实时的芯片热点和功耗统计信息,以便进行快速、准确的实时功耗管理,基于龙芯2号处理器核,提出一个基于门控时钟统计的实时功耗监控系统.通过记录处理器门控时钟的翻转信息来获得芯片热点分布状态,并使用在芯片设计流... 为了给操作系统提供实时的芯片热点和功耗统计信息,以便进行快速、准确的实时功耗管理,基于龙芯2号处理器核,提出一个基于门控时钟统计的实时功耗监控系统.通过记录处理器门控时钟的翻转信息来获得芯片热点分布状态,并使用在芯片设计流程中由门级网表仿真而建立的功耗模型进行硬件计算,最终获得向操作系统提供的实时功耗数据.文中提出的实时功耗监控系统具有硬件集成、结构无关、快速、自身开销小、对处理器性能影响小、准确性高等优点.实验结果表明,将该实时功耗监控系统应用在FPGA平台上的功耗估测速度比传统仿真速度提高近40倍,精确度与Synosys公司的EDA工具测量相比可以保持在5%以内. 展开更多
关键词 处理器 实时 功耗评估 门控时钟
在线阅读 下载PDF
通过增强数据访问局部性提高多路复用FIR滤波器计算性能
18
作者 刘明 闫超 《高技术通讯》 CAS CSCD 北大核心 2011年第9期887-892,共6页
针对多路复用有限长单脉冲响应(FIR)滤波器计算性能有待提升的问题,根据其系数时间局部性特点和数据空间局部性特点,通过程序框架和多路输入数据存储位置关系的调整,对多路输入数据采用分时复用传输机制的多路FIR滤波器软件实现方... 针对多路复用有限长单脉冲响应(FIR)滤波器计算性能有待提升的问题,根据其系数时间局部性特点和数据空间局部性特点,通过程序框架和多路输入数据存储位置关系的调整,对多路输入数据采用分时复用传输机制的多路FIR滤波器软件实现方法进行了优化。经龙芯2号原型系统实验证明,与典型多路FIR滤波器软件实现方法相比,当输入数据的复用路数越大,或滤波器阶数与单路连续传输数据量之间的差越大时,该优化实现方法的局部性程度越高,对多路FIR滤波器计算性能的提升效果越显著。 展开更多
关键词 多路FIR滤波 局部性 分时复用 龙芯
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部