期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于指令回收的低功耗循环分支折合技术 被引量:4
1
作者 孟建熠 严晓浪 +1 位作者 葛海通 徐鸿明 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2010年第4期632-638,共7页
在分析循环分支特性的基础上,提出一种基于过期指令回收的高性能低功耗循环分支折合方法.该方法通过复用指令缓冲区硬件资源实现指令回收区.在循环分支折合过程中,循环体指令直接从回收区送入流水线,降低了分支延时,消除了指令高速缓存... 在分析循环分支特性的基础上,提出一种基于过期指令回收的高性能低功耗循环分支折合方法.该方法通过复用指令缓冲区硬件资源实现指令回收区.在循环分支折合过程中,循环体指令直接从回收区送入流水线,降低了分支延时,消除了指令高速缓存访问.通过自适应调整回收窗口宽度,可使有限的指令缓冲区硬件资源同时满足指令缓冲与指令回收的双重需求.当投机折合进入预测盲区时关闭分支预测存储器,从而降低投机折合的动态功耗.实验数据表明,与传统循环分支折合技术相比,应用本方法的嵌入式处理器总体性能平均提升5.03%,取指单元动态功耗下降22.10%. 展开更多
关键词 循环分支折合 指令回收 低功耗取指
在线阅读 下载PDF
应用于SoC功能验证的快速处理器仿真模型 被引量:2
2
作者 孟建熠 黄凯 +1 位作者 严晓浪 葛海通 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2009年第3期401-405,522,共6页
针对处理器仿真模型在SoC功能验证中效率低下的问题,提出了一种基于时间域和空间域仿真冗余压缩的处理器快速仿真模型.基于时间域的仿真冗余压缩方法通过监测总线工作状态,消除总线空闲下的系统冗余仿真.基于空间域的仿真冗余压缩方法... 针对处理器仿真模型在SoC功能验证中效率低下的问题,提出了一种基于时间域和空间域仿真冗余压缩的处理器快速仿真模型.基于时间域的仿真冗余压缩方法通过监测总线工作状态,消除总线空闲下的系统冗余仿真.基于空间域的仿真冗余压缩方法通过监测程序访问存储器的地址空间,缩减访问本地存储空间时的冗余系统仿真.实验结果表明,该模型在保证仿真精度高于80%的基础上,可有效减少系统冗余的仿真事务;当2种方法联合应用时平均提高仿真速度60.27倍左右,从而提高软硬件协同设计的效率. 展开更多
关键词 处理器仿真模型 时间域压缩 空间域压缩 软硬件协同设计
在线阅读 下载PDF
一种RTL级数据通路ODC低功耗优化算法 被引量:2
3
作者 孟建熠 丁永林 +1 位作者 严晓浪 葛海通 《电子学报》 EI CAS CSCD 北大核心 2010年第7期1654-1659,共6页
本文提出了一种具有高计算效率和低硬件开销的门控时钟低功耗优化算法.该算法在RTL级搜索数据通路的不可观察性(Observability Dont′Care).采用RTL级逻辑信号总线ODC模型和基于路径ODC的有向图遍历模型,减少了ODC计算负荷,提升了计算效... 本文提出了一种具有高计算效率和低硬件开销的门控时钟低功耗优化算法.该算法在RTL级搜索数据通路的不可观察性(Observability Dont′Care).采用RTL级逻辑信号总线ODC模型和基于路径ODC的有向图遍历模型,减少了ODC计算负荷,提升了计算效率,使ODC适用于超大规模集成电路的低功耗优化.引入数据通路ODC条件概率作为门控信号产生的重要依据,对ODC条件概率高的通路优先插入门控逻辑,可以极低硬件开销实现高效门控时钟网络.实验结果显示,本算法与传统ODC算法相比计算负荷平均降低8倍,功耗平均下降12.35%,面积开销平均减少13.44%. 展开更多
关键词 数据通路低功耗 总线ODC模型 路径ODC模型 ODC条件概率
在线阅读 下载PDF
基于神经网络的重构指令预取机制及其可扩展架构 被引量:2
4
作者 陈志坚 孟建熠 +1 位作者 严晓浪 沙子岩 《电子学报》 EI CAS CSCD 北大核心 2012年第7期1476-1480,共5页
针对动态可重构处理器的配置信息加载延时,提出了一种基于神经网络的可扩展的重构指令预取机制.增加感受器的历史指令信息,并结合感受器权重构建新型的感受器模型,通过权重与历史指令信息的协同训练学习重构指令调用规律.在处理器运行... 针对动态可重构处理器的配置信息加载延时,提出了一种基于神经网络的可扩展的重构指令预取机制.增加感受器的历史指令信息,并结合感受器权重构建新型的感受器模型,通过权重与历史指令信息的协同训练学习重构指令调用规律.在处理器运行过程中,提前完成对后续重构指令的预测及配置信息的预取,隐藏指令重构成本.进一步提出了本方法的可扩展实现框架,神经网络的学习结果作为重构指令的关联信息,被移至内存并分布式存储.在重构指令预取时,完成对神经网络学习信息的加载.实验结果表明,该方法对重构指令的预测准确率达91%,综合性能平均提升40%. 展开更多
关键词 可重构处理器 配置信息预取 改进神经网络算法 可扩展存储架构
在线阅读 下载PDF
基于邻行链接访问的低功耗指令高速缓存 被引量:1
5
作者 项晓燕 陈志坚 +1 位作者 孟建熠 严晓浪 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2013年第7期1213-1217,共5页
通过分析高速缓存访问的局部性原理,提出当前高速缓存访问行与若干紧邻行链接访问的低功耗指令缓存访问方法.该方法能够在发生相对跳转时依托于相邻行之间的访问链接信息,精确获得跳转目标行的路访问信息,减少对高速缓存标志存储器的访... 通过分析高速缓存访问的局部性原理,提出当前高速缓存访问行与若干紧邻行链接访问的低功耗指令缓存访问方法.该方法能够在发生相对跳转时依托于相邻行之间的访问链接信息,精确获得跳转目标行的路访问信息,减少对高速缓存标志存储器的访问,达到降低动态功耗的目的.在高速缓存行发生替换时,仅需检测并清除被替换行相邻范围内的若干缓存行的链接信息,从而实现链接关系的正确性.与基于路记忆访问的高速缓存器相比,应用该方法的高速缓存器的动态功耗可以平均减少6%. 展开更多
关键词 指令高速缓存 低功耗 邻行链接访问
在线阅读 下载PDF
支持程序无缝切换的高性能硬件堆栈
6
作者 陈志坚 孟建熠 +1 位作者 葛海通 严晓浪 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2011年第9期1587-1592,共6页
针对函数调用中上下文切换产生的性能损失,提出一种支持程序无缝切换的嵌入式处理器高性能硬件堆栈.高性能硬件堆栈包括数据栈和返回栈,采用动态可重构的两级缓存机制,消除程序切换的性能开销.数据栈实现单周期多数据压栈/出栈,隐藏程... 针对函数调用中上下文切换产生的性能损失,提出一种支持程序无缝切换的嵌入式处理器高性能硬件堆栈.高性能硬件堆栈包括数据栈和返回栈,采用动态可重构的两级缓存机制,消除程序切换的性能开销.数据栈实现单周期多数据压栈/出栈,隐藏程序切换中的堆栈操作;返回栈实现指令超前预取,消除程序返回时流水线气泡.数据栈与返回栈分别复用数据和指令高速暂存器,实现用户可重构的二级缓存.实验结果显示:本方法平均提升性能10%以上,功耗降低2%. 展开更多
关键词 硬件堆栈 无缝切换 嵌入式处理器 高速暂存器
在线阅读 下载PDF
基于内存页面动态合并的旁路转换缓冲器设计
7
作者 陈志坚 孟建熠 +1 位作者 葛海通 严晓浪 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2012年第1期118-122,共5页
针对内存管理中虚拟页面和物理页面连续分配的特性,提出可对相邻页面进行动态合并的旁路转换缓冲器(TLB)设计方法.该方法的核心思想是在处理器运行过程中,通过对相邻页面的递归合并,动态扩展单个TLB表项的地址映射范围,提高TLB表项的利... 针对内存管理中虚拟页面和物理页面连续分配的特性,提出可对相邻页面进行动态合并的旁路转换缓冲器(TLB)设计方法.该方法的核心思想是在处理器运行过程中,通过对相邻页面的递归合并,动态扩展单个TLB表项的地址映射范围,提高TLB表项的利用率并降低TLB缺失率.在两级TLB架构中,提出基于快速uTLB(fuT-LB)和影子uTLB(suTLB)动态切换的新型uTLB结构,作为两级TLB架构的一级缓存,为页面动态合并提供现场和载体,页面合并过程对软件透明.基于Mibench测试基准的实验结果表明,与filter-TLB架构相比,该页面动态合并方法可以平均降低TLB缺失率达27%. 展开更多
关键词 内存管理 旁路转换缓冲器(TLB) 页面动态合并
在线阅读 下载PDF
基于历史链接关系的指令高速缓存低功耗方法 被引量:3
8
作者 龚帅帅 吴晓波 +1 位作者 孟建熠 丁永林 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2011年第3期467-471,502,共6页
针对现代嵌入式处理器中指令高速缓存功耗显著的问题,提出一种基于Cache行间访问历史链接关系的指令高速缓存低功耗方法.通过创建独立可配置的顺序及跳转链接表项,利用链接表项中缓存的历史信息,消除Cache行间访问时对标志位存储器和冗... 针对现代嵌入式处理器中指令高速缓存功耗显著的问题,提出一种基于Cache行间访问历史链接关系的指令高速缓存低功耗方法.通过创建独立可配置的顺序及跳转链接表项,利用链接表项中缓存的历史信息,消除Cache行间访问时对标志位存储器和冗余路数据存储器的访问功耗.进一步提出可复用的链接状态单元,克服了传统方法中由于缓存缺失引起的清空和重建链接表项的缺陷,显著降低了指令高速缓存访问功耗.实验表明,与传统指令高速缓存相比,本方法在取指单元面积仅增加1.35%的情况下,可平均减少标志位存储器访问次数96.38%. 展开更多
关键词 Cache行间访问 链接表项 链接状态单元 低功耗
在线阅读 下载PDF
面向宽电压应用的容错时钟门控单元设计 被引量:2
9
作者 朱涛涛 项晓燕 +2 位作者 陈晨 孟建熠 严晓浪 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2018年第9期1796-1803,共8页
为了将时钟门控技术应用于时序容错系统中,提出具备时序错误检测与自纠正能力的时钟门控单元.该单元通过监测内部虚拟节点电压变化,得到数据晚到信息;利用该监测信息可以重新打开时钟树网络,完成时钟被错误关断情形的当前周期自主现场纠... 为了将时钟门控技术应用于时序容错系统中,提出具备时序错误检测与自纠正能力的时钟门控单元.该单元通过监测内部虚拟节点电压变化,得到数据晚到信息;利用该监测信息可以重新打开时钟树网络,完成时钟被错误关断情形的当前周期自主现场纠错.给出容错时钟门控单元在现有的多种时钟门控技术中的适用性分析,讨论与之对应的纠错方案选择策略.基于SMIC 40 nm LL工艺库,仅新增12个额外的晶体管实现该单元,从原理图和版图2个层面,对其在宽电压工作下的容错能力进行分析验证,并给出集成到系统设计时所需的时序检查方法.将该单元应用于一款商用处理器C-SKY CK802物理设计中,实验结果表明系统能效相对于传统设计提高了64.7%,而时钟树功耗相对于现有的容错设计下降了32%. 展开更多
关键词 容错电路 时钟门控 宽电压 低功耗 近阈值计算 现场纠错
在线阅读 下载PDF
基于预测极性动态变换的分支预测框架研究 被引量:2
10
作者 陈晨 陈志坚 +1 位作者 孟建熠 严晓浪 《电子与信息学报》 EI CSCD 北大核心 2013年第4期1001-1006,共6页
针对动态分支预测错误率在时间上分布不均匀且高错误率比较集中的特点,该文提出一种可动态变换预测极性的分支预测方法。该方法对未经极性变换的原始动态分支预测错误率进行自适应监测,筛选出原始动态分支预测错误率高于阈值的预测错误... 针对动态分支预测错误率在时间上分布不均匀且高错误率比较集中的特点,该文提出一种可动态变换预测极性的分支预测方法。该方法对未经极性变换的原始动态分支预测错误率进行自适应监测,筛选出原始动态分支预测错误率高于阈值的预测错误高峰期,进而调整预测错误高峰期内分支预测器的预测极性,使经过极性变换的最终动态分支预测错误率在程序运行过程中始终低于设定的阈值。该文同时研究了全局监测、按组监测和局部监测3种分支预测错误率监测方式。实验结果表明,相同硬件资源下该方法比Gshare和Bi-Mode分支预测方法具有更高的分支预测精度。 展开更多
关键词 大规模集成电路 嵌入式处理器 分支预测 预测错误高峰期 预测极性动态变换
在线阅读 下载PDF
基于转移指令特性的动态翻译算法 被引量:2
11
作者 李战辉 孟建熠 +1 位作者 陈志坚 严晓浪 《上海交通大学学报》 EI CAS CSCD 北大核心 2015年第2期173-177,183,共6页
针对传统方法统一转译转移指令导致翻译器效率较低的问题,基于转移目标地址在函数内外的不同特征,提出了直接映射和指令类型转译策略组合的动态翻译方法.对函数内转移指令,直接采用目标架构中对应的分支指令进行映射,通过转移前后指令... 针对传统方法统一转译转移指令导致翻译器效率较低的问题,基于转移目标地址在函数内外的不同特征,提出了直接映射和指令类型转译策略组合的动态翻译方法.对函数内转移指令,直接采用目标架构中对应的分支指令进行映射,通过转移前后指令翻译码的无缝链接,高效转译了条件分支指令,且无需生成源寄存器到内存同步指令;对函数间转移指令,区别对待函数转移和其他转移指令,通过将源程序函数转移指令属性继承给翻译码以提高目标机转移预测器准确率.基于EEMBC(Embedded Microprocessor Benchmark Consortium)测试基准的实验表明,该方法使转移指令翻译码执行指令数平均减少58.9%,转移预测器命中率平均提高80.7%,翻译器整体性能提高12.3%. 展开更多
关键词 动态翻译 转移指令 直接映射 转移预测器
在线阅读 下载PDF
动态二进制翻译中的标志位优化算法 被引量:1
12
作者 王荣华 孟建熠 +1 位作者 陈志坚 严晓浪 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2014年第1期124-129,共6页
为了提高动态翻译器对标志位的模拟与处理效率,针对程序中比例较高的“比较一条件转移”指令对,提出标志位快速映射方法.该方法通过动态识别与提取源程序翻译块内的“比较一条件转移”指令对,利用目标架构的条件依赖关系特征实现“... 为了提高动态翻译器对标志位的模拟与处理效率,针对程序中比例较高的“比较一条件转移”指令对,提出标志位快速映射方法.该方法通过动态识别与提取源程序翻译块内的“比较一条件转移”指令对,利用目标架构的条件依赖关系特征实现“比较一条件转移”指令的高效映射,避免了对这类特殊的标志位定值与引用实施统一而复杂的处理,从而提高动态翻译与执行的速度.基于QEMU的模拟器运行基准程序显示,基于该方法翻译生成的目标标志位处理指令总数比采用其他主流方法减少约20%~90%. 展开更多
关键词 动态二进制翻译 标志位定值与引用 比较一条件转移指令对
在线阅读 下载PDF
基于访问区域特征的高速地址翻译方法 被引量:1
13
作者 王荣华 孟建熠 +1 位作者 陈志坚 严晓浪 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2014年第2期348-353,共6页
针对系统级二进制翻译器在虚拟/物理地址转换中出现的性能瓶颈问题,提出一种基于指令、数据和堆栈等访问区域特征的快速地址转换方法.该方法在翻译态时识别不同区域的内存访问指令,并根据区域特征采取不同的优化算法,对于指令区域... 针对系统级二进制翻译器在虚拟/物理地址转换中出现的性能瓶颈问题,提出一种基于指令、数据和堆栈等访问区域特征的快速地址转换方法.该方法在翻译态时识别不同区域的内存访问指令,并根据区域特征采取不同的优化算法,对于指令区域和数据区域采用编译时地址转换算法,对于堆栈区域采用连续页面映射算法.在开源高速指令模拟器QEMU上运行嵌人式CPU测试基准程序PowerStone.结果表明,运行态地址转换过程减少了1%~65%,运行态执行周期数减少了11%~38%. 展开更多
关键词 内存访问区域属性 系统级二进制翻译器 快速地址转换
在线阅读 下载PDF
面向物联网的轻量级AES及其在安全存储中的应用 被引量:1
14
作者 陈嘉玲 王洁 +1 位作者 徐焕章 孟建熠 《微电子学与计算机》 CSCD 北大核心 2018年第6期106-111,共6页
为解决物联网中安全SOC芯片资源和性能的平衡问题,提出了一种软硬件协同工作的可资源复用的轻量级AES(Advanced Encryption Standard)算法实现方式.该设计采用同步FIFO作为软硬件交互接口以实现软硬件协同工作的AES加解密算法,并改进密... 为解决物联网中安全SOC芯片资源和性能的平衡问题,提出了一种软硬件协同工作的可资源复用的轻量级AES(Advanced Encryption Standard)算法实现方式.该设计采用同步FIFO作为软硬件交互接口以实现软硬件协同工作的AES加解密算法,并改进密钥扩展算法,提高软件密钥扩展的安全性.AES模块硬件资源同时可供安全SOC芯片复用,对存储系统数据进行简单加密加扰,节省硬件资源.该设计面积约为2418个等效门,并为芯片安全存储系统中存储器读写模块节省约20%的面积,功能全面、安全性高,适合轻量级安全应用. 展开更多
关键词 AES算法 轻量级 软硬件协同 资源复用
在线阅读 下载PDF
轻量级现场纠正的错误消除寄存器设计
15
作者 郝子轶 项晓燕 +1 位作者 陈晨 孟建熠 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2017年第3期605-611,636,共8页
针对时序错误实时检测和纠正技术中存在的检错成本和纠错性能问题,提出一种基于轻量级现场纠错技术的错误消除寄存器.错误消除寄存器采用自带的内部虚拟节点作为错误检测点,以无额外成本的方式实现时序错误的实时检测;基于观测到的高低... 针对时序错误实时检测和纠正技术中存在的检错成本和纠错性能问题,提出一种基于轻量级现场纠错技术的错误消除寄存器.错误消除寄存器采用自带的内部虚拟节点作为错误检测点,以无额外成本的方式实现时序错误的实时检测;基于观测到的高低电平信息,直接在寄存器内部进行错误纠正,通过仅增加4个额外晶体管的代价,完成即时的现场纠错.错误消除寄存器没有使用复杂的外置翻转探测电路进行错误检测,并且也没有使用额外的存储单元用于错误纠正,因此引入的额外面积和额外功耗极低.为评估错误消除寄存器的时序容错能力和电路效率提升能力,在中芯国际40nm工艺下将该寄存器集成到商用嵌入式处理器CK802中进行实验.实验结果表明,错误消除寄存器大幅度降低了容错处理器的面积成本和性能损失,相比现有技术,在同电压下有10.9%的性能提升,在同性能下有17.7%的功耗优化. 展开更多
关键词 电路稳定性 错误检测与纠正 轻量级 虚拟节点 现场纠错 容错性能
在线阅读 下载PDF
基于高速缓存资源共享的TLB设计方法
16
作者 徐鸿明 孟建熠 +1 位作者 严晓浪 葛海通 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2011年第3期462-466,565,共6页
针对嵌入式处理器中旁路转换缓冲(TLB)功耗和面积显著的问题,提出一种共享高速缓存硬件资源的低功耗TLB设计方法,消除了传统方法中TLB存储器的硬件资源及静态功耗.该方法通过设立两级TLB低功耗架构和缓存地址映射表,有效减少TLB的访问次... 针对嵌入式处理器中旁路转换缓冲(TLB)功耗和面积显著的问题,提出一种共享高速缓存硬件资源的低功耗TLB设计方法,消除了传统方法中TLB存储器的硬件资源及静态功耗.该方法通过设立两级TLB低功耗架构和缓存地址映射表,有效减少TLB的访问次数,降低了功耗;利用高速缓存的结构特性动态扩展TLB表项,扩大对物理内存的映射范围,提升TLB命中率.进一步提出了一种复用缓存替换策略的TLB表项的编码加锁方法,减少页面抖动,缓和TLB表项与指令、数据的资源冲突.实验结果表明:与传统的TLB设计相比,应用本方法的嵌入式处理器的功耗下降28.11%,面积减少21.58%. 展开更多
关键词 低功耗 旁路转换缓冲 高速缓存资源复用
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部