期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
高性能众核处理器芯片时钟网络设计 被引量:3
1
作者 马永飞 高成振 +1 位作者 黄金明 李研 《计算机工程》 CAS CSCD 北大核心 2022年第8期25-29,36,共6页
随着芯片工艺演进与设计规模增加,高性能众核处理器芯片时钟网络设计面临时序和功耗的全方位挑战。为降低芯片时钟网络功耗并缓解时钟网络分布受片上偏差影响导致的时钟偏斜,在H-Tree+MESH混合时钟网络结构的基础上,结合新一代众核处理... 随着芯片工艺演进与设计规模增加,高性能众核处理器芯片时钟网络设计面临时序和功耗的全方位挑战。为降低芯片时钟网络功耗并缓解时钟网络分布受片上偏差影响导致的时钟偏斜,在H-Tree+MESH混合时钟网络结构的基础上,结合新一代众核处理器芯片面积大及核心时钟网络分布广的特点,基于标准多源时钟树设计策略构建多源时钟树综合(MRCTS)结构,通过全局H-Tree时钟树保证芯片不同区域间时钟偏斜的稳定可控,利用局部时钟树综合进行关键路径的时序优化以实现时序收敛。实验结果表明,MRCTS能在保证时钟延时、时钟偏斜等性能参数可控的基础上,有效降低时钟网络的负载和功耗,大幅压缩综合子模块的布线资源,加速关键路径的时序收敛,并且在相同电源电压和时钟频率的实测条件下,可获得约22.15%的时钟网络功耗优化。 展开更多
关键词 高性能众核处理器芯片 时钟网络 时钟功耗 时钟偏斜 多源时钟树综合
在线阅读 下载PDF
一款面向高性能SOC应用的高精度全数字锁相环设计 被引量:5
2
作者 赵信 黄金明 +1 位作者 黄永勤 胡向东 《计算机工程与科学》 CSCD 北大核心 2018年第3期388-393,共6页
锁相环(PLL)是高性能SOC中必不可少的器件,为芯片提供系统时钟。提出了一款面向高性能SOC应用的高精度全数字锁相环结构,并采用了全新的高精度时间数字转换器(TDC)结构提高鉴相精度,降低TDC的相位噪声,改善了锁相环抖动性能。在先进工... 锁相环(PLL)是高性能SOC中必不可少的器件,为芯片提供系统时钟。提出了一款面向高性能SOC应用的高精度全数字锁相环结构,并采用了全新的高精度时间数字转换器(TDC)结构提高鉴相精度,降低TDC的相位噪声,改善了锁相环抖动性能。在先进工艺下完全采用数字标准单元实现了此全数字锁相环系统,解决了模拟电路中无源器件面积过大、抗噪声能力不强以及工艺移植性差等瓶颈问题。该系统最高频率可达到2.6GHz,抖动性能小于2ps。 展开更多
关键词 全数字锁相环 低抖动 时间数字转换器
在线阅读 下载PDF
一种高性能四倍精度浮点乘加器的设计与实现 被引量:1
3
作者 何军 黄永勤 朱英 《计算机工程》 CAS CSCD 2014年第2期294-299,共6页
高精度、高性能浮点运算部件是高性能微处理器设计的重要部分。通过对传统双精度浮点乘加运算算法的研究,结合四倍精度浮点数据格式特点,设计并实现一种高性能的四倍精度浮点乘加器(QPFMA),该乘加器支持多种浮点运算,运算延迟为7拍,全... 高精度、高性能浮点运算部件是高性能微处理器设计的重要部分。通过对传统双精度浮点乘加运算算法的研究,结合四倍精度浮点数据格式特点,设计并实现一种高性能的四倍精度浮点乘加器(QPFMA),该乘加器支持多种浮点运算,运算延迟为7拍,全流水结构。采用双路加法器改进算法结构,优化头零预测和规格化移位逻辑,减小运算延迟和硬件开销。通过参数化设计验证方法,实现高效的正确性验证。逻辑综合结果表明,基于65 nm工艺,该QPFMA频率可达1.2 GHz,比现有的QPFMA设计运算延迟减少3拍,频率提高约11.63%。 展开更多
关键词 浮点运算 乘加 四倍精度 高精度 参数化
在线阅读 下载PDF
高性能众核处理器申威26010 被引量:13
4
作者 胡向东 柯希明 +4 位作者 尹飞 张新 马永飞 颜世云 马超 《计算机研究与发展》 EI CSCD 北大核心 2021年第6期1155-1165,共11页
申威26010高性能众核处理器在多核处理器申威1600基础上,采用片上系统(system on chip,SoC)技术,在单芯片内集成4个运算控制核心和256个运算核心,采用自主设计的64位申威RISC(reduced instruction set computer)指令系统,支持256位SIMD(... 申威26010高性能众核处理器在多核处理器申威1600基础上,采用片上系统(system on chip,SoC)技术,在单芯片内集成4个运算控制核心和256个运算核心,采用自主设计的64位申威RISC(reduced instruction set computer)指令系统,支持256位SIMD(single instruction multiple data)整数和浮点向量加速运算,单芯片双精度浮点峰值性能达3.168TFLOPS.申威26010处理器基于28nm工艺流片,芯片die面积超过500mm\+2,芯片260个核心稳定运行频率达1.5GHz.申威26010处理器从结构级、微结构级到电路级,综合采用多种低功耗设计技术,峰值能效比达10.559GFLOPS/W.芯片运行频率和能效比均超过同时期国际同类型处理器.申威26010通过在高频率设计、稳定可靠性设计和成品率设计等方面的技术创新,有效解决了芯片在实现高性能目标中所遇到的高频率目标、功耗墙、稳定可靠性和成品率等难题,成功大规模应用于国产10万万亿次超级计算机系统“神威·太湖之光”,有效满足了科学与工程应用的计算需求. 展开更多
关键词 申威指令集 运算控制核心 运算核心 低功耗设计 能效比
在线阅读 下载PDF
HEVC分像素插值与自适应环路滤波融合结构设计 被引量:3
5
作者 李轶夫 蒋毅飞 +1 位作者 陈李维 刘宏伟 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2014年第3期493-501,共9页
在高效率视频编码(HEVC)的解码过程中,分像素插值和自适应环路滤波(ALF)是计算密集度最高的2个环节.针对传统的滤波器设计方法学在硬件资源优化方面存在的不足,提出一种HEVC分像素插值与ALF融合的滤波结构设计.通过分析传统滤波结构及... 在高效率视频编码(HEVC)的解码过程中,分像素插值和自适应环路滤波(ALF)是计算密集度最高的2个环节.针对传统的滤波器设计方法学在硬件资源优化方面存在的不足,提出一种HEVC分像素插值与ALF融合的滤波结构设计.通过分析传统滤波结构及其相应算法,利用改进的ALF结构处理分像素插值的垂直滤波运算,简化了分像素插值结构并降低了整体硬件开销.实验结果表明,该设计可满足HEVC标准HDTV 1080p(1920×1080@30fps)分辨率视频解码的实时性要求,同时其电路总面积在传统设计方案的基础上减少了28%. 展开更多
关键词 滤波结构 高效视频编码 分像素插值 自适应环路滤波
在线阅读 下载PDF
Posit浮点部件实现
6
作者 陈子钰 何军 +4 位作者 尹飞 颜世云 杨剑新 文周旺 马启皓 《计算机应用》 北大核心 2025年第S1期163-169,共7页
首先,介绍Posit浮点格式及相关研究现状;其次,设计并实现一组Posit浮点运算指令,包含7条算术运算指令、3条比较指令和14条格式转换指令;最后,实现一个能全流水执行的Posit浮点部件,并评估它的实现性。该部件支持Posit(32,2)、Posit(32,3... 首先,介绍Posit浮点格式及相关研究现状;其次,设计并实现一组Posit浮点运算指令,包含7条算术运算指令、3条比较指令和14条格式转换指令;最后,实现一个能全流水执行的Posit浮点部件,并评估它的实现性。该部件支持Posit(32,2)、Posit(32,3)和Posit(32,6)这3种格式,包含5级流水的Posit浮点融合乘加(PFMA)子部件和3级流水的Posit浮点格式转换(PFCVT)子部件。相较于支持FP32格式的浮点部件,所提Posit浮点部件在Posit(32,2)格式下的操作数尾数和结果尾数的最大位宽增加了4 bit,并在Posit(32,6)格式下的指数的动态范围提升了近1 072 decades,显著提高了数据表示范围和灵活性;同时,在Posit(32,6)格式下支持的数据动态范围比FP64大了近524 decades。可见,所提部件可用于探索Posit(32,6)在特定领域和应用中替代FP64的可行性,以减少计算系统的存储、访存和通信开销,从而提高计算能效。 展开更多
关键词 Posit 浮点算术 融合乘加 浮点转换 指令集
在线阅读 下载PDF
标准数字CMOS工艺正交压控振荡器设计 被引量:1
7
作者 潘达杉 黄金明 +1 位作者 冯勇 闵昊 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第8期94-99,共6页
正交压控振荡器是高速链路中的一个关键部件.片上集成高质量品质的电感电容等无源器件是影响压控振荡器性能的关键因素.为了兼容传统的数字工艺,采用超深亚微米的数字CMOS工艺进行片上电感电容的集成,并基于此无源器件实现了基于电容耦... 正交压控振荡器是高速链路中的一个关键部件.片上集成高质量品质的电感电容等无源器件是影响压控振荡器性能的关键因素.为了兼容传统的数字工艺,采用超深亚微米的数字CMOS工艺进行片上电感电容的集成,并基于此无源器件实现了基于电容耦合的正交压控振荡器,实现中心频率16.12GHz,频率调节范围为10%,1M频偏处的相位噪声为-112dBc,相位误差小于0.39°. 展开更多
关键词 QVCO PHASE noise CMOS工艺
在线阅读 下载PDF
一款多核处理器FPGA验证平台的设计与实现 被引量:11
8
作者 朱英 陈诚 +1 位作者 许晓红 李彦哲 《计算机研究与发展》 EI CSCD 北大核心 2014年第6期1295-1303,共9页
高性能处理器设计日趋复杂,为了缩短验证周期,降低研制风险通常需要在流片之前进行基于现场可编程门阵列(field programmable gate-array,FPGA)原型验证平台的软硬件协同验证.随着处理器多核化的发展,FPGA原型验证平台的实现变得越来越... 高性能处理器设计日趋复杂,为了缩短验证周期,降低研制风险通常需要在流片之前进行基于现场可编程门阵列(field programmable gate-array,FPGA)原型验证平台的软硬件协同验证.随着处理器多核化的发展,FPGA原型验证平台的实现变得越来越具有挑战性.介绍了一款高性能多核微处理器FPGA验证平台的设计与实现方法,详细阐述了该FPGA验证平台采用的母板/子板总体架构、分片策略、时分复用实现技术及I/O接口实现方法.该平台具有良好的可扩展性,能够方便灵活地实现目标芯片在各种规模和配置下的FPGA验证,用于在流片前对目标芯片进行功能正确性验证和性能评估.经过该FPGA平台验证的目标芯片,首次流片返回的芯片能成功运行操作系统和各种应用程序,实现了一次流片成功的目标.最后对该FPGA验证平台的应用前景进行了分析总结. 展开更多
关键词 FPGA原型验证 FPGA分片 时分复用传输 延迟调节 性能评测
在线阅读 下载PDF
一种64位Booth乘法器的设计与优化 被引量:2
9
作者 何军 朱英 《计算机工程》 CAS CSCD 2012年第16期253-254,共2页
针对国产多核处理器的64位整数乘法器面积和功耗开销大的问题,提出一种新的Booth编码方式,对其Booth编码方式进行优化,通过多种方法验证设计优化的正确性,采用标准单元库进行逻辑综合评估。结果表明,工作频率可达1.0 GHz以上,面积减少9.... 针对国产多核处理器的64位整数乘法器面积和功耗开销大的问题,提出一种新的Booth编码方式,对其Booth编码方式进行优化,通过多种方法验证设计优化的正确性,采用标准单元库进行逻辑综合评估。结果表明,工作频率可达1.0 GHz以上,面积减少9.64%,动态功耗和漏电功耗分别减少6.34%和11.98%,能有效减少乘法器的面积和功耗,达到预期目标。 展开更多
关键词 BOOTH编码 并行乘法器 64位乘法器 设计优化 功耗
在线阅读 下载PDF
一款高精度数控振荡器设计与实现 被引量:3
10
作者 赵信 潘天锲 王飙 《计算机工程与科学》 CSCD 北大核心 2018年第2期218-223,共6页
数控振荡器是全数字锁相环的关键部件,为其提供高频输出时钟。数控振荡器的性能直接影响全数字锁相环的频率范围和抖动性能。提出了一种基于全数字标准单元库设计的数控振荡器,该结构采用粗调、中调和精调级联的调节机制,实现了0.5GHz^2... 数控振荡器是全数字锁相环的关键部件,为其提供高频输出时钟。数控振荡器的性能直接影响全数字锁相环的频率范围和抖动性能。提出了一种基于全数字标准单元库设计的数控振荡器,该结构采用粗调、中调和精调级联的调节机制,实现了0.5GHz^2.6GHz的高频率范围和0.8 ps的高调节精度。在先进工艺下实现了该数控振荡器设计,并基于此数控振荡器完成了全数字锁相环的系统设计,系统抖动小于2 ps,功耗10 mW。 展开更多
关键词 全数字锁相环 数控振荡器 高精度分辨率
在线阅读 下载PDF
一款高可靠嵌入式处理器芯片的设计 被引量:2
11
作者 朱英 田增 +3 位作者 陈叶 蒋毅飞 李彦哲 刘晓强 《计算机工程与科学》 CSCD 北大核心 2023年第3期390-397,共8页
基于申威自主指令系统设计开发了一款高可靠性、高性能嵌入式处理器芯片。该处理器采用SoC技术和AMBA总线架构,片上集成自主研发的申威第3代64位高性能处理器核心Core3,以及PCIe2.0、USB2.0等多种标准I/O接口,基于国内成熟工艺开发,片... 基于申威自主指令系统设计开发了一款高可靠性、高性能嵌入式处理器芯片。该处理器采用SoC技术和AMBA总线架构,片上集成自主研发的申威第3代64位高性能处理器核心Core3,以及PCIe2.0、USB2.0等多种标准I/O接口,基于国内成熟工艺开发,片上集成2.5亿晶体管,在-55℃~125℃宽温下的核心工作频率达到800 MHz,双精度浮点峰值性能为3.2 GFlops,全片峰值功耗小于3.2 W。详细介绍了该处理器为了实现高可靠性、低功耗和高性能等设计目标,在芯片结构设计、可靠性设计、低功耗设计和物理实现方面所采取的技术方法和手段,并给出了芯片频率、功耗和成品率等主要技术指标的测试结果。该处理器已在多个信息设备领域得到了应用,并取得了较好的社会效益。 展开更多
关键词 片上系统 嵌入式处理器 低功耗设计 AMBA总线 申威
在线阅读 下载PDF
分离通路浮点乘加器设计与实现 被引量:1
12
作者 何军 黄永勤 朱英 《计算机科学》 CSCD 北大核心 2013年第8期28-33,共6页
针对传统浮点融合乘加器会增加独立浮点加减法、乘法等运算延迟的缺点,首先设计并实现了一种分离通路浮点乘加器SPFMA,通过分离乘法和加法通路,在保持融合乘加运算延迟6拍延迟不变的情况下,将独立乘法和加法等运算延迟由6拍减为4拍,克... 针对传统浮点融合乘加器会增加独立浮点加减法、乘法等运算延迟的缺点,首先设计并实现了一种分离通路浮点乘加器SPFMA,通过分离乘法和加法通路,在保持融合乘加运算延迟6拍延迟不变的情况下,将独立乘法和加法等运算延迟由6拍减为4拍,克服了传统融合乘加器的缺点。然后经专用工艺单元库逻辑综合评估,SPFMA可工作在1.2GHz以上,面积60779.44um2。最后在硬件仿真加速器平台上运行SPEC CPU2000浮点测试课题对其进行性能评估,结果表明所有浮点课题性能均有所提高,最大提高5.25%,平均提高1.61%,证明SPFMA可进一步提高浮点性能。 展开更多
关键词 浮点加法 浮点乘法 融合乘加 分离通路 浮点性能 运算延迟
在线阅读 下载PDF
多路系统Cache一致性验证中的错误追踪定位技术 被引量:1
13
作者 李辉 巨鹏锦 计永兴 《计算机工程与科学》 CSCD 北大核心 2022年第7期1171-1180,共10页
以某国产多路系统的验证为例,基于事务级验证TBV技术,提出并实现了一种可以应用于模拟验证的自动错误追踪定位技术,通过在验证环境中对处理器的特定功能流程、相关各种请求响应、访存地址和数据流等信息进行事务级建模,记录并生成了验... 以某国产多路系统的验证为例,基于事务级验证TBV技术,提出并实现了一种可以应用于模拟验证的自动错误追踪定位技术,通过在验证环境中对处理器的特定功能流程、相关各种请求响应、访存地址和数据流等信息进行事务级建模,记录并生成了验证环境运行产生的事务级信息库,基于上述信息实现了错误的自动追踪定位,显著缩短了错误定位时间,提升了多路系统模拟验证的查错效率。同时,基于事务级的模型,也使得验证人员可以在比设计部件更高的层次描述复杂流程的Cache一致性覆盖点,这种事务级维度的覆盖率描述弥补了原有代码覆盖率和功能覆盖率局限于模块和部件级的不足,是对全面性和充分性验证的有益补充。 展开更多
关键词 处理器验证 事务级验证 多路系统 CACHE一致性 覆盖率 错误追踪
在线阅读 下载PDF
基于模型和库的处理器伪随机激励生成器设计与实现 被引量:1
14
作者 巨鹏锦 张晓冬 李辉 《计算机工程与科学》 CSCD 北大核心 2018年第1期1-9,共9页
面对处理器巨大的验证空间,伪随机激励生成器成为处理器研发中必不可少的工具。处理器设计改变尤其是架构和指令集的变化会导致之前的处理器测试集合部分甚至全部失效,验证维护成本巨大。提出一种层次化的、基于模型和库的处理器伪随机... 面对处理器巨大的验证空间,伪随机激励生成器成为处理器研发中必不可少的工具。处理器设计改变尤其是架构和指令集的变化会导致之前的处理器测试集合部分甚至全部失效,验证维护成本巨大。提出一种层次化的、基于模型和库的处理器伪随机激励生成器实现方法,针对处理器设计的特点,基于指令树建模、多维访存地址建模和处理器专家库建模等关键技术重点解决处理器研发中测试集合如何高效重用的难题。实际应用表明,该方法能够很好地适应处理器设计变化,增强处理器激励生成器的易用性和可重用性,测试集合移植重用率可以达到95%以上,显著缩短处理器更新换代时的验证周期。 展开更多
关键词 模拟验证 处理器功能验证 伪随机测试 激励生成器
在线阅读 下载PDF
浮点乘加部件延迟对浮点性能影响的研究
15
作者 何军 田增 +1 位作者 郭勇 陈诚 《计算机工程》 CAS CSCD 2013年第7期311-313,317,共4页
浮点融合乘加部件会增加独立浮点加减法、乘法等运算延迟。为克服该缺陷,研究将乘加部件独立乘法、加减法等运算延迟由6拍减为4拍时对浮点性能的影响。以某支持乘加运算的国产处理器为基础,修改相关的RTL级设计代码,利用硬件仿真加速器... 浮点融合乘加部件会增加独立浮点加减法、乘法等运算延迟。为克服该缺陷,研究将乘加部件独立乘法、加减法等运算延迟由6拍减为4拍时对浮点性能的影响。以某支持乘加运算的国产处理器为基础,修改相关的RTL级设计代码,利用硬件仿真加速器平台,对SPEC CPU2000浮点测试课题进行评估。实验结果表明,该延迟优化有利于提高浮点性能,最大提高5.25%,平均提高1.61%。 展开更多
关键词 浮点加法 浮点乘法 融合乘加 硬件仿真 浮点性能 运算延迟
在线阅读 下载PDF
基于SIMD部件的四倍精度浮点乘加器设计
16
作者 何军 黄永勤 朱英 《计算机科学》 CSCD 北大核心 2013年第12期15-18,51,共5页
如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减... 如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减法、比较运算,运算延迟为7拍。通过将四倍精度113位×113位尾数乘法器分解为4个57位×57位乘法器来共享双精度浮点SIMD FMA部件的53位×53位乘法器,显著减少了实现QPFMA的硬件开销。基于65nm工艺的逻辑综合结果表明,该QPFMA频率可达1.1GHz,面积是常规QPFMA设计的42.71%,仅与一个双精度浮点乘加器相当。与现有的QPFMA设计相比,相当工艺和频率下,其运算延迟减少了3拍,门数减少了65.96%。 展开更多
关键词 浮点 SIMD部件 乘加 四倍精度 高精度
在线阅读 下载PDF
流水的浮点倒数近似值运算部件的设计与实现
17
作者 何军 王丽 《国防科技大学学报》 EI CAS CSCD 北大核心 2020年第2期41-46,共6页
在部分低精度浮点运算应用中,需要流水的浮点倒数近似值运算。本文基于SRT-4算法设计并实现了一种流水的浮点倒数近似值运算部件。该部件采用6级流水线结构,运算结果精度至少为8位有效尾数。为了支持对非规格化浮点数的硬件处理,还设计... 在部分低精度浮点运算应用中,需要流水的浮点倒数近似值运算。本文基于SRT-4算法设计并实现了一种流水的浮点倒数近似值运算部件。该部件采用6级流水线结构,运算结果精度至少为8位有效尾数。为了支持对非规格化浮点数的硬件处理,还设计并实现了改进版,有利于进一步提高浮点倒数近似值运算的性能。改进版采用8级流水线结构,新增了源操作数预规格化和结果后规格化功能模块,可以实现对非规格化浮点数的硬件处理。经过逻辑综合评估,改进版的硬件开销是面积在合理范围内增加19.23%,且对时序没有明显影响,可以满足预期的1.6 GHz频率设计目标。 展开更多
关键词 浮点倒数 非规格化浮点数 流水
在线阅读 下载PDF
一款可综合全数字锁相环设计与分析
18
作者 赵信 俞思辰 +2 位作者 闵昊 王飙 黄永勤 《计算机工程与科学》 CSCD 北大核心 2015年第11期2030-2034,共5页
全数字锁相环ADPLL拥有较高的集成度、灵活的配置性和快速的工艺可移植性,可以解决模拟电路中无源器件面积过大、抗噪声能力不强、锁定速度慢以及工艺的移植性差等瓶颈问题。在纳米工艺下,单级反相器的最小延时已经达到10ps以内,大大改... 全数字锁相环ADPLL拥有较高的集成度、灵活的配置性和快速的工艺可移植性,可以解决模拟电路中无源器件面积过大、抗噪声能力不强、锁定速度慢以及工艺的移植性差等瓶颈问题。在纳米工艺下,单级反相器的最小延时已经达到10ps以内,大大改善了全数字锁相环的抖动性能。提出了一款面向高性能微处理器应用的全数字锁相环结构,并对该结构进行了频域建模和噪声分析。该结构完全采用标准单元设计,最高频率可达到2.4GHz,抖动性能达到ps级别。 展开更多
关键词 全数字锁相环 低抖动 可综合
在线阅读 下载PDF
基于多目标遗传算法的单指令集异构多核系统静态任务调度 被引量:4
19
作者 徐远超 张志敏 蒋毅飞 《小型微型计算机系统》 CSCD 北大核心 2012年第10期2237-2242,共6页
与同构多核处理器相比,单指令集异构多核处理器能够更好的匹配程序行为的多样性,从而具有更好的性能功耗比.异构多核处理器的能效优势依赖于操作系统合理而有效的调度,追求性能与功耗的统一,是典型的多目标优化问题.提出将多目标优化遗... 与同构多核处理器相比,单指令集异构多核处理器能够更好的匹配程序行为的多样性,从而具有更好的性能功耗比.异构多核处理器的能效优势依赖于操作系统合理而有效的调度,追求性能与功耗的统一,是典型的多目标优化问题.提出将多目标优化遗传算法应用于寻找异构多核环境下最优的静态任务调度方案,提出表征任务相对顺序的染色体编码结构,使种群初始化时的有效个体所占比例变为100%.提出使用先序关系矩阵来确定任务的执行顺序,克服了高度值方法存在的严重不足.仿真结果表明,先序关系矩阵方法能扩大搜索范围,在种群规模足够大时,可以找到高度值方法漏掉的部分最优解. 展开更多
关键词 异构多核 任务调度 多目标优化 遗传算法 性能功耗比
在线阅读 下载PDF
基于二进制插桩的ASIP处理器指令集混合仿真方法
20
作者 邱吉 高翔 +2 位作者 彭飞 汪文祥 蒋毅飞 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期330-335,共6页
指令集仿真器在ASIP处理器硅前软件开发中发挥着重要的作用,但使用传统仿真方法的指令集仿真器仿真速度较慢.基于二进制插桩,提出了ASIP处理器指令集混合仿真方法,以混合仿真的方式,使基础指令直接运行在宿主机上,仅对扩展指令仿真,从... 指令集仿真器在ASIP处理器硅前软件开发中发挥着重要的作用,但使用传统仿真方法的指令集仿真器仿真速度较慢.基于二进制插桩,提出了ASIP处理器指令集混合仿真方法,以混合仿真的方式,使基础指令直接运行在宿主机上,仅对扩展指令仿真,从而降低仿真开销,提升仿真速度.实验表明,采用此方法对主流高清音视频解码软件进行仿真的平均速度达到了1058.5MIPS,是采用当前先进的动态二进制翻译仿真方法仿真器速度的34.7倍. 展开更多
关键词 指令集仿真 专用指令集处理器 混合仿真 二进制插桩
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部