期刊文献+
共找到2,582篇文章
< 1 2 130 >
每页显示 20 50 100
片间互连总线协议层关键技术研究
1
作者 邢世远 张见齐 +2 位作者 王焕东 吴学智 吴瑞阳 《高技术通讯》 北大核心 2025年第2期113-123,共11页
随着以数据分析、网络搜索和虚拟现实为核心的新数据中心和高性能计算应用程序的开发,高性能计算平台上需要传输的数据量不断增加,数据密集型应用对片间数据传输带宽需求的增长从未停止,片间互连总线被视为系统瓶颈的潜在来源。相比于... 随着以数据分析、网络搜索和虚拟现实为核心的新数据中心和高性能计算应用程序的开发,高性能计算平台上需要传输的数据量不断增加,数据密集型应用对片间数据传输带宽需求的增长从未停止,片间互连总线被视为系统瓶颈的潜在来源。相比于在物理层提高总线传输速率和增加信号数量提升带宽的传统做法,在总线协议层通过结构设计优化提高带宽利用率也是提升总带宽的重要解决思路。相比前者,后者不会引入额外成本开销,并且具有能耗友好的优势。本文在协议层提出了3个关键技术,分别是数据命令分离的片内语义到跨片语义转换方案、基于年龄(Age)策略的仲裁算法和片间数据压缩技术。数据命令分离的语义策略具有很强的跨架构通用性,是仲裁和压缩的前提。片间总线协议层仲裁和压缩技术通过结构的方法大幅提高了总线带宽利用率。在Synopsys Zebu仿真加速平台上的实验结果表明,本文方法的总线架构在关闭和开启数据压缩情形下带宽利用率分别为45.8%和69.7%,达到国际先进水平。 展开更多
关键词 片间互连 总线协议层 语义转换 仲裁 数据压缩 仿真加速器
在线阅读 下载PDF
2024年中国高性能计算机发展现状分析 被引量:1
2
作者 张云泉 邓力 +1 位作者 袁良 袁国兴 《计算机工程与科学》 CSCD 北大核心 2024年第12期2091-2098,共8页
根据2024年11月发布的中国高性能计算机性能TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、体系结构和行业领域等方面进行了讨论分析,同时对未来发展进行了展望。
关键词 高性能计算机 性能 排行榜 测评技术
在线阅读 下载PDF
边缘计算技术发展与对策研究 被引量:46
3
作者 洪学海 汪洋 《中国工程科学》 CSCD 北大核心 2018年第2期20-26,共7页
边缘计算是一项正在兴起的技术,通过把计算、存储、带宽、应用等资源放在网络的边缘侧,以便减小传输延迟和带宽消耗。同时,应用开发者和内容提供商可以根据实时的网络信息提供可感知的服务。移动终端、物联网等设备为计算敏感型的应用... 边缘计算是一项正在兴起的技术,通过把计算、存储、带宽、应用等资源放在网络的边缘侧,以便减小传输延迟和带宽消耗。同时,应用开发者和内容提供商可以根据实时的网络信息提供可感知的服务。移动终端、物联网等设备为计算敏感型的应用提供了必要的前端处理支撑,例如图像识别、网络游戏等应用,以利用边缘计算的处理能力分担云端工作负荷。本文介绍了边缘计算的概念、需解决的关键问题、主要研究进展,边缘计算发展带来的影响以及边缘计算带来的机遇和发展对策。 展开更多
关键词 云计算 边缘计算 雾计算 移动边缘计算 物联网 前端智能
在线阅读 下载PDF
2013年中国高性能计算机发展现状分析及系统测评技术简析 被引量:11
4
作者 袁国兴 孙家昶 +1 位作者 张林波 张云泉 《计算机工程与科学》 CSCD 北大核心 2013年第11期1-5,共5页
根据2013年11月发布的中国高性能计算机性能TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了深入分析。同时,对高性能计算机系统的测评技术,尤其是对用作排行榜性能测试的Linpack和国内外最... 根据2013年11月发布的中国高性能计算机性能TOP100排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了深入分析。同时,对高性能计算机系统的测评技术,尤其是对用作排行榜性能测试的Linpack和国内外最近关注的HPCG两个软件包进行了简要分析。 展开更多
关键词 高性能计算机 性能 排行榜 系统测评技术
在线阅读 下载PDF
基于Direct3D逼真中国手语合成技术研究及应用实现 被引量:4
5
作者 颜庆聪 陈益强 刘军发 《系统仿真学报》 CAS CSCD 北大核心 2009年第22期7160-7163,共4页
给出了一种基于Direct3D逼真的中国手语合成技术研究和实现方法。同时也提出了一种基于上下文相关的虚拟人手势动作平滑算法。最后,将这些研究方法和虚拟人合成技术应用到奥运手语互动教学网页系统中并实现了该系统。
关键词 虚拟人合成 手语合成 DIRECT3D 动画平滑
在线阅读 下载PDF
复杂地理计算并行算法性能评估技术研究 被引量:2
6
作者 方金云 闵伟 +1 位作者 陈翠婷 李栋宾 《地理与地理信息科学》 CSCD 北大核心 2013年第4期95-98,共4页
并行地理计算与面向计算密集型的高性能计算和面向数据密集型的分布式计算不同,因此迫切需要一套针对地理计算的监测评估工具,以发现并行程序性能的瓶颈和热点,获得程序设计、实现和优化指导。该文通过代码自动插桩、热点监控、事件日... 并行地理计算与面向计算密集型的高性能计算和面向数据密集型的分布式计算不同,因此迫切需要一套针对地理计算的监测评估工具,以发现并行程序性能的瓶颈和热点,获得程序设计、实现和优化指导。该文通过代码自动插桩、热点监控、事件日志并行分析等技术实现了复杂地理计算并行算法性能评估,经过初步验证,并行工具性能良好,能够满足地理计算并行算法评估要求。 展开更多
关键词 地理计算 并行算法 性能评估
在线阅读 下载PDF
面向隐私计算的模运算加速设计
7
作者 刘宏伟 支梁 +3 位作者 秦梦远 陈铭志 董文阔 郝沁汾 《计算机工程与科学》 北大核心 2025年第8期1331-1342,共12页
隐私计算技术是数据中心保证数据安全的重要手段,随着量子计算的发展,基于格的后量子算法和全同态加密算法逐步发展流行。在这些算法中,模运算都是广泛使用的非线性算子之一,主要用于避免计算过程中出现溢出。面向隐私计算及密码学应用... 隐私计算技术是数据中心保证数据安全的重要手段,随着量子计算的发展,基于格的后量子算法和全同态加密算法逐步发展流行。在这些算法中,模运算都是广泛使用的非线性算子之一,主要用于避免计算过程中出现溢出。面向隐私计算及密码学应用中广泛使用的模运算问题,在FPGA平台上基于PCIe接口设计实现了一个软硬件协同加速设计,能够有效掩盖通信延迟,并支持高达2048位的模运算,包括模乘和模幂运算,以服务于有隐私计算需求的数据中心场景。已有研究工作都仅关注模运算本身,而此软硬件协同框架则给出了一个完整的加速框架,不仅包含运算核心,还给出了数据和软硬件接口,并减少了通信延迟的影响。最后结合一个具体的运营商场景,实现了针对性的加速应用,通过实验验证了设计的性能优势。 展开更多
关键词 隐私计算 模乘 模幂 软硬件协同 RSA
在线阅读 下载PDF
数据要素场技术体系及工程实践
8
作者 吴曼青 洪日昌 +7 位作者 王佐成 林传文 马韵洁 郭嘉丰 吴乐 范举 张兰 王翔 《中国工程科学》 北大核心 2025年第1期51-62,共12页
将数据作为新的生产要素,是我国在精准把握和研判全球科技发展规律下提出的重大理论创新。以数据要素市场化配置改革为主线,培育全国一体化数据市场,促进数据要素开发利用,是我国数据要素创新发展的总体纲领。本文围绕数据要素市场化配... 将数据作为新的生产要素,是我国在精准把握和研判全球科技发展规律下提出的重大理论创新。以数据要素市场化配置改革为主线,培育全国一体化数据市场,促进数据要素开发利用,是我国数据要素创新发展的总体纲领。本文围绕数据要素市场化配置改革,聚焦推动数据要素流通和数据要素价值释放,提出探索数据要素价值时空分布的内在机理即数据场基础理论,探讨了在深入研究数据场基础理论的同时,构建涵盖数据要素流通全生命周期的数据要素场技术体系,具体包括跨域数据管理技术、数据件封装技术、低熵化流通技术、穿透式安全技术和聚变式处理技术。同时,分析了数据要素场在卫生健康场景中的工程实践案例,提出了数据要素场的创新应用场景和工程实践范式,展望了数据场基础理论和数据要素场关键技术、工程实践、生态构建方面的前景,旨在为数据场的发展提供理论基础和实践指导,推动数字经济和社会治理的现代化。 展开更多
关键词 数据场 跨域数据管理 数据件封装 低熵化流通 穿透式安全 聚变式处理技术
在线阅读 下载PDF
产学研协作系统的研究与实现
9
作者 徐欣 管震 朱登明 《计算机应用与软件》 北大核心 2025年第1期391-397,共7页
促进产学研合作是推动我国经济高质量发展的主要驱动力,是国家发展战略的重要组成。近年来,许多地方政府部门与组织都开始尝试通过打造线上产学研协作平台推动当地产学研合作发展。但是,目前现有平台都存在线上交流能力弱、数据信用无... 促进产学研合作是推动我国经济高质量发展的主要驱动力,是国家发展战略的重要组成。近年来,许多地方政府部门与组织都开始尝试通过打造线上产学研协作平台推动当地产学研合作发展。但是,目前现有平台都存在线上交流能力弱、数据信用无保证、智能化程度不高等问题。因此,提出新一代产学研协作管理系统,可有效结合人工智能算法、区块链、第三方云服务等新信息技术,高效支撑产学研协作对接的全过程。与原平台相比,能进一步提高产学研协作效率并改善用户体验。 展开更多
关键词 产学研协作 人工智能 区块链 云计算
在线阅读 下载PDF
面向YOLO神经网络的数据流架构优化研究 被引量:2
10
作者 穆宇栋 李文明 +5 位作者 范志华 吴萌 吴海彬 安学军 叶笑春 范东睿 《计算机学报》 北大核心 2025年第1期82-99,共18页
YOLO目标检测算法具有速度快、精度高、结构简单、性能稳定等优点,因此在多种对实时性要求较高的场景中得到广泛应用。传统的控制流架构在执行YOLO神经网络时面临计算部件利用率低、功耗高、能效较低等挑战。相较而言,数据流架构的执行... YOLO目标检测算法具有速度快、精度高、结构简单、性能稳定等优点,因此在多种对实时性要求较高的场景中得到广泛应用。传统的控制流架构在执行YOLO神经网络时面临计算部件利用率低、功耗高、能效较低等挑战。相较而言,数据流架构的执行模式与神经网络算法匹配度高,更能充分挖掘其中的数据并行性。然而,在数据流架构上部署YOLO神经网络时面临三个问题:(1)数据流架构的数据流图映射并不能结合YOLO神经网络中卷积层卷积核较小的特点,造成卷积运算数据复用率过低的问题,并进一步降低计算部件利用率;(2)数据流架构在算子调度时无法利用算子间结构高度耦合的特点,导致大量数据重复读取;(3)数据流架构上的数据存取与执行高度耦合、串序执行,导致数据存取延迟过高。为解决这些问题,本文设计了面向YOLO神经网络的数据流加速器DFU-Y。首先,结合卷积嵌套循环的执行模式,本文分析了小卷积核卷积运算的数据复用特征,并提出了更有利于执行单元内部数据复用的数据流图映射算法,从而整体提升卷积运行效率;然后,为充分利用结构耦合的算子间的数据复用,DFU-Y提出数据流图层次上的算子融合调度机制以减少数据存取次数、提升神经网络运行效率;最后,DFU-Y通过双缓存解耦合数据存取与执行,从而并行执行数据存取与运算,掩盖了程序间的数据传输延迟,提高了计算部件利用率。实验表明,相较数据流架构(DFU)和GPU(NVIDIA Xavier NX),DFU-Y分别获得2.527倍、1.334倍的性能提升和2.658倍、3.464倍的能效提升;同时,相较YOLO专用加速器(Arria-YOLO),DFU-Y在保持较好通用性的同时,达到了其性能的72.97%、能效的87.41%。 展开更多
关键词 YOLO算法 数据流架构 数据流图优化 卷积神经网络 神经网络加速
在线阅读 下载PDF
面向超导量子计算机的程序映射技术研究 被引量:5
11
作者 窦星磊 刘磊 陈岳涛 《计算机研究与发展》 EI CSCD 北大核心 2021年第9期1856-1874,共19页
量子程序在量子计算机上执行时可能由于噪声产生错误.先前的量子程序映射策略将量子程序映射至量子计算机中的最健壮的区域上,以获得更高的保真度.在量子计算机上同时映射多个量子程序可以提升量子计算机的通量和资源利用率.但由于健壮... 量子程序在量子计算机上执行时可能由于噪声产生错误.先前的量子程序映射策略将量子程序映射至量子计算机中的最健壮的区域上,以获得更高的保真度.在量子计算机上同时映射多个量子程序可以提升量子计算机的通量和资源利用率.但由于健壮资源稀缺、资源分配冲突,并发量子程序映射会导致整体可靠性下降.介绍了量子程序映射,对相关研究进行分类,并深入分析了其特点与区别.此外,针对并发量子程序映射问题提出了一种新的映射策略,包括3个关键设计:1)提出了社区发现辅助量子位划分算法.结合拓扑结构和错误率数据为并发量子程序进行物理量子位划分,提升初始映射可靠性,避免健壮资源的浪费.2)引入了跨程序SWAP操作,降低了并发量子程序的映射开销.3)提出了一种量子程序映射任务的调度框架,用于动态选取并发量子程序,在保证量子计算机保真度的前提下,提升了通量.所提策略较先前工作在程序执行保真度上提升了8.6%,节省了11.6%的映射开销.所设计的系统是一个面向量子计算机的操作系统原型——QuOS. 展开更多
关键词 量子计算 并发程序 映射 保真度 任务调度
在线阅读 下载PDF
数字公共产品开放协作治理机制研究:基于国际经验分析的视角 被引量:2
12
作者 隆云滔 林靖玲 +1 位作者 刘海波 包云岗 《中国软科学》 北大核心 2025年第1期65-76,共12页
随着全球数字经济的迅速发展,各国都越来越重视数字公共产品的供给、运营和治理。我国也在积极探索基于协作治理的数字公共产品生态建设。研究数字公共产品开放协作治理在技术供给、组织运营和体制机制等方面的国际经验,总结提出数字公... 随着全球数字经济的迅速发展,各国都越来越重视数字公共产品的供给、运营和治理。我国也在积极探索基于协作治理的数字公共产品生态建设。研究数字公共产品开放协作治理在技术供给、组织运营和体制机制等方面的国际经验,总结提出数字公共产品协作治理生态系统。研究进一步探索了数字公共产品在开源技术研发、数字公共基础设施建设和市场应用等方面的有效发挥,并提出构建我国数字公共产品生态系统的建议,为推动我国数字技术创新生态的发展提供思路。 展开更多
关键词 数字经济 数字公共产品 开源创新 组织运营 协作公共治理
在线阅读 下载PDF
基于剪枝的大模型联邦参数高效微调技术 被引量:1
13
作者 曾辉 熊诗雨 +1 位作者 狄永正 史红周 《计算机应用》 北大核心 2025年第3期715-724,共10页
随着数据隐私重要性的不断提升,用于下游任务的预训练基础模型(PFM)的微调变得愈发困难,这推动了基于PFM的联邦学习研究。然而,PFM给联邦学习系统带来了显著的挑战,特别是在本地计算和通信方面。因此,针对联邦学习的本地计算和聚合通信... 随着数据隐私重要性的不断提升,用于下游任务的预训练基础模型(PFM)的微调变得愈发困难,这推动了基于PFM的联邦学习研究。然而,PFM给联邦学习系统带来了显著的挑战,特别是在本地计算和通信方面。因此,针对联邦学习的本地计算和聚合通信这两个主要阶段,分别提出对应的解决方案,即本地高效微调模式和环形本地聚合模式。本地高效微调模式采用基于参数高效微调(PEFT)的模型剪枝算法以减轻本地计算和通信开销;环形本地聚合模式采用分布式的本地聚合方法取代中心化的聚合方法以提升聚合阶段的通信效率。实验结果表明,所提大模型联邦参数高效微调框架在最终性能和效率方面均表现良好。 展开更多
关键词 联邦学习 大模型 微调 参数高效微调 模型剪枝
在线阅读 下载PDF
智联计算网络技术发展研究 被引量:1
14
作者 李丹 胡宇翔 +2 位作者 潘恒 张建辉 邬江兴 《中国工程科学》 CSCD 北大核心 2023年第6期39-48,共10页
算网融合的理念和技术处于发展初期,相应计算任务调度、网络互联也处于“脱节”状态,因而把握智联计算网络技术发展趋势并提出自主创新的战略构想及发展路线成为亟需。本文分析了现有信息网络技术面临的挑战,提炼出网络与计算融合发展... 算网融合的理念和技术处于发展初期,相应计算任务调度、网络互联也处于“脱节”状态,因而把握智联计算网络技术发展趋势并提出自主创新的战略构想及发展路线成为亟需。本文分析了现有信息网络技术面临的挑战,提炼出网络与计算融合发展的主要趋势;论证形成我国自主创新的智联计算网络核心架构,精准阐明智联计算网络的发展目标与预期效益;深入剖析智联计算网络技术发展路线,涵盖多样化协议支撑、“网-算-存”一体化控制、服务功能智能编排、内生安全构造等智联计算网络关键技术布局,智慧园区网络场景、垂直行业网络场景、数据中心网络场景等智联计算网络示范应用。研究建议,深入创新智联计算网络技术体系,广泛部署智联计算网络示范应用,加速推动智联计算网络产品落地,以此促进智联计算网络技术的演进与应用。 展开更多
关键词 智联计算网络 多样化协议 “网-算-存”一体化 服务功能智能编排 内生安全
在线阅读 下载PDF
基于数据流架构的NTT蝶式计算加速
15
作者 石泓博 范志华 +4 位作者 李文明 张志远 穆宇栋 叶笑春 安学军 《计算机研究与发展》 北大核心 2025年第6期1547-1561,共15页
全同态加密(fully homomorphic encryption,FHE)因其在计算全过程中保持数据加密的能力,为云计算等分布式环境中的隐私保护提供了重要支撑,具有广泛的应用前景.然而,FHE在计算过程中普遍存在运算复杂度高、数据局部性差以及并行度受限... 全同态加密(fully homomorphic encryption,FHE)因其在计算全过程中保持数据加密的能力,为云计算等分布式环境中的隐私保护提供了重要支撑,具有广泛的应用前景.然而,FHE在计算过程中普遍存在运算复杂度高、数据局部性差以及并行度受限等问题,导致其在实际应用中的性能严重受限.其中,快速数论变换(number theoretic transform,NTT)作为FHE中关键的基础算子,其性能对整个系统的效率具有决定性影响.针对NTT中的核心计算模式--蝶式(butterfly)计算,提出一种基于数据流计算模型的NTT加速架构.首先,设计面向NTT蝶式计算的RVFHE扩展指令集,定制高效的模乘与模加/模减运算单元,以提升模运算处理效率.其次,提出一种NTT数据重排方法,并结合结构化的蝶式地址生成策略,以降低跨行列数据交换的控制复杂度与访问冲突.最后,设计融合数据流驱动机制的NTT加速架构,通过数据依赖触发方式实现高效的片上调度与数据复用,从而充分挖掘操作级并行性.实验结果表明,与NVIDIA GPU相比,提出的架构获得了8.96倍的性能提升和8.53倍的能效提升;与现有的NTT加速器相比,所提架构获得了1.37倍的性能提升. 展开更多
关键词 数据流 全同态加密 NTT算法 蝶式计算 RISC-V指令集
在线阅读 下载PDF
基于数据压缩和异步通信策略的分布式图算法优化研究
16
作者 梁彦 聂娜 +3 位作者 曹华伟 马丽娜 叶笑春 范东睿 《高技术通讯》 北大核心 2025年第2期145-156,共12页
图是一种非常重要的数据结构形式,被广泛用于社交网络、交通网络和搜索引擎等领域。随着图数据规模爆发式增长,存储容量受限,分布式图计算成为处理大规模图数据的焦点。宽度优先搜索(breadth first search,BFS)算法是图遍历和许多图分... 图是一种非常重要的数据结构形式,被广泛用于社交网络、交通网络和搜索引擎等领域。随着图数据规模爆发式增长,存储容量受限,分布式图计算成为处理大规模图数据的焦点。宽度优先搜索(breadth first search,BFS)算法是图遍历和许多图分析算法的基础,而在分布式图计算过程中存在严重的通信开销。针对上述问题,本文提出了一种综合的数据压缩编码优化方案,结合位图和变长压缩数组,通过更高的压缩率来降低数据通信开销;此外,还提出了一种点对点异步环形通信策略,进一步降低分布式图计算中计算-通信的同步开销。通过这些优化手段,本文在8节点的分布式集群上对优化后BFS算法的性能进行了系统评估,结果表明,当图数据规模为28时,优化后的BFS算法平均性能为46.79亿条边每秒遍历(giga-traversed edges per second,GTEPS),性能比优化前提升了接近7.82%。 展开更多
关键词 宽度优先搜索 图数据划分 压缩编码 异步环形通信 并行优化
在线阅读 下载PDF
基于权力信号的跨表格迁移学习方法研究
17
作者 张广发 陈加乐 方金云 《高技术通讯》 北大核心 2025年第5期451-460,共10页
为了有效监督和审计政府行使公权力,本文提出了一种基于权力信号的跨表格迁移学习方法,目的是从政务信息系统的表格数据(简称政务表格数据)中自动检测出权力滥用问题。权力信号是公权力行使过程中的关键特征,由关键人、决策、资金、项... 为了有效监督和审计政府行使公权力,本文提出了一种基于权力信号的跨表格迁移学习方法,目的是从政务信息系统的表格数据(简称政务表格数据)中自动检测出权力滥用问题。权力信号是公权力行使过程中的关键特征,由关键人、决策、资金、项目和物资5个要素构成。这些权力信号分布在不同的政务表格数据中,政务表格数据结构多样,对权力信号跨表格学习带来挑战。本文设计了一种基于权力信号的跨表格迁移学习框架PowerTab(power tabular transformer),旨在引导模型在政务表格数据上学习通用的权力信号表征,并使用迁移学习将其应用到目标任务的检测模型中。该框架实现了一种在政务表格数据中提取词元级权力特征的方法,使得检测模型具有零样本学习能力。在5个数据集上的实验结果表明本文方法优于基线方法,为政务表格数据的大数据监督提供了一种有效的手段。 展开更多
关键词 大数据监督 政务数据 权力信号 表格学习 迁移学习
在线阅读 下载PDF
映天湖:晶圆级通用异构多芯粒千万亿次计算机
18
作者 董文阔 殷春锁 +7 位作者 张志锰 王鹏超 沙江 王梦雅 朱旻琦 刘宏伟 刘宇航 郝沁汾 《计算机研究与发展》 北大核心 2025年第6期1492-1512,共21页
晶圆级计算机通过先进封装技术集成多芯粒,突破传统芯片面积限制实现算力扩展,但现存方案因领域专用化设计难以满足通用计算需求.面向高性能计算与智能计算场景的负载特征,提出一种新型通用化晶圆级系统架构——映天湖.首先通过解耦式... 晶圆级计算机通过先进封装技术集成多芯粒,突破传统芯片面积限制实现算力扩展,但现存方案因领域专用化设计难以满足通用计算需求.面向高性能计算与智能计算场景的负载特征,提出一种新型通用化晶圆级系统架构——映天湖.首先通过解耦式计算模组-互连基板架构设计,结合标准化I/O接口支持多种计算模组;其次构建可重构晶上网络,采用动态拓扑重构技术适配不同业务流量模式;继而开发拓扑无关的容错控制,保障计算单元失效时的服务持续性.实验结果表明,所设计的可重构晶上网络可实现秒级拓扑切换时延.基于TSMC28nm工艺成功流片验证的16个计算模组的原型系统,在高性能线性代数计算任务中展现了约1.45倍的吞吐量提升,在深度学习推理任务中则展现约1.78倍的时延性能提升,单晶圆可实现千万亿次性能,证实该架构在实现晶圆级系统通用化方面的技术突破,为下一代异构计算平台提供了可扩展的硬件基础架构. 展开更多
关键词 晶圆级计算机 高性能计算 智能计算 标准化I/O设计 可重构晶上网络
在线阅读 下载PDF
Pipe-RLHF:计算模式感知的RLHF并行加速框架
19
作者 徐颖 王梦迪 +4 位作者 程龙 刘炼 赵世新 张磊 王颖 《计算机研究与发展》 北大核心 2025年第6期1513-1529,共17页
基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问... 基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问题.PPO由生成、推理、训练3个相互关联的阶段组成,各个阶段有着不同的计算特性.然而,现有的RLHF并行框架采用相同并行策略顺序执行PPO的所有阶段,这导致以下2个问题:其一,生成阶段不能充分利用计算资源,进而影响整体效率;其二,阶段间严格串行执行,未能充分利用潜在并行性.针对上述问题,提出了一个新型RLHF并行框架——Pipe-RLHF.该框架能够自适应地根据各阶段的计算特征确定最优并行策略,突破现有阶段串行范式,采用异步PPO算法发掘阶段间的并行性.具体而言,创新性地提出了适用于PPO生成阶段的延迟批间流水线并行方法,显著提升了该阶段的计算资源利用率;再次,使用异步PPO解放阶段间的依赖关系,将阶段间并行应用到PPO的加速上;最后,针对PPO算法的整体优化,构建了分层并行策略空间,并提出了一套优化算法以实现该空间中的最优解搜索.通过在多个大语言模型上的性能评估实验表明,相较于现有方法,Pipe-RLHF最高可实现3.7倍的加速比,充分验证了该框架的有效性和优越性. 展开更多
关键词 基于人类反馈的强化学习 近端策略优化 大模型微调 分布式系统 并行计算
在线阅读 下载PDF
微处理器性能分析与优化:基于SPEC CPU2017的对比研究
20
作者 徐晗 郭振江 肖俊华 《高技术通讯》 北大核心 2025年第3期241-249,共9页
运行标准测试程序是进行微处理器设计空间探索的基本手段。横向对比分析国内外主流处理器在标准测试程序场景下的各项性能指标,有助于识别国产处理器的性能瓶颈,为进一步的性能优化指明方向。本文基于SPEC CPU2017对3款微处理器进行同... 运行标准测试程序是进行微处理器设计空间探索的基本手段。横向对比分析国内外主流处理器在标准测试程序场景下的各项性能指标,有助于识别国产处理器的性能瓶颈,为进一步的性能优化指明方向。本文基于SPEC CPU2017对3款微处理器进行同频性能测试和对比分析,分别是龙芯LA464架构的3A5000微处理器、AMD ZEN1架构的R3-1200以及Intel Skylake架构的i3-9100f。根据测试结果,3A5000定点性能与R3-1200基本相同,比i3-9100f低10%左右;3A5000浮点性能相当于另2款微处理器的70%左右。本文从动态指令数和每周期指令数(instruction per cycle,IPC)2个角度对微处理器进行比较和分析。基于SPEC CPU2017的结果显示,3A5000定点动态指令数和浮点动态指令数分别比另2款微处理器多约10%和25%。在3A5000上使用激进的自动向量化编译优化策略、优化立即数乘法编译效率等手段可以将其性能提升10%左右。3A5000的定点IPC比另外2款微处理器高4%左右,浮点IPC低8%左右。发射宽度、执行单元数量、功能和延迟等微结构参数接近是3款微处理器IPC差别较小的主要原因。 展开更多
关键词 SPEC CPU2017 性能分析 龙芯3A5000 向量化 体系结构
在线阅读 下载PDF
上一页 1 2 130 下一页 到第
使用帮助 返回顶部