期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
面向国产加速器的并行代码自动生成框架
1
作者 王玲 高娅 +1 位作者 吉青 卜景德 《计算机工程与设计》 北大核心 2025年第5期1438-1444,共7页
国产加速器复杂的硬件架构需要编写高度优化的代码才能充分发挥其卓越性能,由此带来繁重工作量和技术难度,为此提出一种面向国产加速器的并行代码自动生成框架。基础配置参数模块涵盖广泛的参数选项,实现代码自动调优,提高框架的通用性... 国产加速器复杂的硬件架构需要编写高度优化的代码才能充分发挥其卓越性能,由此带来繁重工作量和技术难度,为此提出一种面向国产加速器的并行代码自动生成框架。基础配置参数模块涵盖广泛的参数选项,实现代码自动调优,提高框架的通用性;预定义代码生成模块生成汇编代码并加入算法优化,扩展预定义代码的汇编指令适配目标架构支持的指令集使该框架适用于其它加速器;最优代码选择模块根据框架生成的多组代码执行情况智能地选择性能最佳的代码进行输出。实验结果表明,该框架能够生成常见数据类型的程序,使用优化组件组合后生成的基准测试程序的性能可达到国产加速器理论峰值的90.1%。 展开更多
关键词 国产加速器 自动调优 配置参数 预定义代码 汇编指令 最优代码选择 代码自动生成
在线阅读 下载PDF
基于国产加速器的三维卷积前向算子优化
2
作者 姬晨晨 陈永青 韩孟之 《计算机工程》 北大核心 2025年第2期250-258,共9页
目前三维卷积神经网络(3D CNN)的应用场景越来越广泛,其能够从原始数据中提取更丰富、更具判别性的特征信息,在处理3D数据、特征提取和实际应用等方面具有重要意义。然而,从二维(2D)数据到3D数据的转变导致了卷积运算的数据量和计算量... 目前三维卷积神经网络(3D CNN)的应用场景越来越广泛,其能够从原始数据中提取更丰富、更具判别性的特征信息,在处理3D数据、特征提取和实际应用等方面具有重要意义。然而,从二维(2D)数据到3D数据的转变导致了卷积运算的数据量和计算量均呈指数级增长,对计算资源和时间的需求也相应增加,这会导致训练和推理过程更加耗时,特别是在处理大规模3D数据时尤为明显。针对以上问题,提出一种基于国产加速器的隐式卷积算法,对3D卷积的前向计算过程进行优化。首先,该算法结合了硬件特点和并行化思路,利用索引直接访问所需计算的数据地址,无须开辟新的内存空间,大幅节省内存开销;其次,考虑到国产加速器具有高度并行的计算结构和丰富的计算资源,适合处理大规模数据和复杂的计算任务,结合国产加速器的计算能力和架构特点,采用一系列特定的异构并行优化算法,加速3D卷积前向算子的计算过程,提高计算效率和性能。实验结果表明,自研算子性能远超国产计算平台现有算子的最优性能,在多数情况下与NVIDIA V100之间的能效比可以达到70%甚至更高。 展开更多
关键词 三维卷积 国产加速器 隐式卷积算法 索引机制 前向算子优化 并行优化算法
在线阅读 下载PDF
基于国产异构平台的奇异值分解法
3
作者 杨太龙 赵红朋 张磊 《计算机工程》 CAS CSCD 北大核心 2024年第9期216-225,共10页
随着深度学习等高算力应用的发展,异构计算正在逐步成为并行计算的重要方向。国产异构平台近年来发展迅速,针对国产平台的架构定制开发适配的算法与软件有着重要意义。奇异值分解(SVD)作为线性代数库中用于处理一般矩阵的强大分解器,应... 随着深度学习等高算力应用的发展,异构计算正在逐步成为并行计算的重要方向。国产异构平台近年来发展迅速,针对国产平台的架构定制开发适配的算法与软件有着重要意义。奇异值分解(SVD)作为线性代数库中用于处理一般矩阵的强大分解器,应用在科学计算、人工智能、信号处理等众多领域。现有某类国产加速器的可用库中SVD算法性能远低于NVIDIA,这对相关应用的高效移植带来了挑战。为此,通过调整算法流程减少线程启动与访存开销,提出了面向国产加速器的矩阵双对角化方法mySVD。卸载计算密集型任务到加速器,设计面向国产异构平台的分治算法;通过CPU+加速器多流,提出了任务并行的奇异向量矩阵生成方法。最终形成一套奇异值算法的高效移植优化方案。实验结果表明,该方案在不同的测试矩阵规模上,性能最高达到现有的商业闭源线性代数库MKL的9.8倍,以及现有开源异构计算线性代数库MAGMA的5.5倍。最终将其用于图像处理,并跨平台与MATLAB、NVIDIA公司的GPU线性代数库CUSOLVER进行对比,其具有更快的速度且生成的图像与原图像相似度更高。 展开更多
关键词 并行计算 异构计算 奇异值分解 国产平台 图像处理
在线阅读 下载PDF
毛细结构对平板热管性能的影响 被引量:11
4
作者 王晨 李艳霞 +2 位作者 刘中良 张广孟 张明 《化工学报》 EI CAS CSCD 北大核心 2014年第S1期359-363,共5页
详细研究了毛细结构对于平板热管性能的影响,对3种具有同样外形尺寸的深微槽道、交错孔道和双微槽道毛细结构的铜-水平板热管进行了系统的实验研究和分析。研究结果表明,双微槽道热管的热阻最小,深微槽道热管的热阻最大。在轴向导热能... 详细研究了毛细结构对于平板热管性能的影响,对3种具有同样外形尺寸的深微槽道、交错孔道和双微槽道毛细结构的铜-水平板热管进行了系统的实验研究和分析。研究结果表明,双微槽道热管的热阻最小,深微槽道热管的热阻最大。在轴向导热能力方面,双微槽道热管的性能最好,其次为交错孔道热管,深微槽道热管最差。在径向均热能力方面,双微槽道热管最好,而深微槽道热管与交错孔道热管的均热能力相近。可见,双微槽道热管是最佳毛细结构,其热阻最小,具有最好的轴向导热性能与径向均热性能,原因是蒸发面和冷凝面上的微槽道结构强化了相变换热,降低了相变热阻。 展开更多
关键词 热管 槽道结构 轴向导热 径向均热
在线阅读 下载PDF
热管复合式制冷机组的研发与应用 被引量:10
5
作者 王铁军 赵丽 +4 位作者 吕继祥 赵绍博 刘广辉 王景晖 夏兴祥 《制冷学报》 CAS CSCD 北大核心 2016年第4期65-69,111,共6页
研发了一种适用于数据中心等电子设备全天候环境控制的新型高效制冷机组HKF-60FH,其集成蒸气压缩制冷系统、分离式热管系统于一体,具有压缩制冷、复合制冷和热管制冷三种工作模式。压缩制冷单元由4台涡旋式压缩机两两并联构成2个独立的... 研发了一种适用于数据中心等电子设备全天候环境控制的新型高效制冷机组HKF-60FH,其集成蒸气压缩制冷系统、分离式热管系统于一体,具有压缩制冷、复合制冷和热管制冷三种工作模式。压缩制冷单元由4台涡旋式压缩机两两并联构成2个独立的制冷回路,通过变容量控制实现制冷量调节;热管单元使用第二制冷剂,由液泵驱动强制循环;风冷侧采用组合式换热器,其由热管单元的换热器、压缩制冷单元的冷凝器和风机构成。高温季节运行压缩制冷模式,压缩制冷系统的第一制冷剂通过冷凝蒸发器为第二制冷剂提供全部冷量;过渡季节运行复合制冷模式,热管单元满负荷工作,不足冷量由压缩制冷单元提供;低温季节运行热管模式,全部使用自然冷源。HKF-60FH配套应用于某高性能计算机的空调系统,蒸发器设置在服务器桁架内,采用水平送风、闭式循环的气流组织方式,回风温度设定为33℃。性能测试显示:制冷工况(环境温度35℃)和热管工况(环境温度10℃)的制冷量/COP分别为61.3 k W/3.23和59.8 k W/11.3。 展开更多
关键词 数据中心空调 热管复合式制冷机组 研发 应用
在线阅读 下载PDF
自然冷却/蒸气压缩复合制冷系统研究 被引量:7
6
作者 王铁军 胡力文 +4 位作者 曾晓程 杨磊 沈卫东 吕继祥 王俊 《制冷学报》 CAS CSCD 北大核心 2019年第2期161-166,共6页
本文研发了一种由蒸气压缩制冷和分离式热管集成的自然冷却/蒸气压缩复合制冷空调系统,分别采用第一工质和由液泵驱动的第二工质进行循环。该系统具有蒸气压缩制冷、复合制冷和自然冷却3种运行模式,高温季节压缩制冷提供全部冷量,过渡... 本文研发了一种由蒸气压缩制冷和分离式热管集成的自然冷却/蒸气压缩复合制冷空调系统,分别采用第一工质和由液泵驱动的第二工质进行循环。该系统具有蒸气压缩制冷、复合制冷和自然冷却3种运行模式,高温季节压缩制冷提供全部冷量,过渡季节压缩制冷补充自然冷却不足的制冷量,低温季节自然冷却提供全部冷量。同时,研制了复合制冷系统样机HKF-200FH,其压缩制冷回路由3个独立的制冷单元并联,并与热管环路通过壳管式蒸发冷凝器相连。蒸发冷凝器的管程作为压缩制冷回路的蒸发器,在压缩制冷模式和复合制冷模式下为通过壳程的第二工质提供冷量。对样机性能进行了实验测试,结果显示:随着室外温度降低,复合系统的制冷量变化较小,能效比EER逐渐升高;压缩制冷模式(环境温度35℃)和自然冷却模式(环境温度10℃)下机组的制冷量分别为197.38 kW和196.89 kW,EER分别为3.5和15.3。2台系统样机自2014年5月在北京某"EB级云存储实验室"空调示范工程安全可靠的运行至今,监测结果显示,相比传统压缩制冷系统年节能率约为45%,节能优势显著。 展开更多
关键词 数据中心空调 自然冷却 复合制冷 节能 热管
在线阅读 下载PDF
高密度存储服务器热设计 被引量:9
7
作者 沙超群 尤扬 +2 位作者 胡长军 郑臣明 刘兴奎 《计算机工程与科学》 CSCD 北大核心 2015年第12期2228-2232,共5页
云计算和大数据时代对高密度存储服务器的需求越来越大。由于温度对电子元器件的性能和寿命有很大的影响,而高密度存储服务器的功率密度更大,故必须对其进行合理的热设计,以确保服务器工作时的温度在合理可控范围内。介绍了高密度存储... 云计算和大数据时代对高密度存储服务器的需求越来越大。由于温度对电子元器件的性能和寿命有很大的影响,而高密度存储服务器的功率密度更大,故必须对其进行合理的热设计,以确保服务器工作时的温度在合理可控范围内。介绍了高密度存储服务器的结构,以及散热风道、散热器、风扇等关键散热部件的热设计方法。热设计整体方案采用吸风式的强迫风冷散热方式;基于Flotherm热仿真软件对整机系统进行了仿真优化;在35℃实际应用环境下对产品样机进行了热测试。测试结果表明,该热设计方案满足热设计要求。 展开更多
关键词 高密度 强迫风冷 热设计 热仿真 热测试
在线阅读 下载PDF
面向深度包检测的DFA细粒度并行匹配方法 被引量:7
8
作者 刘兴奎 邵宗有 +1 位作者 刘新春 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2014年第5期1061-1070,共10页
确定性有限自动机(DFA)是实现正则表达式匹配的一种有效手段,但DFA的状态跳转是串行的,导致匹配速度慢、难以满足高速骨干网环境深度包检测(DPI)的性能需求.提出了一种称为LBDFA(Loopback DFA)的细粒度并行化状态跳转方法,通过将在Loopb... 确定性有限自动机(DFA)是实现正则表达式匹配的一种有效手段,但DFA的状态跳转是串行的,导致匹配速度慢、难以满足高速骨干网环境深度包检测(DPI)的性能需求.提出了一种称为LBDFA(Loopback DFA)的细粒度并行化状态跳转方法,通过将在Loopback状态上的连续跳转并行化,提高了匹配速度.此外,利用Bloom filter消除该并行跳转中的临时偏离现象,进一步提高了并行潜力.在L7-filter以及Snort规则集上的测试结果表明,LBDFA能够满足10Gbps以上的正则表达式匹配需求. 展开更多
关键词 正则表达式 确定性有限自动机 深度包检测 回环状态 FPGA
在线阅读 下载PDF
一种支持DDR4的软硬件结合的访存踪迹收集分析工具集 被引量:3
9
作者 李作骏 陈明宇 秦晓宁 《计算机工程与科学》 CSCD 北大核心 2019年第6期973-980,共8页
随着多核技术的发展,大数据、云计算、人工智能应用的普及,非易失性内存技术的逐步实用以及信息安全的迫切需求,作为数据处理核心部分的内存系统的设计显得极为重要,而现有的内存系统分析工具却由于各种缺陷已经无法满足研究人员的需求... 随着多核技术的发展,大数据、云计算、人工智能应用的普及,非易失性内存技术的逐步实用以及信息安全的迫切需求,作为数据处理核心部分的内存系统的设计显得极为重要,而现有的内存系统分析工具却由于各种缺陷已经无法满足研究人员的需求。在原有HMTT的基础上进行硬件级别的重新设计,在最新的DDR4-1600平台上实现了完整、高效、无失真地获取访存踪迹的功能,并在原有系统的基础上进一步提升了工具的可移植性。最后,使用该工具对最新的SPECCPU2017应用进行了访存踪迹的采集测试,并对收集到的访存踪迹信息进行了分析,进一步验证了本文工作的有效性,为今后的各类应用访存行为以及内存系统结构设计研究提供了强有力的工具支撑。 展开更多
关键词 访存踪迹 FPGA DDR4 物理地址
在线阅读 下载PDF
求解可压缩流的二维通量分裂格式 被引量:2
10
作者 胡立军 翟健 袁礼 《计算力学学报》 EI CAS CSCD 北大核心 2020年第2期247-253,共7页
传统的一维通量分裂格式在计算界面数值通量时,只考虑网格界面法向的波系。采用传统的TV格式分别求解对流通量和压力通量。通过求解考虑了横向波系影响的角点数值通量来构造一种真正二维的TV通量分裂格式。在计算一维数值算例时,该格式... 传统的一维通量分裂格式在计算界面数值通量时,只考虑网格界面法向的波系。采用传统的TV格式分别求解对流通量和压力通量。通过求解考虑了横向波系影响的角点数值通量来构造一种真正二维的TV通量分裂格式。在计算一维数值算例时,该格式与传统的TV格式具有相同的数值通量计算公式,因此其保留了传统的TV格式精确捕捉接触间断和膨胀激波的优点。在计算二维算例时,该格式比传统的TV格式具有更高的分辨率;在计算二维强激波问题时,消除了传统TV格式的非物理现象,表现出更好的鲁棒性;此外,该格式大大提高了稳定性CFL数,从而具有更高的计算效率。因此,本文方法是一种精确、高效并且具有强鲁棒性的数值方法,在可压缩流的数值模拟中具有广阔的应用前景。 展开更多
关键词 欧拉方程 可压缩流 Toro-Vázquez分裂 真正二维通量分裂格式 GT-TV格式 鲁棒性
在线阅读 下载PDF
一种健壮的混合Roe黎曼求解器 被引量:2
11
作者 胡立军 袁礼 翟健 《计算力学学报》 EI CAS CSCD 北大核心 2019年第6期818-824,共7页
使用Roe格式计算多维流动问题时,在强激波附近会出现数值激波不稳定现象。带有剪切粘性的HLLEC格式不仅可以捕捉接触间断,而且表现出很好的稳定性。混合Roe格式和HLLEC格式来消除数值激波不稳定性。在强激波附近,通过激波面法向和网格... 使用Roe格式计算多维流动问题时,在强激波附近会出现数值激波不稳定现象。带有剪切粘性的HLLEC格式不仅可以捕捉接触间断,而且表现出很好的稳定性。混合Roe格式和HLLEC格式来消除数值激波不稳定性。在强激波附近,通过激波面法向和网格界面法向的夹角来定义开关函数,使得数值通量在激波面横向切换成HLLEC格式。在其余地方,数值通量依然使用Roe格式来计算。数值试验表明,混合格式不仅消除了Roe格式的数值激波不稳定性,还最大程度地减少了HLLEC格式所带来的剪切耗散,保留了Roe格式高分辨率的优点。 展开更多
关键词 无粘可压缩流 Roe格式 HLLEC格式 Roe-HLLEC格式 数值激波不稳定性
在线阅读 下载PDF
大数据环境下舰船数据多信道并行调度方法分析 被引量:1
12
作者 齐磊 《舰船科学技术》 北大核心 2019年第16期139-141,共3页
传统舰船数据并行调度方法存在调度速度慢、识别准确率差等问题,为解决这一问题,对大数据环境下舰船数据多信道并行调度方法进行分析。分析过程中,确定数据多信道并行调度规则,以此为基础对数据多信道并行干扰波进行处理,将处理后数据... 传统舰船数据并行调度方法存在调度速度慢、识别准确率差等问题,为解决这一问题,对大数据环境下舰船数据多信道并行调度方法进行分析。分析过程中,确定数据多信道并行调度规则,以此为基础对数据多信道并行干扰波进行处理,将处理后数据机械能多信道并行调度输出,并对其调度方法进行优化,从而完成整体数据调度。实验数据表明,提出的多信道并行调度方法具有更可靠的调度速度以及并行识别准确率。 展开更多
关键词 大数据 资源调度 网络信息 船舶信息
在线阅读 下载PDF
一种健壮的低耗散通量分裂格式
13
作者 胡立军 袁礼 翟健 《应用数学和力学》 CSCD 北大核心 2019年第2期150-166,共17页
随着计算流体力学的快速发展,设计精确、高效并且健壮的数值格式变得尤为重要.通过对3种流行的通量分裂方法(AUSM、Zha-Bilgen和Toro-Vázquez)的对流通量和压力通量进行特征分析,构造了一种简单、低耗散并且健壮的通量分裂格式(命... 随着计算流体力学的快速发展,设计精确、高效并且健壮的数值格式变得尤为重要.通过对3种流行的通量分裂方法(AUSM、Zha-Bilgen和Toro-Vázquez)的对流通量和压力通量进行特征分析,构造了一种简单、低耗散并且健壮的通量分裂格式(命名为R-ZB格式).采用Zha-Bilgen分裂方法将Euler方程的通量分裂成对流通量和压力通量,其中对流通量采用迎风方法来计算,压力通量采用低耗散的HLL格式来计算,从而克服了原始的HLL格式不能精确分辨接触间断的缺点.数值实验表明,该文给出的R-ZB格式不仅保留了原始Zha-Bilgen格式简单高效、能够精确分辨接触间断等优点,而且具有更好的健壮性,在计算二维问题时不会出现数值激波不稳定现象. 展开更多
关键词 EULER方程 Zha-Bilgen分裂 HLL R-ZB 低耗散 数值激波不稳定性
在线阅读 下载PDF
基于AUSM分裂的二维通量分裂格式
14
作者 胡立军 吴世枫 翟健 《应用数学和力学》 CSCD 北大核心 2020年第6期615-626,共12页
基于对流迎风分裂思想构造的AUSM类格式具有简单、高效、分辨率高等优点,在计算流体力学中得到了广泛的应用.传统的AUSM类格式在计算界面数值通量时只考虑网格界面法向的波系,忽略了网格界面横向波系的影响.使用Liou⁃Steffen通量分裂方... 基于对流迎风分裂思想构造的AUSM类格式具有简单、高效、分辨率高等优点,在计算流体力学中得到了广泛的应用.传统的AUSM类格式在计算界面数值通量时只考虑网格界面法向的波系,忽略了网格界面横向波系的影响.使用Liou⁃Steffen通量分裂方法将二维Euler方程的通量分裂成对流通量和压力通量,采用AUSM格式来分别计算对流数值通量和压力数值通量.通过求解考虑了横向波系影响的角点数值通量来构造一种真正二维的AUSM通量分裂格式.在计算一维算例时,该格式保留了精确捕捉激波和接触间断的优点.在计算二维算例时,该格式不仅具有更高的分辨率而且表现出更好的鲁棒性,可以消除强激波波后的不稳定现象.此外,在多维问题的数值模拟中,该格式大大地提高了稳定性CFL数,具有更高的计算效率.因此,它是一种精确、高效并且强鲁棒性的数值方法. 展开更多
关键词 可压缩流 Liou⁃Steffen分裂 AUSM格式 GT⁃AUSM格式 鲁棒性
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部