期刊文献+
共找到259篇文章
< 1 2 13 >
每页显示 20 50 100
A parallel pipeline connected-component labeling method for on-orbit space target monitoring
1
作者 LI Zongling ZHANG Qingjun +1 位作者 LONG Teng ZHAO Baojun 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2022年第5期1095-1107,共13页
The paper designs a peripheral maximum gray differ-ence(PMGD)image segmentation method,a connected-compo-nent labeling(CCL)algorithm based on dynamic run length(DRL),and a real-time implementation streaming processor ... The paper designs a peripheral maximum gray differ-ence(PMGD)image segmentation method,a connected-compo-nent labeling(CCL)algorithm based on dynamic run length(DRL),and a real-time implementation streaming processor for DRL-CCL.And it verifies the function and performance in space target monitoring scene by the carrying experiment of Tianzhou-3 cargo spacecraft(TZ-3).The PMGD image segmentation method can segment the image into highly discrete and simple point tar-gets quickly,which reduces the generation of equivalences greatly and improves the real-time performance for DRL-CCL.Through parallel pipeline design,the storage of the streaming processor is optimized by 55%with no need for external me-mory,the logic is optimized by 60%,and the energy efficiency ratio is 12 times than that of the graphics processing unit,62 times than that of the digital signal proccessing,and 147 times than that of personal computers.Analyzing the results of 8756 images completed on-orbit,the speed is up to 5.88 FPS and the target detection rate is 100%.Our algorithm and implementation method meet the requirements of lightweight,high real-time,strong robustness,full-time,and stable operation in space irradia-tion environment. 展开更多
关键词 Tianzhou-3 cargo spacecraft(TZ-3) connected-component labeling(CCL)algorithms parallel pipeline processing on-orbit space target detection streaming processor
在线阅读 下载PDF
用于高速CIS的12-bit紧凑型多列共享并行pipeline-SAR ADC(英文) 被引量:1
2
作者 郭志强 刘力源 吴南健 《红外与激光工程》 EI CSCD 北大核心 2018年第5期187-196,共10页
设计了一款用于高速CMOS图像传感器的多列共享列并行流水线逐次逼近模数转换器。八列像素共享一路pipeline-SAR ADC,从而使得ADC的版图不再局限于二列像素的宽度,可以在16列像素宽度内实现。该模数转换器采用了异步控制逻辑电路来提高... 设计了一款用于高速CMOS图像传感器的多列共享列并行流水线逐次逼近模数转换器。八列像素共享一路pipeline-SAR ADC,从而使得ADC的版图不再局限于二列像素的宽度,可以在16列像素宽度内实现。该模数转换器采用了异步控制逻辑电路来提高转换速度。半增益数模混合单元电路被用于对第一级子ADC的余差信号放大,同时被用于降低对增益数模混合单元电路中运放性能的要求。相关电平位移技术也被用于对余差信号进行更精确的放大。整个pipeline-SAR ADC第一级子ADC精度为6-bit,第二级子ADC为7-bit,两级之间存在1-bit冗余校准,最终实现12-bit精度。输入信号满幅电压为1 V。该8列共享并行处理的pipeline-SAR ADC在0.18μm 1P4M工艺下制造实现,芯片面积为0.204 mm^2。仿真结果显示,在采样频率为8.33 Msps,输入信号频率为229.7 kHz时,该ADC的信噪失真比为72.6 d B;在采样频率为8.33 Msps,输入信号频率为4.16 MHz时,该ADC的信噪失真比为71.7 dB。该pipelineSAR ADC的电源电压为1.8 V,功耗为4.95 mW,功耗品质因子(FoM)为172.5 fJ/conversion-step。由于像素尺寸只有7.5μm,工艺只有四层金属,因此这款12-bit多列共享列并行流水线逐次逼近模数转换器非常适用于高速CMOS图像传感器系统。 展开更多
关键词 高速CMOS图像传感器 多列共享列并行 pipeline-SAR AD
在线阅读 下载PDF
基于Pipeline的一类动态规划并行算法 被引量:1
3
作者 何奇 《计算机学报》 EI CSCD 北大核心 1994年第7期527-535,共9页
动态规划是解决组合优化问题的有效方法之一.本文基于Pipline结构,提出并分析了三个相似的动态规划并行算法(求简单最短路径.求最长公共子串和解背包问题).获得了较理想的加速比、并行效率等指标.进而提出并讨论了这一类... 动态规划是解决组合优化问题的有效方法之一.本文基于Pipline结构,提出并分析了三个相似的动态规划并行算法(求简单最短路径.求最长公共子串和解背包问题).获得了较理想的加速比、并行效率等指标.进而提出并讨论了这一类问题之动态规划并行处理的一般化思想及方法. 展开更多
关键词 pipeline结构 动态规划 并行算法
在线阅读 下载PDF
面向数据并行深度学习的准确率感知稀疏梯度融合算法
4
作者 李洪亮 张蒙 +1 位作者 王子琛 李想 《吉林大学学报(理学版)》 北大核心 2025年第5期1356-1365,共10页
针对数据并行的深度学习作业中梯度同步导致的性能瓶颈问题,提出一种动态的稀疏梯度融合算法.该算法将梯度压缩、流水线技术与张量融合技术进行协同建模,建立稀疏梯度融合行为对准确率影响的理论模型,并基于此寻找加快梯度同步的同时提... 针对数据并行的深度学习作业中梯度同步导致的性能瓶颈问题,提出一种动态的稀疏梯度融合算法.该算法将梯度压缩、流水线技术与张量融合技术进行协同建模,建立稀疏梯度融合行为对准确率影响的理论模型,并基于此寻找加快梯度同步的同时提高验证准确率的梯度融合方案,以解决稀疏梯度融合导致验证准确率不稳定的问题.实验结果表明,该稀疏梯度融合算法比分层稀疏化方法缩短了1.63倍的通信时间,比已有的稀疏梯度融合算法缩短了2.68倍的收敛时间. 展开更多
关键词 并行深度学习 梯度稀疏化 张量融合 通信流水线技术
在线阅读 下载PDF
地铁隧道并行下穿影响下既有管线纵向变形响应研究
5
作者 傅金阳 孙前辉 +3 位作者 杨州 夏祎倩 阳军生 肖超 《中国铁道科学》 北大核心 2025年第3期182-194,共13页
为评估盾构隧道下穿对既有管线的影响并制定保护方案,基于半无限空间Mindlin解及统一土体移动模型,建立考虑盾构推力、刀盘摩擦力、盾壳摩擦力、注浆压力和地层损失的土体位移计算模型并得到解析解;将既有管线简化为Euler-Bernoulli梁,... 为评估盾构隧道下穿对既有管线的影响并制定保护方案,基于半无限空间Mindlin解及统一土体移动模型,建立考虑盾构推力、刀盘摩擦力、盾壳摩擦力、注浆压力和地层损失的土体位移计算模型并得到解析解;将既有管线简化为Euler-Bernoulli梁,建立3参数Kerr地基模型下的管线纵向受力平衡微分方程并计算;通过依托工程进行验证并开展参数分析。结果表明:较有限元法和Pasternak地基模型,所提计算方法得到的管线纵向变形与监测数据吻合更好,管线纵向弯曲应变结果偏于保守;增大盾构隧道与并行管线的水平净距和纵向净距会使既有管线变形与弯矩减小,当水平净距小于1倍盾构隧道直径、竖向净距小于2.5倍盾构隧道直径时,既有管线的变形与弯矩均显著增大;两者间水平夹角增加会导致既有管线的纵向变形减小,但相比垂直下穿,盾构隧道并行下穿将导致管线竖向变形增大6倍,弯矩最值增大4倍;管线的竖向倾角对其纵向受力变形影响较小,可以最小竖向净距为基本条件简化计算。 展开更多
关键词 地铁隧道 并行下穿 既有管线 解析解 MINDLIN解 Kerr地基模型
在线阅读 下载PDF
基于FPGA的YOLOv4-tiny硬件优化与实现
6
作者 王凯 柏艳红 +1 位作者 李小松 李浩然 《组合机床与自动化加工技术》 北大核心 2025年第9期24-27,33,共5页
针对YOLOv4-tiny算法结构复杂、计算资源消耗大、参数众多,难以在FPGA上高效部署的问题,提出了一种软硬件结合的优化策略。将YOLOv4-tiny的骨干网络替换为Mobilenetv1网络,在加强特征提取网络中引入CBAM模块;对网络结构进行通道剪枝,对... 针对YOLOv4-tiny算法结构复杂、计算资源消耗大、参数众多,难以在FPGA上高效部署的问题,提出了一种软硬件结合的优化策略。将YOLOv4-tiny的骨干网络替换为Mobilenetv1网络,在加强特征提取网络中引入CBAM模块;对网络结构进行通道剪枝,对权重和偏置进行16位定点数量化。改进后的网络与原始YOLOv4-tiny相比参数量减少了40%,而识别准确率基本不变。使用高层次综合工具生成FPGA IP核,设计并行流水化的卷积结构并采用卷积层间分块操作,提高计算效率。将改进后算法在Zynq-7020FPGA芯片上实现,实验结果表明,改进后算法计算性能为43.4 GOP/s,是现有文献的1.6~4.1倍;能效比是现有的工作的4.8~10.7倍。所提策略能更高效地将算法部署在资源受限的FPGA平台上。 展开更多
关键词 YOLOv4-tiny 算法剪枝 算法量化 FPGA 并行流水结构
在线阅读 下载PDF
一种伯努利粒子滤波器的FPGA实现
7
作者 连红飞 李东升 +3 位作者 蒋彦雯 范红旗 肖怀铁 王国嫣 《系统工程与电子技术》 北大核心 2025年第2期398-405,共8页
针对伯努利粒子滤波器在嵌入式应用环境中的高速、高效计算问题,以雷达微弱目标联合检测估计伯努利粒子滤波器为例,提出一种功能模块化、粒子规模可扩展的现场可编程门阵列(field programmable gate array, FPGA)实现架构,并通过粒子状... 针对伯努利粒子滤波器在嵌入式应用环境中的高速、高效计算问题,以雷达微弱目标联合检测估计伯努利粒子滤波器为例,提出一种功能模块化、粒子规模可扩展的现场可编程门阵列(field programmable gate array, FPGA)实现架构,并通过粒子状态流水计算、分层累加求和、并行化重采样等手段进一步提高滤波计算速度。Xilinx ZC706评估板板载测试实验证明了所提架构良好的可扩展性和优异的加速比,当粒子数量为1 024时,相较于Intel Corei3-4130 CPU计算环境下的加速比约为10~4量级,该结果对伯努利粒子滤波技术在雷达、机器人、导航制导等领域的应用具有重要参考价值。 展开更多
关键词 伯努利粒子滤波器 现场可编程门阵列 实时信号处理 流水并行化 重采样 联合检测估计
在线阅读 下载PDF
并联供水管线工况切换下水力过渡过程特性分析
8
作者 曾庚运 刘梅清 +2 位作者 张兆波 朱文斌 刘功亮 《中国农村水利水电》 北大核心 2025年第4期201-204,218,共5页
针对并联供水管线变工况下管道切换运行时存在的水力安全问题,结合工程特征,提出水泵段近似为一流量源,高位水池视为有限容积的首端水池的简化思路,并建立相应边界条件,进而采用特征线算法进行水力过渡过程计算分析。研究表明,并联供水... 针对并联供水管线变工况下管道切换运行时存在的水力安全问题,结合工程特征,提出水泵段近似为一流量源,高位水池视为有限容积的首端水池的简化思路,并建立相应边界条件,进而采用特征线算法进行水力过渡过程计算分析。研究表明,并联供水管线工况切换与过流量关系密切,单纯依靠控制蝶阀启闭速度则难以达到较好的水锤防护效果,建议在小流量下进行工况切换:双管运行切换至单管运行,泵站需要减到2台机组;单管运行切换,泵站需调节到1台变频运行,流量控制在10m3/s;单管运行切换至双管运行,泵站确保初始在2台机组以下运行再进行切换。 展开更多
关键词 并联管道 变工况 水锤防护 泵站 高位水池
在线阅读 下载PDF
基于Zynq的卷积神经网络加速器设计
9
作者 孟凡开 张峰 +1 位作者 李淼 张多利 《合肥工业大学学报(自然科学版)》 北大核心 2025年第7期904-909,共6页
针对卷积神经网络(convolutional neural network,CNN)嵌入式部署资源开销大、运行速度慢等问题,文章提出一种以Tiny-YOLOv3作为算法模型的CNN硬件加速器。首先,基于Tiny-YOLOv3网络各层的特性和要求设计CNN加速器实现方案,将权重系数... 针对卷积神经网络(convolutional neural network,CNN)嵌入式部署资源开销大、运行速度慢等问题,文章提出一种以Tiny-YOLOv3作为算法模型的CNN硬件加速器。首先,基于Tiny-YOLOv3网络各层的特性和要求设计CNN加速器实现方案,将权重系数按位分割,面向单bit权重设计卷积加速器,通过逐位实施达到处理速度和识别率的高效平衡;然后,采用查表选择法实现卷积算子的乘加运算,设计一款6×3×16的三维加速器计算阵列,可单周期完成288个卷积窗口计算;最后,在Xilinx Zynq UltraScale+MPSoC系列芯片上对设计的CNN加速器进行性能测试。实验结果表明,该CNN加速器在200 MHz频率下具有518.4 GOPS的算力,比现有的解决方案性能提高了约63%。 展开更多
关键词 卷积神经网络(CNN) Tiny-YOLOv3网络模型 硬件加速 流水阵列 并行运算
在线阅读 下载PDF
四川大学大模型底层系统方向研究论文在VLDB 2025发表
10
《信息网络安全》 北大核心 2025年第9期1475-1475,共1页
四川大学计算机学院学生团队在大规模语言模型参数高效微调系统研究方向取得重要进展,其研究成果“mLoRA:Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs”在国际数据库学术会议VLDB 2025 Rese... 四川大学计算机学院学生团队在大规模语言模型参数高效微调系统研究方向取得重要进展,其研究成果“mLoRA:Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs”在国际数据库学术会议VLDB 2025 Research Track正式发表。VLDB(International Conference on Very Large Data Bases)是数据库领域的重要国际学术会议之一,涵盖数据库管理系统、数据密集型系统与大规模数据处理等方向。该工作已在多个国内外互联网企业的实际生产环境中部署应用,并获得一项中国发明专利和一项美国发明专利的受理。 展开更多
关键词 LoRA Adapters Fine-Tuning mLoRA pipeline parallelism
在线阅读 下载PDF
与交流输电线路交叉或并行管道的安全评价方法
11
作者 孙银娟 姜子涛 +5 位作者 刘曼 王九震 邵治翠 樊学华 陈更生 刘冠一 《腐蚀与防护》 北大核心 2025年第1期79-87,共9页
高压交流输电线路通过电磁感应作用对埋地管道产生交流干扰,造成埋地管道的交流腐蚀。了解输电线路对管道的干扰规律,掌握输电线路与管道的安全评价方法,就可以从选线阶段合理设计,避免或者减小管道运行期间可能受到的干扰问题。通过数... 高压交流输电线路通过电磁感应作用对埋地管道产生交流干扰,造成埋地管道的交流腐蚀。了解输电线路对管道的干扰规律,掌握输电线路与管道的安全评价方法,就可以从选线阶段合理设计,避免或者减小管道运行期间可能受到的干扰问题。通过数值模拟技术建立了交流输电线路对埋地管道交流干扰计算模型,计算研究了交流输电线路三相布置方式及相间距对管道的干扰规律,并确定了典型的输电线路等级和不同交叉角度下输电线路与管道的临界距离。结果表明:三相为水平布置时管道干扰电压最大,管道干扰电压随相间距线性增加;输电线路电压等级越高,需要的临界距离越大;输电线路与管道交叉角度越小,需要的临界距离越大,根据输电等级和输电线路长度的不同,交叉角度限值不同。在此基础上建立了临界距离图谱和安全评价方法,简化了临界距离的确定方法。 展开更多
关键词 交流干扰 交叉 并行 输电线路 管道 电磁感应
在线阅读 下载PDF
雷击500 kV输电线路对并行埋地管道的干扰过电压特性及安全间距研究
12
作者 贲晓伟 包华 +2 位作者 朱博 王超群 邢辉 《中国安全生产科学技术》 北大核心 2025年第10期21-30,共10页
为避免雷击高压输电线路时对并行埋地油气管道造成危害,针对现行规范中雷击风险下管线安全间距量化标准缺失的问题,基于平圩电厂~洛河电厂π入亳州二变500 kV线路及西气东输管道工程,建立输电线路雷电反击闪络、线路与管道并行的电磁暂... 为避免雷击高压输电线路时对并行埋地油气管道造成危害,针对现行规范中雷击风险下管线安全间距量化标准缺失的问题,基于平圩电厂~洛河电厂π入亳州二变500 kV线路及西气东输管道工程,建立输电线路雷电反击闪络、线路与管道并行的电磁暂态计算模型,提出通过耦合线路反击耐雷水平与管道涂层过电压耐受阈值计算管线安全并行间距,并利用反击跳闸率公式预测涂层安全运行年限,并量化可靠性。研究结果表明:不同土壤电阻率(10~2000Ω·m)地区管线并行间距需至少保持14~58 m;若管道涂层破损后继续遭受雷击,其涂层承受电压会降低;多管道并行时,在内侧管道的屏蔽作用下,外侧管道涂层承受电压会下降;基于推荐的并行间距,预测的涂层安全运行年限为:沼泽69 a,平原38~60 a,山地17~25 a。研究结果可为高压输电线路与埋地管道的并行建设提供参考。 展开更多
关键词 500 kV输电线路 埋地管道 安全并行间距 反击耐雷水平 矩量法
在线阅读 下载PDF
R2^(2)FFT算法的FPGA硬件结构优化设计与实现
13
作者 肖海林 杨昱东 +4 位作者 杨紫伊 刘海龙 王玉 张中山 戴晓明 《计算机应用》 北大核心 2025年第8期2637-2645,共9页
针对快速傅里叶变换(FFT)算法处理大规模数据时因消耗大量资源和时间而导致运算速度慢的问题,提出一种基2^(2)快速傅里叶变换(R2^(2)FFT)算法的现场可编程门阵列(FPGA)硬件结构优化设计与实现方法。首先,采用R2^(2)FFT算法构建一种序列... 针对快速傅里叶变换(FFT)算法处理大规模数据时因消耗大量资源和时间而导致运算速度慢的问题,提出一种基2^(2)快速傅里叶变换(R2^(2)FFT)算法的现场可编程门阵列(FPGA)硬件结构优化设计与实现方法。首先,采用R2^(2)FFT算法构建一种序列转换功能与流水线结构相结合的Y形双并行阵列结构,在有效降低硬件乘法器使用数量的同时,增大硬件结构的吞吐量,提高FFT算法在FPGA上的运算速度;其次,通过在R2^(2)FFT流水线的单级运算中利用旋转因子的相关特性,优化片上存储的资源消耗,使存储空间降低约50.00%;最后,在完成N点R2^(2)FFT算法结构优化的基础上,进一步提高硬件结构的可扩展性,即实现2N点和4N点的扩展运算。采用Verilog HDL语言完成硬件设计,并通过Modelsim仿真,使用Vivado2018.3软件将所提方法综合并布局布线,并分析所提方法的性能。实验结果表明,与4种改进的FFT硬件实现方法的运算时间相比,所提方法的运算时间分别降低了75.10%、95.34%、38.49%和49.20%,可见所提方法显著提高了运算速度。同时,所提方法资源消耗适中,消耗占比低,且具有运行功耗低以及可扩展性强的特点。 展开更多
关键词 Y形双并行阵列结构 现场可编程门阵列 基2^(2)快速傅里叶变换 多路径延迟交叉结构流水线 蝶形运算
在线阅读 下载PDF
煤干馏用多个并联分离器结构优化 被引量:2
14
作者 戴航 王兴坤 +2 位作者 靳兴行 霍艳飞 吴鹏 《流体机械》 CSCD 北大核心 2024年第8期92-99,共8页
针对原并联分离器入口管路和升气管出口管路堵塞等问题,研究了煤干馏过程中并联旋风分离器入口管路、升气管出口管路结构型式对管路内流体的影响,对结构进行了优化,并与原结构进行了对比。结果表明:通过在入口管路增大弯头角度以及减少... 针对原并联分离器入口管路和升气管出口管路堵塞等问题,研究了煤干馏过程中并联旋风分离器入口管路、升气管出口管路结构型式对管路内流体的影响,对结构进行了优化,并与原结构进行了对比。结果表明:通过在入口管路增大弯头角度以及减少弯头个数,能有效降低管路整体压降,相比原管路结构,优化后管路压降下降约为75%;采用三通管可防止弯头外壁侧气速较低,避免颗粒在低速区沉积并发生堵塞;采用切入式升气管可有效改善排气管内由于旋流导致的低速区以及不稳定流动问题,能够避免颗粒堆积;通过延长盲端管路高度可有效减少涡流对分离器流场的影响,综合流场以及压降分析,升气管的盲端高度为700 mm时最为适合。工业上整体系统运行周期从3个月延长至6个月以上,相比原结构,压降降低约48%。研究可为并联旋风分离器在工程上的设计和应用提供指导。 展开更多
关键词 并联旋风分离器 管路 流动 模拟 优化
在线阅读 下载PDF
基于FPGA改进的Canny算法边缘检测系统 被引量:2
15
作者 李涛 《仪表技术与传感器》 CSCD 北大核心 2024年第8期65-70,92,共7页
针对Canny算法在图像边缘检测中的限制,包括自适应性差、边缘信息易丢失和处理时间过长等问题,提出了一种基于FPGA的模块化硬件设计,用于实现改进型Canny算法的高效边缘检测。首先,利用FPGA的数据并行处理特性,采用快速自适应中值滤波... 针对Canny算法在图像边缘检测中的限制,包括自适应性差、边缘信息易丢失和处理时间过长等问题,提出了一种基于FPGA的模块化硬件设计,用于实现改进型Canny算法的高效边缘检测。首先,利用FPGA的数据并行处理特性,采用快速自适应中值滤波算法替代高斯滤波方法;其次,引入3×3模板替代2×2模板,并在45°和135°方向上增加计算模板,以获取图像的梯度和幅值信息;最后,结合Otsu原理,采用三阈值连接来增强自适应性,减少图像边缘信息的丢失。经过实验验证,该系统展现出良好的自适应性能,有效处理图像中噪声的同时,能够捕捉到有效的边缘特征,并具备高速、实时等特点。 展开更多
关键词 自适应阈值 现场可编程门阵列 边缘检测 并行流水线
在线阅读 下载PDF
交通速度预测时空图卷积网络及其FPGA实现研究 被引量:2
16
作者 谭会生 杨威 严舒琪 《电子测量技术》 北大核心 2024年第18期108-119,共12页
时空图卷积网络(STGCN)通过图卷积和时间卷积捕获交通数据的空间依赖性和时间依赖性,可有效提升交通速度预测的精度。但是硬件实现交通速度预测STGCN具有计算量大难以满足实际应用的实时性要求、资源消耗大导致成本增高等问题,在优化交... 时空图卷积网络(STGCN)通过图卷积和时间卷积捕获交通数据的空间依赖性和时间依赖性,可有效提升交通速度预测的精度。但是硬件实现交通速度预测STGCN具有计算量大难以满足实际应用的实时性要求、资源消耗大导致成本增高等问题,在优化交通速度预测STGCN模型基础上,提出了一种交通速度预测STGCN的FPGA实现结构组合优化的方法。首先,通过轻量化裁剪和预测数据位宽的精确选择,对交通速度预测STGCN进行了模型优化,以降低计算复杂度和资源消耗,并经过Python仿真验证其可行性。其次,通过采用流水线、并行计算和数据交替流水存取等组合优化策略,提出了一种交通速度预测STGCN的FPGA实现结构组合优化的方法,以提升系统计算速度。最后,使用Verilog编程对交通速度预测STGCN进行了FPGA的实现仿真和硬件测试。利用PeMSD7(M)数据集进行实验,结果显示FPGA实现单数据交通速度预测的时间为355.5μs,相比CPU、GPU平台及FPGA设计方案1对比,其处理速度最大分别提高了25.9倍、6.7倍和3.5倍,证明了交通速度预测STGCN的FPGA实现结构组合优化方法,在保持预测准确性的前提下可较大幅度的提升系统处理速度。 展开更多
关键词 交通速度预测 时空图卷积网络 FPGA 硬件实现结构 流水线 并行结构
在线阅读 下载PDF
基于多绘制管线的大规模并行体绘制性能优化技术
17
作者 王华维 刘若妍 +1 位作者 艾志玮 曹轶 《计算机工程》 CAS CSCD 北大核心 2024年第8期207-215,共9页
针对数值模拟输出的大规模科学数据,体绘制方法为了刻画复杂物理特征,会进行高密度光线采样,但由此带来了极大的计算开销和数据增量。在国产自主CPU高性能计算机上,由于处理器单核的计算能力低于商业CPU,只能使用更多的处理器核来分担... 针对数值模拟输出的大规模科学数据,体绘制方法为了刻画复杂物理特征,会进行高密度光线采样,但由此带来了极大的计算开销和数据增量。在国产自主CPU高性能计算机上,由于处理器单核的计算能力低于商业CPU,只能使用更多的处理器核来分担体绘制任务,从而引起了采样数据并行通信的可扩展性瓶颈。为充分利用国产自主CPU高性能计算机来高效完成体绘制任务,针对大规模并行体绘制提出一种基于多绘制管线的性能优化技术,通过多管线、多进程的两级并行模式来降低单条管线的并行规模。在大规模并行体绘制中,该技术将绘制目标图像划分成多个子区域,绘制进程则相应分组,每个进程组独立执行一条绘制管线,以完成图像相应子区域的绘制,最后再收集所有的图像子区域,形成完整图像并输出。实验结果表明,优化后的体绘制算法在国产自主CPU高性能计算机上可以扩展到万核规模,并能有效完成体绘制任务。 展开更多
关键词 体绘制 多管线 两级并行 并行可扩展性 性能优化
在线阅读 下载PDF
新疆油田并行管道阴保系统相互干扰因素及规律 被引量:1
18
作者 时彦杰 邓丽媛 +6 位作者 栾翔 廖臻 罗泰星 陈帅 王晨 刘艳明 吕祥鸿 《西安石油大学学报(自然科学版)》 CAS 北大核心 2024年第2期103-111,119,共10页
针对新疆油田多条管道并行敷设产生的阴保系统相互干扰问题,采用数值模拟技术,研究土壤电阻率等8个因素对并行管道干扰程度的影响规律。结果表明:随着土壤电阻率或干扰管道涂层破损率增加,被干扰管道近阳极端电位负移,远阳极端电位正移... 针对新疆油田多条管道并行敷设产生的阴保系统相互干扰问题,采用数值模拟技术,研究土壤电阻率等8个因素对并行管道干扰程度的影响规律。结果表明:随着土壤电阻率或干扰管道涂层破损率增加,被干扰管道近阳极端电位负移,远阳极端电位正移,干扰显著增强;随着管道间距增加,干扰程度略有增加后逐渐降低,且最强干扰管道间距随土壤电阻率和涂层破损率增加而增大;随着干扰管道直径增大,或当干扰管道为高温管道时,并行管道受干扰略微增强;随着干扰管道辅助阳极距离增加,干扰减弱,但当辅助阳极距离小于200 m时干扰影响仍较为显著;当辅助阳极位置分别在两条并行管道一侧或两侧分布时,并行管道受干扰程度均较小;随着干扰管道数量增多,干扰电流存在明显叠加效应,干扰程度显著增强。综上,土壤电阻率、涂层破损率及干扰管道数量是阴保系统相互干扰的主控因素,管道间距、辅助阳极距离影响次之,辅助阳极相对位置、管道类型、管道直径影响较小。 展开更多
关键词 并行管道 阴极保护系统 直流干扰 干扰因素 干扰规律
在线阅读 下载PDF
基于国产异构FPGA的空中红外目标检测跟踪系统
19
作者 黄西莹 张旭辉 +3 位作者 黄玉 李涛 宋磊 刘培桢 《红外与激光工程》 EI CSCD 北大核心 2024年第8期104-114,共11页
随着国产器件在各领域的大力推广及应用,针对高帧频、强实时性光电系统空中红外目标捕获引导问题,介绍了一种基于国产异构FPGA的空中红外目标检测跟踪系统架构及其实现方法。基于AXI4总线协议,采用模块化设计及软硬件协同处理方法,构建... 随着国产器件在各领域的大力推广及应用,针对高帧频、强实时性光电系统空中红外目标捕获引导问题,介绍了一种基于国产异构FPGA的空中红外目标检测跟踪系统架构及其实现方法。基于AXI4总线协议,采用模块化设计及软硬件协同处理方法,构建系统架构和视频流水线;并行流水处理实现中值滤波,通过加权二维空间滤波流水处理实现基于背景抑制的快速空中目标检测,与中值滤波一起部署于FPGA逻辑资源(PL);检测结果实时传输到部署于FPGA处理器端(PS)的空中目标跟踪模块,完成目标跟踪,PS完成系统所有功能模块的控制;跟据各功能模块串/并行实现方式,统筹部署完成整个异构系统设计。实验结果表明,该系统能够实现1 280×1 024@100 Hz红外视频空中目标的实时检测及稳定跟踪,系统资源占用率小于25%,时延小于2帧,可满足高帧频、强实时性光电系统要求。该系统的实现是国产自主可控异构FPGA核心芯片工程应用的一次重要探索。 展开更多
关键词 国产异构FPGA 红外目标检测跟踪 协同处理 并行流水处理
在线阅读 下载PDF
深度神经网络模型任务切分及并行优化方法 被引量:1
20
作者 巨涛 刘帅 +1 位作者 王志强 李林娟 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第9期2739-2752,共14页
为解决传统手工切分神经网络模型计算任务并行化方法面临的并行化难度大、训练耗时长、设备利用率低等问题,提出了一种基于深度神经网络(DNN)模型特性感知的任务切分及并行优化方法。结合硬件计算环境,对模型计算特性进行动态分析,获取... 为解决传统手工切分神经网络模型计算任务并行化方法面临的并行化难度大、训练耗时长、设备利用率低等问题,提出了一种基于深度神经网络(DNN)模型特性感知的任务切分及并行优化方法。结合硬件计算环境,对模型计算特性进行动态分析,获取模型内部相关性和各类参数属性,构建原始计算任务有向无环图(DAG);利用增强反链,构建DAG节点间可分区聚类的拓扑关系,将原始DAG转换为易于切分的反链DAG;通过拓扑排序生成反链DAG状态序列,并使用动态规划将状态序列切分为不同执行阶段,分析最佳分割点进行模型切分,实现模型分区与各GPU间动态匹配;对批量进行微处理,通过引入流水线并行实现多迭代密集训练,提高GPU利用率,减少训练耗时。实验结果表明:与已有模型切分方法相比,在CIFAR-10数据集上,所提模型切分及并行优化方法可实现各GPU间训练任务负载均衡,在保证模型训练精度的同时,4 GPU加速比达到3.4,8 GPU加速比为3.76。 展开更多
关键词 深度神经网络模型并行 模型切分 流水线并行 反链 并行优化
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部