期刊文献+
共找到1,421篇文章
< 1 2 72 >
每页显示 20 50 100
气象格点数算一体空间分析库的设计与实现 被引量:2
1
作者 王舒 徐拥军 +6 位作者 何文春 吴焕萍 高峰 刘媛媛 刘北 吕冠儒 倪学磊 《应用气象学报》 北大核心 2025年第1期121-128,共8页
气象格点数据通常以文件形式存储在分布式文件库中,业务系统在使用过程中需要将文件下载到本地,对文件解析后再进行分析计算。这种方式导致数据检索困难、响应时间长、无法满足业务在线计算及交互式应用需求。为此,2022年底国家气象信... 气象格点数据通常以文件形式存储在分布式文件库中,业务系统在使用过程中需要将文件下载到本地,对文件解析后再进行分析计算。这种方式导致数据检索困难、响应时间长、无法满足业务在线计算及交互式应用需求。为此,2022年底国家气象信息中心基于天擎空间分析库研发完成了分布式环境下气象格点数据与计算集成的数算一体数据库——Post Grid,该数据库包含数据层和算子层。数据层将气象格点数据在要素、起报、预报、空间、层次、样本等维度上的拆分后统一规范化存储,提高数据库的数据读取和分析效率。算子层通过数据库中的SQL函数实现,支持在数据库内部对格点数据进行各种操作,且算子支持分布式并行计算。性能测试和业务应用结果表明:Post Grid数据库能将传统的聚合计算服务时效由分钟级提升至毫秒级,极大提高了气象格点数据服务的性能、灵活性和数算一体能力,具有广泛应用价值。 展开更多
关键词 数算一体 气象格点数据 Post Grid 并行计算 分布式
在线阅读 下载PDF
基于ABWO的并行DCNN优化算法 被引量:1
2
作者 毛伊敏 刘映兴 《计算机工程与设计》 北大核心 2025年第2期353-359,共7页
针对并行DCNN算法在大数据环境下存在特征差异性较小、模型性能不足、参数更新慢和集群并行效率低等问题,提出一种基于ABWO的并行DCNN优化算法PDCNN-ABWO。提出一种基于自适应密度峰值聚类的特征选择策略FS-ADPC划分原始特征,筛选差异... 针对并行DCNN算法在大数据环境下存在特征差异性较小、模型性能不足、参数更新慢和集群并行效率低等问题,提出一种基于ABWO的并行DCNN优化算法PDCNN-ABWO。提出一种基于自适应密度峰值聚类的特征选择策略FS-ADPC划分原始特征,筛选差异性较大的特征;设计一种ResNet-CBAMDW模型,提升模型性能;提出一种基于自适应黑寡妇优化算法的并行训练策略PT-ABWO优化初始参数,加快参数更新速度;提出一种基于大数据基准测试的动态负载均衡策略DLB-BDB,合理分配任务负载,提升集群并行效率。实验结果表明,该算法能够有效提升DCNN在大数据环境下的训练效率。 展开更多
关键词 大数据 并行深度卷积神经网络算法 密度峰值聚类 自适应黑寡妇优化算法 并行训练 基准测试 负载均衡
在线阅读 下载PDF
基于ASCABC的并行DCNN优化算法
3
作者 胡健 周奇航 毛伊敏 《计算机工程与设计》 北大核心 2025年第4期983-989,共7页
针对大数据环境下并行DCNN存在冗余计算过多、收敛速度慢、参数寻优能力差以及中间数据倾斜等问题提出一种基于Spark和ASCABC的DCNN-SASCABC算法。提出基于冯诺依曼熵的FMC-VNE策略来对特征图进行压缩,降低冗余计算;提出基于自适应人工... 针对大数据环境下并行DCNN存在冗余计算过多、收敛速度慢、参数寻优能力差以及中间数据倾斜等问题提出一种基于Spark和ASCABC的DCNN-SASCABC算法。提出基于冯诺依曼熵的FMC-VNE策略来对特征图进行压缩,降低冗余计算;提出基于自适应人工蜂群算法的MPT-ASCABC策略进行参数初始化,提高DCNN收敛速度与参数寻优能力;提出中间数据分配策略BA-ID重分配中间数据,解决Spark中间数据倾斜的问题。实验结果表明,所提算法提高了大数据环境下模型训练效率。 展开更多
关键词 SPARK 大数据 并行DCNN 冗余数据 自适应人工蜂群算法 参数初始化 数据倾斜
在线阅读 下载PDF
排黏大熊猫的血液蛋白质组学研究及其生物信息分析
4
作者 夏茂华 李祥翔 +6 位作者 刘金鹏 国欣欣 徐海泓 刘彦晖 戴春阔 李曦 王运盛 《中国畜牧兽医》 北大核心 2025年第5期1955-1965,共11页
【目的】探讨圈养大熊猫在排黏期与非排黏期血清蛋白质组学特征,以揭示排黏现象的分子机制,并为圈养大熊猫的健康管理提供科学支持。【方法】以8只圈养大熊猫为研究对象,每只大熊猫在排黏期和非排黏期各采集一次血液样本,将样本分为排... 【目的】探讨圈养大熊猫在排黏期与非排黏期血清蛋白质组学特征,以揭示排黏现象的分子机制,并为圈养大熊猫的健康管理提供科学支持。【方法】以8只圈养大熊猫为研究对象,每只大熊猫在排黏期和非排黏期各采集一次血液样本,将样本分为排黏期组(NY)和非排黏期组(Con)。排黏期组在大熊猫排黏后2 h内完成血液采集,非排黏期组血液采集与排黏期相隔至少30 d。提取血液蛋白后进行酶解,获取的肽段经过脱盐和定量处理。采用数据独立采集(data-independent acquisition,DIA)技术进行液相色谱-质谱联用(liquid chromatography-mass spectrometry,LC-MS/MS)分析,数据导入Spectronaut TM软件,进行分析。检测数据在美吉云平台分析,差异蛋白筛选标准为P<0.05,且差异倍数(FoldChange,FC)>1.2或<0.8。用生物信息数据库对差异蛋白进行聚类分析、GO功能富集分析,对差异蛋白涉及的代谢通路进行富集分析,差异蛋白之间进行蛋白互作分析;采用平行反应监测(parallel reaction monitoring,PRM)验证蛋白数据,将目标蛋白中肽段的定量值根据标肽进行归一化,统计检验的阈值设定为P<0.05,并与PRM验证结果进行对比。【结果】在大熊猫血液样品中共鉴定出273种蛋白,其中258种为共有蛋白,12种为排黏期特有蛋白,3种为非排黏期特有蛋白。差异表达蛋白分析显示,排黏期组和非排黏期组共筛选出25种差异表达蛋白,其中7种蛋白表达上调、18种蛋白表达下调。差异蛋白主要参与细胞生长、免疫应答及炎症反应等生物过程,且主要富集于Rap1信号通路、雌激素(Estrogen)信号通路、磷脂酰肌醇3-激酶-蛋白激酶B(PI3K-Akt)信号通路和松弛素(Relaxin)信号通路。蛋白互作分析筛选出A0A7N5KNP1(FBLN5)、D2GWB9(THBS1)、D2HUL0(SERPIND1)和D2HHD2(ITGA2)等核心蛋白在排黏期显著变化。【结论】排黏大熊猫与非排黏熊猫血清中发现25种差异表达蛋白。这些蛋白主要富集于PI3K-Akt、Rap1、Estrogen和Relaxin信号通路,其中核心蛋白A0A7N5KNP1(FBLN5)、D2GWB9(THBS1)、D2HUL0(SERPIND1)和D2HHD2(ITGA2)在大熊猫排黏现象中发挥重要作用。 展开更多
关键词 大熊猫 血清蛋白质组 排黏 非数据依赖采集(DIA) 平行反应监测(PRM)
在线阅读 下载PDF
GTS12与GTS1探空仪平行观测数据对比分析和评估
5
作者 杨国彬 郭启云 +3 位作者 夏元彩 蒋锐 舒康宁 周明刚 《气象》 北大核心 2025年第5期552-565,共14页
基于全国89个高空气象观测站GTS12与GTS1探空仪的平行观测数据和CMA-GFS模式预报场数据对两种探空仪各标准等压面上的观测数据进行对比分析和评估。结果表明:两种探空仪温度和位势高度偏差绝对值除个别等压面外分别小于0.5℃和30.0gpm,... 基于全国89个高空气象观测站GTS12与GTS1探空仪的平行观测数据和CMA-GFS模式预报场数据对两种探空仪各标准等压面上的观测数据进行对比分析和评估。结果表明:两种探空仪温度和位势高度偏差绝对值除个别等压面外分别小于0.5℃和30.0gpm,表明两种探空仪测得的温度和位势高度一致性较好,而GTS12探空仪测得的相对湿度较GTS1探空仪平均偏大约4.6%;对于观测数据稳定性,在中低层等压面两种探空仪差异不大,在高层GTS12探空仪的温度和位势高度明显优于GTS1探空仪,但相对湿度略差于GTS1探空仪。GTS12探空仪和GTS1探空仪观测数据相对于模式数据,温度偏差绝对平均值分别约为0.34℃和0.44℃,平均均方根误差分别约为1.23℃和1.31℃,平均相关系数分别约为0.908和0.916;位势高度对应分别为11.05gpm和14.97gpm,18.76gpm和25.16gpm,0.948和0.934;相对湿度对应分别为5.26%和8.59%,16.19%和18.44%,0.687和0.627,表明GTS12探空仪观测数据与模式数据一致性优于GTS1探空仪。GTS12探空仪传感器技术的改进有效提升了探空仪的整体观测性能。 展开更多
关键词 GTS12探空仪 GTS1探空仪 平行观测数据 对比分析 评估
在线阅读 下载PDF
基于深度并行时序网络的用户侧异常数据智能诊断
6
作者 郑艳松 廖伟国 《现代电子技术》 北大核心 2025年第4期140-144,共5页
在用户侧数据中,异常往往隐藏在复杂的时序关系中,传统的时序分析方法在处理用户侧数据中复杂的时序关系时存在困难,特征提取难以捕获关键特征,导致诊断精度低且易漏检。为此,研究一种基于深度并行时序网络的用户侧异常数据智能诊断方... 在用户侧数据中,异常往往隐藏在复杂的时序关系中,传统的时序分析方法在处理用户侧数据中复杂的时序关系时存在困难,特征提取难以捕获关键特征,导致诊断精度低且易漏检。为此,研究一种基于深度并行时序网络的用户侧异常数据智能诊断方法。深度并行时序网络分解层利用滑动窗口法分割用户侧数据,得到数个窗口序列。编码层依据层叠时序卷积神经网络与长短期记忆(LSTM)网络建立编码器,提取各窗口序列的时空特征;解码层通过引入时间注意力机制的门控循环单元建立解码器,重构窗口序列的时空特征;推断层依据重构特征计算异常分数,当异常分数大于设置阈值时,说明该窗口内的用户侧数据为异常数据,即完成了用户侧异常数据的智能诊断。实验结果表明,所提方法可有效提取用户侧数据特征,计算异常分数,并完成用户侧异常数据智能诊断。 展开更多
关键词 深度并行时序网络 用户侧 异常数据 智能诊断 滑动窗口 LSTM
在线阅读 下载PDF
面向杂凑密码算法的专用指令加速器的设计与实现
7
作者 王轩 刘勤让 +3 位作者 陈磊 魏帅 范旺 杨恒 《计算机工程与应用》 北大核心 2025年第2期363-371,共9页
物联网的快速发展对嵌入式设备的系统性能和数据安全性的要求越来越高,传统的通用嵌入式处理器对密码算法的实现效率不高,不能很好满足性能需要,此外嵌入式设备还有着低功耗的场景需求。为解决以上问题,在Xilinx ZYNQ ZC706嵌入式开发... 物联网的快速发展对嵌入式设备的系统性能和数据安全性的要求越来越高,传统的通用嵌入式处理器对密码算法的实现效率不高,不能很好满足性能需要,此外嵌入式设备还有着低功耗的场景需求。为解决以上问题,在Xilinx ZYNQ ZC706嵌入式开发平台上设计了一个低功耗的面向杂凑密码算法的专用指令加速器,该加速器包含有取指译码单元、执行单元和数据访存单元,通过多任务数据并行和专用指令实现计算加速;并设计令牌机制解决指令执行时的数据冲突问题;在高层次综合(high-level synthesis,HLS)工具的基础上通过存储优化改进访存机制,有效提高带宽利用率。实验结果表明,加速器的工作频率为100 MHz,该ARM+FPGA方案相较于单ARM方案可达3倍以上的加速效果,而且运行功耗仅为2.23 W,该加速器也可定制化拓展,有较好的灵活性。 展开更多
关键词 嵌入式应用 加速器设计 专用指令 高层次综合 数据并行
在线阅读 下载PDF
一种深度神经网络多步延迟参数更新并行优化方法
8
作者 巨涛 康贺廷 +2 位作者 刘帅 丁肖健 王龙翔 《哈尔滨工业大学学报》 北大核心 2025年第9期95-108,共14页
为解决深度神经网络(deep neural network,DNN)分布式数据并行训练中因聚合节点梯度进行全局梯度参数更新而导致的高通信开销问题,提出一种DNN多步延迟参数更新并行优化方法。首先,设计了一种自适应多步更新间隔选择策略,通过多次本地迭... 为解决深度神经网络(deep neural network,DNN)分布式数据并行训练中因聚合节点梯度进行全局梯度参数更新而导致的高通信开销问题,提出一种DNN多步延迟参数更新并行优化方法。首先,设计了一种自适应多步更新间隔选择策略,通过多次本地迭代,再聚合节点梯度,降低频繁通信造成的额外开销;同时,提出了一种参数修正策略,防止本地模型在多步本地更新后偏离全局模型,从而保证训练精度;其次,在聚合梯度时,将梯度张量切分为子张量,在梯度聚合过程中实现通信与计算的最大化重叠,进一步加速模型训练;最后,在CIFAR-100和ImageNet-mini数据集上,将本文方法与SSGD、Local SGD训练方法进行对比。实验结果表明,本文方法可以在保证模型训练精度的基础上,显著减少因参数更新引入的通信开销,可以实现通信与计算的最大化重叠,充分利用计算资源提升并行训练速度。研究结果可为降低DNN分布式训练过程中的通信开销提供新的方案。 展开更多
关键词 深度神经网络 数据并行 通信调度 参数更新 计算与通信重叠
在线阅读 下载PDF
OpenMP在天气雷达基数据压缩/解压和解码中的应用
9
作者 沃伟峰 赵昶昱 +2 位作者 顾小丽 陶岚 王国荣 《气象》 北大核心 2025年第10期1226-1236,共11页
以常规的PC工作站为基准,采用OpenMP技术,针对压缩/解压过程,设计了一种并行分块处理方案,在12核/24线程的CPU下,当分块数量达到16块时,数据的压缩、解压时间分别能减少至单线程的1/5和1/8左右;针对解码过程,比较了按PPI、径向和距离库... 以常规的PC工作站为基准,采用OpenMP技术,针对压缩/解压过程,设计了一种并行分块处理方案,在12核/24线程的CPU下,当分块数量达到16块时,数据的压缩、解压时间分别能减少至单线程的1/5和1/8左右;针对解码过程,比较了按PPI、径向和距离库不同颗粒下并行处理的结果,发现在径向上并行处理的方案最优,能够将解码时间缩减至单线程的1/8左右。通过上述两项并行优化技术的应用,可以显著降低雷达基数据在数据传输、预处理环节中的压力,也能提升雷达软件的数据载入性能,改善基于基数据的雷达分析软件的交互体验。 展开更多
关键词 天气雷达 基数据 并行处理 压缩 解压 解码
在线阅读 下载PDF
ParallelCluster:一种时序多维数据的可视化方法 被引量:3
10
作者 姚中华 张龙飞 宋汉辰 《系统仿真学报》 CAS CSCD 北大核心 2013年第9期2135-2139,共5页
平行坐标系在多维数据表示上具有显著优势,但其在时序数据表示上存在不足。提出了一种通过添加时间属性轴,将平行坐标系扩展到三维空间的方法,形成由属性维、值域维、时间维构成的三坐标空间,称为ParallelCluster。从而将单个实体的时... 平行坐标系在多维数据表示上具有显著优势,但其在时序数据表示上存在不足。提出了一种通过添加时间属性轴,将平行坐标系扩展到三维空间的方法,形成由属性维、值域维、时间维构成的三坐标空间,称为ParallelCluster。从而将单个实体的时序多维数据表现为由多条折线构成的折线簇,用于进行时序多维数据分析。在显示上采用剪裁渐变技术,突出显示当前时间点前后的数据集,增强轮廓信息。实验结果表明ParallelCluster能够很好地综合分析包括时间维度在内的多维数据,发现维度特征和时序特征。 展开更多
关键词 平行坐标系 时序 多维数据 数据可视化
在线阅读 下载PDF
基于多级实体关联的光栅断点故障数据并行挖掘方法
11
作者 陈思 赵鹏 杨潞霞 《激光杂志》 北大核心 2025年第4期180-185,共6页
在光栅断点故障数据中,存在多种类型的实体,这些实体具有多个层级,导致关联分析变得复杂,加大了故障数据挖掘的难度。多级实体关联分析考虑了故障数据的多层次特性,通过关联相似性能够对故障数据进行更为全面的捕捉。因此,提出基于多级... 在光栅断点故障数据中,存在多种类型的实体,这些实体具有多个层级,导致关联分析变得复杂,加大了故障数据挖掘的难度。多级实体关联分析考虑了故障数据的多层次特性,通过关联相似性能够对故障数据进行更为全面的捕捉。因此,提出基于多级实体关联的光栅断点故障数据并行挖掘方法。采用多级实体关联模型,通过层次化分析计算关联相似度,有效捕捉和简化光栅断点故障数据的复杂关系和层次结构。在MapReduce框架下,结合多级实体关联的层次化相似性结果,采用区间型FCM聚类算法对大规模光栅断点故障数据进行并行挖掘。实验结果表明,所提方法在处理光栅断点故障数据时,能够显著提升并行挖掘的吞吐量,使其稳定维持在6 kbps以上,并且显著降低了计算开销。 展开更多
关键词 多级实体关联 关联相似度 光栅断点 故障数据 并行挖掘
在线阅读 下载PDF
面向可重构阵列的CNN多维融合数据复用方法
12
作者 张骁帆 蒋林 +1 位作者 李远成 盛明威 《计算机应用研究》 北大核心 2025年第6期1801-1806,共6页
可重构阵列结构具有通用处理器的灵活性和专用硬件的高能效,已经成为应对卷积神经网络(CNN)等计算密集和访存密集型应用的最佳选择之一。然而,随着计算量的不断增加,访存开销持续上升,严重限制了计算效率的进一步提升。因此,提出一种面... 可重构阵列结构具有通用处理器的灵活性和专用硬件的高能效,已经成为应对卷积神经网络(CNN)等计算密集和访存密集型应用的最佳选择之一。然而,随着计算量的不断增加,访存开销持续上升,严重限制了计算效率的进一步提升。因此,提出一种面向可重构阵列的CNN多维融合的数据复用新方法。通过计算单元内数据循环调用、不同计算单元间数据脉动传输的策略,在计算单元和阵列两个维度复用数据。同时,通过阵列的重构进行任务切换,实现多维融合的数据复用,并在Virtex UltraScale 440开发板上对所提方法进行了实验验证。结果表明,相比于现有的基于现场可编程门阵列(FPGA)的CNN实现方法,所提方法可使访存次数最高减少69.4%,运算速度提升16.2%以上,处理单元利用率达94.1%。说明该方法能够在可重构阵列实现CNN的高效数据复用,进而达到硬件加速的目的。 展开更多
关键词 卷积神经网络 可重构结构 数据复用 并行加速
在线阅读 下载PDF
并发式Spark消息分发器
13
作者 何玉林 林泽杰 +2 位作者 徐毓阳 成英超 黄哲学 《深圳大学学报(理工版)》 北大核心 2025年第3期317-325,I0012,I0013,共11页
在大数据计算框架Spark中,驱动器采用迭代式消息分发机制,会增加任务提交的时间开销,影响任务执行的启动时间,限制了任务执行的并发性,导致多个执行器处于空闲等待状态,造成计算资源的浪费.使用线程池调度策略,构建一种高效且轻量级的... 在大数据计算框架Spark中,驱动器采用迭代式消息分发机制,会增加任务提交的时间开销,影响任务执行的启动时间,限制了任务执行的并发性,导致多个执行器处于空闲等待状态,造成计算资源的浪费.使用线程池调度策略,构建一种高效且轻量级的并发式Spark消息分发器.与迭代式Spark消息分发器不同,并发式消息分发器更加关注且更适合调度开销较大的细粒度任务作业,通过解析包含执行器重要信息的元数据,获取任务列表及各个任务对应的执行器标识,创建线程池并为每个任务启动异步计算,从而实现并发式任务分发,在保证系统稳定和任务顺利执行的前提下,最大程度地减少任务分发的时间开销.在虚拟机构建的仿真集群环境上,通过与迭代式消息分发器进行对比,证实了并发式消息分发器的良好效果.实验结果表明,在内存保持不变的前提下,并发式Spark消息分发器可减少约9%的任务执行时间,同时能提高约5%的中央处理器的利用率.并发式Spark消息分发器有效解决了迭代式消息分发机制针对细粒度任务分发的时间开销过大和计算资源浪费的问题. 展开更多
关键词 并行处理 大数据计算 Spark通信机制 消息分发 细粒度任务 线程池调度
在线阅读 下载PDF
光纤通信网络多维数据包并行低延迟传输研究 被引量:1
14
作者 于敏 王娜 白明明 《激光杂志》 北大核心 2025年第4期203-209,共7页
光纤网络是分布式的,数据包在多个节点之间传输。当用户集中访问服务或应用时的流量会急剧增加,使得网络中任何一个节点或链路上发生拥塞,导致数据包需要在节点上排队等待传输,增加了数据包的传输延迟。为此,提出一种光纤通信网络多维... 光纤网络是分布式的,数据包在多个节点之间传输。当用户集中访问服务或应用时的流量会急剧增加,使得网络中任何一个节点或链路上发生拥塞,导致数据包需要在节点上排队等待传输,增加了数据包的传输延迟。为此,提出一种光纤通信网络多维数据包并行低延迟传输方法。计算光纤通信网络多维数据包对应的压缩标量,捕获通信网络多维数据包压缩信号的特征值后确定特征信号参数。利用特征信号参数构建自适应压缩模型,采用压缩编码方案完成光纤通信网络多维数据包压缩。完成压缩处理后,采用混沌分区的方式展开初步关键点分类划分,生成关键区域划分阈值完成对网络的区域更新,避免传输节点发生拥塞,从而确定压缩处理后的多维数据包并行低延迟传输规则,引入关键划分阈值,最终实现数据汇聚,完成多维数据包并行低延迟传输,降低数据包在节点上排队传输时间。实验结果表明,所提方法可以显著提升多维数据包并行低延迟传输质量。 展开更多
关键词 光纤通信网络 多维数据包 并行 低延迟 传输
在线阅读 下载PDF
基于ROS-QT的红花采摘机器人多线程传感器数据预处理系统
15
作者 郭辉 王翔 +1 位作者 武天伦 杨春天 《沈阳农业大学学报》 北大核心 2025年第1期117-127,共11页
[目的]针对红花采摘机器人在复杂农田环境中面临的实时感知与控制挑战,特别是多源异构传感器数据处理和对环境变化的快速响应问题,设计一种基于ROS和Qt的多线程并行控制系统。[方法]数据处理引入生产者-消费者模型,实现多源异构传感器... [目的]针对红花采摘机器人在复杂农田环境中面临的实时感知与控制挑战,特别是多源异构传感器数据处理和对环境变化的快速响应问题,设计一种基于ROS和Qt的多线程并行控制系统。[方法]数据处理引入生产者-消费者模型,实现多源异构传感器数据的实时并行处理,提高系统数据处理效率和鲁棒性,并在新疆吉木萨尔县红旗农场红花田现场试验。[结果]多线程架构在复杂场景中显著优化资源利用率,减少端到端延迟约19.3%~25%。通过任务分解与并行处理,多线程配置在高负载条件下将CPU使用率从单线程的90%降低至75%~80%,并显著平滑内存曲线,提升系统稳定性。[结论]该项目与新疆35家农户、合作社签订技术服务合作协议,对推动红花采摘机械化发展具有重要的理论和实践意义。 展开更多
关键词 红花采摘机器人 多线程控制系统 并行数据处理 并行控制
在线阅读 下载PDF
面向RISC-V向量扩展的高性能算法库优化方法
16
作者 韩柳彤 张洪滨 +2 位作者 邢明杰 武延军 赵琛 《软件学报》 北大核心 2025年第9期3985-4005,共21页
高性能算法库可以通过向量化的方式高效地利用单指令多数据(SIMD)硬件的能力,从而提升其在CPU上的执行性能.其中,向量化的实现需要使用目标SIMD硬件的特定编程方法,而不同SIMD扩展的编程模型和编程方法均存在较大差异.为了避免优化算法... 高性能算法库可以通过向量化的方式高效地利用单指令多数据(SIMD)硬件的能力,从而提升其在CPU上的执行性能.其中,向量化的实现需要使用目标SIMD硬件的特定编程方法,而不同SIMD扩展的编程模型和编程方法均存在较大差异.为了避免优化算法在不同平台上的重复实现,提高算法库的可维护性,在高性能算法库的开发过程中通常需要引入硬件抽象层.由于目前主流SIMD扩展指令集均被设计为具有固定长度的向量寄存器,多数硬件抽象层也是基于定长向量的硬件特性而设计,无法包含RISC-V向量扩展所引入的可变向量寄存器长度的硬件特性.而若将RISC-V向量扩展视作定长向量扩展引入现有硬件抽象层设计中,会产生不必要的开销,造成性能损失.为此,提出了一种面向可变长向量扩展平台和固定长度SIMD扩展平台的硬件抽象层设计方法.基于此方法,重新设计和优化了OpenCV算法库中的通用内建函数,使其在兼容现有SIMD平台的基础上,更好地支持RISC-V向量扩展设备.将采用优化方法的OpenCV算法库与原版算法库进行性能比较,实验结果表明,运用该方法设计的通用内建函数能够将RISC-V向量扩展高效地融入算法库的硬件抽象层优化框架中,并在核心模块中获得3.93倍的性能提升,显著优化了高性能算法库在RISC-V设备上的执行性能,从而验证了该方法的有效性.此外,工作已经开源并被OpenCV社区集成到其源代码之中,证明了方法的实用性和应用价值. 展开更多
关键词 RISC-V向量扩展 数据级并行 高性能库优化 开源计算机视觉算法库(OpenCV)
在线阅读 下载PDF
基于OpenMP的遥感影像并行ISODATA聚类研究 被引量:11
17
作者 刘扬 王鹏 +4 位作者 杨瑞 左宪禹 张周威 吴晓洋 渠涧涛 《计算机工程》 CAS CSCD 北大核心 2016年第7期238-243,250,共7页
针对传统影像分类算法执行效率较低,无法满足海量高分辨率遥感数据实时处理需求的问题,对资源三号卫星专题产品中遥感影像的迭代自组织数据分析算法进行分析与研究,设计一种基于OpenMP的并行ISODATA聚类算法(PIsodata Omp)。采用OpenMP... 针对传统影像分类算法执行效率较低,无法满足海量高分辨率遥感数据实时处理需求的问题,对资源三号卫星专题产品中遥感影像的迭代自组织数据分析算法进行分析与研究,设计一种基于OpenMP的并行ISODATA聚类算法(PIsodata Omp)。采用OpenMP技术优化ISODATA算法中的样本点聚类、聚类样本中心标准差计算,实现基于共享内存的单机多核并行化处理。实验结果表明,PIsodata Omp算法能在保证分类精度不变的情况下,明显提高资源三号卫星影像数据的处理速度。 展开更多
关键词 并行聚类 迭代自组织数据分析算法 OpenMP技术 遥感影像分类 多核处理
在线阅读 下载PDF
基于国产异构众核处理器的等值线与等值面提取算法优化
18
作者 张元胤 肖敏广 +3 位作者 刘志勇 翁灵玲 陈志广 卢宇彤 《计算机工程与科学》 北大核心 2025年第2期200-209,共10页
MT-3000是由国防科技大学面向下一代超级计算机设计的国产异构众核处理器,具有优越的计算能力,可以有效加速可视化数据处理。等值线和等值面提取是标量场数据最常用的几何可视化方法,但现有的提取算法通常仅面向通用CPU或GPU。在MT-300... MT-3000是由国防科技大学面向下一代超级计算机设计的国产异构众核处理器,具有优越的计算能力,可以有效加速可视化数据处理。等值线和等值面提取是标量场数据最常用的几何可视化方法,但现有的提取算法通常仅面向通用CPU或GPU。在MT-3000处理器上,由于片上缓存空间有限,从核访存带宽限制等问题,导致计算效率低下;另外,由于编程模型的特殊性,现有软件与方法无法直接在MT-3000上运行。为了充分发挥国产超算系统在可视化领域的计算效能,基于MT-3000的微体系结构对等值线网格序列算法和等值面移动立方体算法分别提出了新的并行化算法。新方法采用向量指令、流水线实现存算重叠等技术,更加适应异构众核架构,从而达到加速算法执行的目的。实验结果表明,2种算法的加速比均达到4以上,并且随着从核的增多,算法的执行时间近呈线性下降,这证明所提算法具有良好的可扩展性。 展开更多
关键词 数据过滤 等值线 等值面 并行计算 异构 众核 国产超算系统
在线阅读 下载PDF
基于Floyd-Steinberg误差扩散的数字半调高效计算
19
作者 廉凯成 杨晨 +1 位作者 朱佳伟 柴志雷 《计算机工程与科学》 北大核心 2025年第5期875-884,共10页
针对工业界采用的主流数字半调算法——Floyd-Steinberg误差扩散算法在处理日益增大的图像数据时存在的数据依赖严重、可并行性低和实时性差等问题,提出高效计算方法。首先,通过预生成像素-误差扩散值查找表避免了频繁的误差和扩散过程... 针对工业界采用的主流数字半调算法——Floyd-Steinberg误差扩散算法在处理日益增大的图像数据时存在的数据依赖严重、可并行性低和实时性差等问题,提出高效计算方法。首先,通过预生成像素-误差扩散值查找表避免了频繁的误差和扩散过程计算;其次,通过基于行缓冲的高效数据结构实现访存优化;再次,提出误差累加单指令多数据SIMD并行方法,使用AVX-512指令集并行累加多个像素同向误差,增强CPU中矢量寄存器的作用;最后,通过边缘误差限制的列分块方法实现多核数据并行,同时消除由于数据并行处理时边界部分数据依赖导致的误差问题。实验结果表明:本文提出的优化算法具有良好的规模伸缩性,计算性能随最佳并行核心数量线性提升;与传统的Floyd-Steinberg误差扩散算法相比,在16核Intel Core TM i7-11700 CPU平台上处理5120×5120灰度图时,获得15倍性能提升,仅需23 ms即可完成处理,更好地满足大规模、超大幅面、超高分辨率和多变内容的工业高速印刷的需求。 展开更多
关键词 数字半调 Floyd-Steinberg误差扩散 单指令多数据 并行计算
在线阅读 下载PDF
面向商用存算一体架构矩阵乘算子协同优化策略研究
20
作者 贺煜凯 谢童欣 +2 位作者 朱振华 高岚 李冰 《电子与信息学报》 北大核心 2025年第9期3187-3197,共11页
由于近存架构对数据密集型程序加速的潜力,Samsung等公司推出基于高带宽存储器与存内计算(HBM-PIM)的近存芯片用于大模型加速,得益于HBM的高带宽和天然并行特性,近存计算表现出对大模型极佳的加速。该文发现,矩阵规模变化时,HBM-PIM架... 由于近存架构对数据密集型程序加速的潜力,Samsung等公司推出基于高带宽存储器与存内计算(HBM-PIM)的近存芯片用于大模型加速,得益于HBM的高带宽和天然并行特性,近存计算表现出对大模型极佳的加速。该文发现,矩阵规模变化时,HBM-PIM架构的加速性能表现出不稳定性,限制了大模型部署的加速提升。为了释放HBM-PIM的加速潜力,该文深度分析了不同规模算子在HBM-PIM上性能差异的根本原因在于当前HBM-PIM对矩阵乘数据划分、映射和执行的支持不足,进而提出融合动态Bank分配、奇偶Bank交错式地址映射与分片虚拟化计算优化方法,有效提高了资源利用率和计算并行性。评估结果表明,所提方法对不同规模的矩阵计算都取得了1.894~8.225的加速比,相比优化前,性能平均提升了2.7倍。该文所提方案有效增强了PIM体系结构在多尺度任务下的可扩展性与适配能力,为AI算子在存内计算平台上的高效映射与调度提供了有益参考。 展开更多
关键词 存算一体 算子性能优化 矩阵乘算子 数据并行 地址映射策略
在线阅读 下载PDF
上一页 1 2 72 下一页 到第
使用帮助 返回顶部