期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于通信和拓扑感知的SNN分区与映射算法
1
作者 黄尧 柴志雷 《计算机工程》 北大核心 2025年第5期219-228,共10页
脉冲神经网络(SNN)正日益成为研究和模拟大脑各区功能及其相互关联性的重要方法。为了模拟更大规模的脑区域,并行分布式计算已成为模拟SNN的必然选择。然而,随着计算规模的增长,计算节点间的负载不均衡及通信问题成为影响SNN模拟性能的... 脉冲神经网络(SNN)正日益成为研究和模拟大脑各区功能及其相互关联性的重要方法。为了模拟更大规模的脑区域,并行分布式计算已成为模拟SNN的必然选择。然而,随着计算规模的增长,计算节点间的负载不均衡及通信问题成为影响SNN模拟性能的主要因素。针对分布式计算平台,现有分区算法还无法找到全局最佳分区并有效地将工作负载映射到计算核心上。因此,提出一种基于通信和拓扑感知的分区与映射算法,该算法包括分区和拓扑感知映射2个核心步骤。通过引入能够感知SNN连接的分区方法,提高计算效率并降低通信延迟;在拓扑感知映射方法中,利用通信拓扑图和底层网络信息将工作负载高效地分配到各计算节点上,最小化跨不同计算核心的通信成本。实验结果表明,在国家超算济南计算中心的并行计算平台上,采用96进程规模并行模拟SNN基准测试集时,相比现有先进的分区框架,所提方法具有更好的负载均衡和通信性能,同步时间和通信时间分别减少了40%和7.1%,最终的模拟总时间缩短了30%。 展开更多
关键词 脉冲神经网络 分布式计算 负载均衡 超图分区 拓扑感知映射
在线阅读 下载PDF
残差修正的加权多项式回归色彩特征化算法
2
作者 杨晨 廉凯成 +2 位作者 徐昊 吴秦 柴志雷 《计算机应用研究》 CSCD 北大核心 2024年第10期3188-3193,共6页
在数字印刷领域,精确再现计算机图像的颜色是高质量印刷的前提,其中色彩特征化是关键环节。传统多项式回归模型由于高阶项会放大特征化样本集中的奇异值,导致模型振荡从而影响色彩特征化的准确性。基于神经网络的色彩特征化算法精度较高... 在数字印刷领域,精确再现计算机图像的颜色是高质量印刷的前提,其中色彩特征化是关键环节。传统多项式回归模型由于高阶项会放大特征化样本集中的奇异值,导致模型振荡从而影响色彩特征化的准确性。基于神经网络的色彩特征化算法精度较高,但算法复杂度也呈数量级的提高,难以满足工业生产中的效率要求。为解决上述问题,提出残差修正的加权多项式回归算法,采用具有较强抗差能力的Huber损失函数来替代均方误差。通过自适应机制确定各个样本权重,并利用残差值迭代优化得到最佳权重矩阵,从而降低奇异值样本对系统的影响;此外,修正模块捕获第一个模型可能遗漏的非线性情况辅助调整转换结果,进而提高颜色再现准确性。结果表明,该算法与普通多项式回归相比,平均色差降低1.2,与基于深度置信网络的推理算法精度接近,但运行时间比其减少99.37%。 展开更多
关键词 色彩特征化 多项式回归 自适应加权 色彩复制 色彩管理
在线阅读 下载PDF
基于异构可重构计算的AES加密系统研究 被引量:18
3
作者 聂一 郑博文 柴志雷 《计算机应用研究》 CSCD 北大核心 2022年第7期2143-2148,共6页
随着大数据的发展及加密场景的增多,仅以软件运行的加密方式难以满足加密性能的需求;而使用Verilog/VHDL方式实现的FPGA/ASIC加密系统又存在灵活性较差、维护升级困难等问题。针对上述问题,设计并实现了一种基于异构可重构计算的AES算... 随着大数据的发展及加密场景的增多,仅以软件运行的加密方式难以满足加密性能的需求;而使用Verilog/VHDL方式实现的FPGA/ASIC加密系统又存在灵活性较差、维护升级困难等问题。针对上述问题,设计并实现了一种基于异构可重构计算的AES算法加密系统,包含了AES算法ECB、CBC、CTR三种主流模式,每种模式实现了128 bit、192 bit、256 bit三种密钥大小的加密。基于FPGA对模块分别进行了硬件加速,同时基于硬件可重构机制实现了不同模式及不同位宽加密模块的动态切换。通过在Intel Stratix 10上实现并验证该系统,实验结果表明:系统中AES-ECB、AES-CTR、AES-CBC吞吐率分别达到116.43 Gbps、60.34 Gbps、4.32 Gbps,ECB模式相比于Intel Xeon E5-2650 V2 CPU和NVIDIA GeForce GTX 1080 GPU分别获得了23.18倍与1.43倍的加速比,整体系统相比纯软件方式的计算加速比达到4.72。 展开更多
关键词 现场可编程门阵列 异构可重构 加密算法 高级加密标准 并行
在线阅读 下载PDF
基于嵌入式GPU的pyramid LK光流法高速计算方法研究 被引量:3
4
作者 孙瑞鑫 朱国梁 +2 位作者 谢双镱 郭雪亮 柴志雷 《计算机应用研究》 CSCD 北大核心 2022年第7期1966-1972,共7页
在嵌入式计算平台上实现双向约束LK金字塔高精度光流的实时计算,是该算法能否应用于自动驾驶等场景的重要影响因素。为了实现该目的,提出了基于网格划分的特征提取方法及新的双向约束方法;然后设计了动态窗口的金字塔模型,解决了光流计... 在嵌入式计算平台上实现双向约束LK金字塔高精度光流的实时计算,是该算法能否应用于自动驾驶等场景的重要影响因素。为了实现该目的,提出了基于网格划分的特征提取方法及新的双向约束方法;然后设计了动态窗口的金字塔模型,解决了光流计算过程中的负载不均衡问题;最后通过降低计算位宽,使得整体性能获得进一步提升。实验结果表明:在Jetson TX2上,针对真实场景所用的720P视频,所提出方法的性能比OpenCV的GPU版本提升了4.1倍,达到30 fps以上;将采用该方法的SLAM系统成功应用于车载场景并在真实环境中测试,使得系统的性能达到了28 fps。新方法有效地提升了位姿和点云的精度,较好地满足了车载场景的实时处理需求。 展开更多
关键词 LK光流 嵌入式GPU CUDA SLAM 并行计算
在线阅读 下载PDF
基于联合权重超图划分的SNN负载均衡方法 被引量:2
5
作者 徐聪 叶钧超 +1 位作者 黄尧 柴志雷 《计算机应用研究》 CSCD 北大核心 2023年第7期2130-2137,共8页
大规模脉冲神经网络并行模拟是探究大脑机能的重要手段。其难点在于合理地将负载映射到并行分布式平台上,提升模拟速度。为解决该问题,提出一种基于联合权重超图划分的SNN负载均衡方法,解决并行计算中进程间计算负载与通信负载的均衡问... 大规模脉冲神经网络并行模拟是探究大脑机能的重要手段。其难点在于合理地将负载映射到并行分布式平台上,提升模拟速度。为解决该问题,提出一种基于联合权重超图划分的SNN负载均衡方法,解决并行计算中进程间计算负载与通信负载的均衡问题,提高SNN模拟速度,并使用稀疏通信的方式替代集体通信,解决事件通信过程中的数据冗余问题,提升通信效率。实验结果表明,该方法使带有STDP突触20%规模的皮质层微电路模型的模拟时间,比标准循环分配算法缩短约64.5%,比普通超图分配算法缩短约57.4%,同时事件通信数据量减少了90%以上。 展开更多
关键词 脉冲神经网络 负载均衡 联合权重 超图划分 并行计算
在线阅读 下载PDF
SM4国密算法的异构可重构计算系统研究 被引量:1
6
作者 王腾腾 柴志雷 《计算机应用研究》 CSCD 北大核心 2023年第9期2826-2831,共6页
随着互联网的数据量呈爆炸式增长,以纯软件方式运行的SM4算法速度慢、CPU占用率高,而基于Verilog/VHDL实现的现场可编程门阵列或专用集成电路存在灵活性差、升级维护困难等问题。为了解决上述问题,提出了一种SM4国密算法的异构可重构计... 随着互联网的数据量呈爆炸式增长,以纯软件方式运行的SM4算法速度慢、CPU占用率高,而基于Verilog/VHDL实现的现场可编程门阵列或专用集成电路存在灵活性差、升级维护困难等问题。为了解决上述问题,提出了一种SM4国密算法的异构可重构计算系统的设计方案,采用高层次综合和异构可重构技术,通过优化数据内存分配与传输、优化循环、矢量化内核以及增加计算单元等方式,设计了SM4算法电子密码本模式和计数器模式的定制计算架构,并将该系统部署在FPGA异构平台。实验结果表明:SM4-ECB和SM4-CTR两种主流工作模式的定制计算架构在Intel Stratix 10 GX2800上,吞吐率分别达到109.48 Gbps和63.73 Gbps,是Intel Xeon E5-2650 V2 CPU上对应模式吞吐率的232.63倍和141.62倍。以此核心模块(包含数据输入、加解密、输出)的整体异构可重构计算系统的性能也分别达到了纯软件方式的4.90倍和3.56倍。该方案不仅实现了针对特定模式进行定制加速,而且可以通过硬件重构灵活支持不同的计算模式,兼顾了系统的灵活性和高效性。 展开更多
关键词 SM4 异构可重构 现场可编程门阵列 国密算法 硬件加速
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部