期刊文献+
共找到202篇文章
< 1 2 11 >
每页显示 20 50 100
基于CNN的异构FPGA硬件加速器设计 被引量:1
1
作者 籍浩林 徐伟 +2 位作者 朴永杰 吴晓斌 高倓 《液晶与显示》 北大核心 2025年第3期448-456,共9页
受硬件平台算力以及存储资源的限制,利用嵌入式系统实现节能且高效的卷积神经网络(CNN)仍然是硬件设计人员面临的主要挑战。基于此,本文提出一种使用现场可编程门阵列片上系统(SoC)实现的异构嵌入式系统的完整设计。该设计采用了一种可... 受硬件平台算力以及存储资源的限制,利用嵌入式系统实现节能且高效的卷积神经网络(CNN)仍然是硬件设计人员面临的主要挑战。基于此,本文提出一种使用现场可编程门阵列片上系统(SoC)实现的异构嵌入式系统的完整设计。该设计采用了一种可级联的输入复用结构,同时在单个DSP中执行两个独立的乘法累加操作,在减少外部存储器的访问、提升系统效率的同时降低了功耗,相较于其他方案,其功率效率提升38.7%以上。该设计(框架)最终被成功部署于低成本设备上的大规模CNN网络,极大提升了网络模型的功率效率,基于ZYNQ XC7Z045设备上实现的功率效率甚至可达102 Gops/W。此外,当利用该框架进行VGG-16模型推断卷积层时,帧率可达10.9 fps,充分表明该设计在功率受限的环境中可以有效加速卷积神经网络的推理。 展开更多
关键词 硬件加速 卷积神经网络 FPGA 异构SoC
在线阅读 下载PDF
一种地基云图分类算法及硬件加速实现 被引量:1
2
作者 冯琳 宋文强 徐伟 《电子测量与仪器学报》 北大核心 2025年第2期21-31,共11页
地基云的自动观测和识别对分析大气运动趋势和天气预测具有指导意义。针对目前地基云图分类算法准确率不高、在嵌入式终端部署困难的问题,提出了一种基于残差网络结构的地基云图分类网络模型GBcNet及基于ZYNQ的硬件实现架构,PS端用于加... 地基云的自动观测和识别对分析大气运动趋势和天气预测具有指导意义。针对目前地基云图分类算法准确率不高、在嵌入式终端部署困难的问题,提出了一种基于残差网络结构的地基云图分类网络模型GBcNet及基于ZYNQ的硬件实现架构,PS端用于加载模型的权重参数和云图数据,PL端实现DDR3读写控制和GBcNet的硬件加速。设计了滑窗、卷积层、池化层、批量归一化层和全连接层等模块的加速IP核。实验在CCSN数据集上进行,结果表明,提出的模型在PC端的准确率达到96.02%。采用现场可编程门阵列(FPGA)硬件加速后,准确率仍然保持在94.5%。与PC端模型的识别率相比,各云类的识别精度损失均不超过3%,整体精度损失小于1.5%;FPGA的最大资源占用不超过48%,单张地基云图推理时间为0.13 s。相较于现有地基云的识别方法,识别准确率高且推理时间较短。提出的识别模型和硬件加速方法为便携式地基云观测设备的研制提供了一种参考方案。 展开更多
关键词 图像分类 地基云图 硬件加速 FPGA 残差网络
在线阅读 下载PDF
基于HLS的高精度位移测量算法的硬件加速设计
3
作者 陈昊然 王天昊 +5 位作者 路美娜 宋茂新 罗环 吴晓宇 骆冬根 裘桢炜 《系统工程与电子技术》 北大核心 2025年第2期341-351,共11页
针对高精度位移传感器对高速位移测量算法的运行速度、可移植性及降低研发成本的需求,提出一种基于高层次综合(high-level synthesis, HLS)技术的高精度测量算法的硬件加速设计方法。使用HLS技术实现C++语言到Verilog语言的综合,针对高... 针对高精度位移传感器对高速位移测量算法的运行速度、可移植性及降低研发成本的需求,提出一种基于高层次综合(high-level synthesis, HLS)技术的高精度测量算法的硬件加速设计方法。使用HLS技术实现C++语言到Verilog语言的综合,针对高精度位移测量算法设计策略,利用HLS技术中的流水化和数组重构等优化技术进行硬件加速,并将其封装为知识产权(intellectual property, IP)核,提高算法的可移植性。以Xilinx公司的Kintex-7系列现场可编程门阵列(field-programmable gate array, FPGA)芯片XC7K325TFFG676为载体的测量系统实验结果表明,整个算法耗时91.8μs,相比数字信号处理(digital signal processor, DSP)单元将运行时间缩短了308.2μs,测量精度达到44.44 nm,稳定性为49.20 nm,线性度为0.503‰。 展开更多
关键词 高层次综合技术 位移检测 现场可编程门阵列 硬件加速
在线阅读 下载PDF
光线追踪硬件加速方案综述
4
作者 张大权 董家瑞 +5 位作者 雷洋 李世康 石响宇 李宗辉 邓仰东 吴为民 《计算机应用》 北大核心 2025年第5期1632-1644,共13页
当前,实时三维图形渲染领域发生着技术变革,实时光线追踪技术的应用激增;但就计算而言,光线追踪成本依旧“昂贵”,传统硬件无法支持这样的算力。新的图形处理单元(GPU)必须在性能、功耗和高复杂度场景之间获取平衡,硬件加速技术因此成... 当前,实时三维图形渲染领域发生着技术变革,实时光线追踪技术的应用激增;但就计算而言,光线追踪成本依旧“昂贵”,传统硬件无法支持这样的算力。新的图形处理单元(GPU)必须在性能、功耗和高复杂度场景之间获取平衡,硬件加速技术因此成为实时光线追踪的核心。首先,介绍了光线追踪的理论基础,基于目前最主流的2种硬件加速数据结构(KD-Tree(K-Dimensional Tree)和层次包围盒树(BVH-Tree)),分别从基元分割、构造方法、优化方法和遍历加速的角度进行调研,发掘这2种结构用于硬件加速的潜力;其次,从固定函数设计、硬件架构设计、以减少内存带宽为目标的调度和数据管理这3个角度,对各个阶段所开发的专用加速硬件进行总结;再次,面向产业界调研主流的光线追踪GPU的产业界解决方案以及未来发展趋势;最后,总结并讨论光线追踪硬件加速方案的现状与不足,并展望了这些方案的性能优化方向。 展开更多
关键词 光线追踪 硬件加速 KD-TREE 层次包围盒树 图形处理单元
在线阅读 下载PDF
基于剪枝与量化的ResNet模型硬件加速方法
5
作者 曾烨林 林栎 赵亮 《计算机工程与设计》 北大核心 2025年第6期1601-1608,共8页
为快速、方便、正确地将卷积神经网络部署于嵌入式平台实现硬件加速,并解决在硬件部署时遇到的模型计算量大、占用存储多、部署困难等问题,提出一种基于ResNet模型的通道剪枝结合混合精度量化的方法,将模型压缩后,部署于神经网络处理器(... 为快速、方便、正确地将卷积神经网络部署于嵌入式平台实现硬件加速,并解决在硬件部署时遇到的模型计算量大、占用存储多、部署困难等问题,提出一种基于ResNet模型的通道剪枝结合混合精度量化的方法,将模型压缩后,部署于神经网络处理器(neural processing unit, NPU)实现硬件加速。在传统的模型剪枝和量化基础上,采用通道剪枝结合混合精度量化的方法,在保证模型性能的前提下最大程度压缩网络模型。硬件部署推理实验结果表明,该方法可实现对原始模型压缩7.75倍,模型推理速度提升2.55倍,实验验证了该方法对ResNet模型的压缩和硬件推理加速具有一定效果。 展开更多
关键词 通道剪枝 神经网络处理器 混合精度量化 硬件加速 模型压缩 卷积神经网络 推理加速
在线阅读 下载PDF
动态深度神经网络的硬件加速设计及FPGA实现
6
作者 王鹏 任轶群 +1 位作者 范毓洋 张嘉诚 《电讯技术》 北大核心 2024年第3期358-365,共8页
基于现场可编程门阵列(Field Programmable Gate Array,FPGA)实现的卷积神经网络由于具有优秀的目标识别能力,广泛应用在边缘设备。然而现有的神经网络部署多基于静态模型,因此存在无效特征提取、计算量增大、帧率降低等问题。为此,提... 基于现场可编程门阵列(Field Programmable Gate Array,FPGA)实现的卷积神经网络由于具有优秀的目标识别能力,广泛应用在边缘设备。然而现有的神经网络部署多基于静态模型,因此存在无效特征提取、计算量增大、帧率降低等问题。为此,提出了动态深度神经网络的实现方法。通过引入模型定点压缩技术和并行的卷积分块方法,并结合低延迟的数据调度策略,实现了高效卷积计算。同时对神经网络动态退出机制中引入的交叉熵损失函数,提出便于硬件实现的简化方法,设计专用的加速电路。根据所提方法,在Xilinx xc7z030平台部署了具有动态深度的ResNet110网络,平台最高可完成2.78×104 MOPS(Million Operations per Second)的乘积累加运算,并支持1.25 MOPS的自然指数运算和0.125 MOPS的对数运算,相较于i7-5960x处理器加速比达到287%,相较于NVIDIA TITAN X处理器加速比达到145%。 展开更多
关键词 边缘设备 动态深度神经网络 动态退出机制 硬件加速 加速电路
在线阅读 下载PDF
全同态加密软硬件加速研究进展 被引量:4
7
作者 边松 毛苒 +8 位作者 朱永清 傅云濠 张舟 丁林 张吉良 张博 陈弈 董进 关振宇 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第5期1790-1805,共16页
全同态加密(FHE)是一种重计算、轻交互的多方安全计算协议。在基于全同态加密的计算协议中,尽管计算参与方之间无需多轮交互与大量通信,加密状态下的密态数据处理时间通常是明文计算的10~3~10~6倍,极大地阻碍了这类计算协议的实际落地;... 全同态加密(FHE)是一种重计算、轻交互的多方安全计算协议。在基于全同态加密的计算协议中,尽管计算参与方之间无需多轮交互与大量通信,加密状态下的密态数据处理时间通常是明文计算的10~3~10~6倍,极大地阻碍了这类计算协议的实际落地;而密态数据上的主要处理负担是大规模的并行密码运算和运算所必须的密文及密钥数据搬运需求。该文聚焦软、硬件两个层面上的全同态加密加速这一研究热点,通过系统性地归类及整理当前领域中的文献,讨论全同态加密计算加速的研究现状与展望。 展开更多
关键词 全同态加密 同态算法 密码硬件加速
在线阅读 下载PDF
基于FPGA的图像处理硬件加速系统的设计 被引量:3
8
作者 张灿宇 封岸松 +2 位作者 张华良 易星 王俊彭 《计算机工程与设计》 北大核心 2024年第3期723-731,共9页
为解决图像处理算法越来越复杂,普通的计算平台已满足不了当前需求的问题,根据现场可编程门阵列(field programmable gate array, FPGA)的并行计算特点对FAST角点检测算法和Sobel边缘检测算法进行硬件加速,采用HLS(high-level synthesis... 为解决图像处理算法越来越复杂,普通的计算平台已满足不了当前需求的问题,根据现场可编程门阵列(field programmable gate array, FPGA)的并行计算特点对FAST角点检测算法和Sobel边缘检测算法进行硬件加速,采用HLS(high-level synthesis, HLS)高层次综合技术对两种算法进行设计并进行相应的优化。为提升系统整体性能,在FPGA上实现全部视频输入输出接口和图像算法的完整通路,通过FPGA算法电路与OpenCV算法程序进行对比,前者的图像处理速度快于后者9~11倍,系统功耗也仅为1.9 W,图像检测可达56 fps,满足实时图像处理要求,为以后设计复杂的图像处理系统提供了参考。 展开更多
关键词 现场可编程门阵列 硬件加速 高层次综合技术 图像处理 PYNQ-Z2 角点检测 边缘检测
在线阅读 下载PDF
神经渲染及其硬件加速综述 被引量:3
9
作者 严忻恺 霍宇驰 鲍虎军 《计算机研究与发展》 EI CSCD 北大核心 2024年第11期3846-3869,共24页
神经渲染是一种基于深度学习的新兴图像和视频生成方法,它将深度学习模型和计算机图形学的物理模型相结合,从而获得可控和逼真的场景表示和渲染,实现对诸如光照、相机参数、姿态等场景属性的控制.一方面,神经渲染既可以充分利用深度学... 神经渲染是一种基于深度学习的新兴图像和视频生成方法,它将深度学习模型和计算机图形学的物理模型相结合,从而获得可控和逼真的场景表示和渲染,实现对诸如光照、相机参数、姿态等场景属性的控制.一方面,神经渲染既可以充分利用深度学习的优势,实现传统前向渲染流程的加速,也可以为影像的逆向渲染和3维场景重建等特定任务提供新的解决方案;另一方面设计适应神经渲染流水线的创新硬件结构,突破现有图形处理器的并行计算和功耗瓶颈,有望为虚拟现实和增强现实、影视创作和数字娱乐、人工智能和元宇宙等未来重点领域提供重要支撑.综述了神经渲染的技术内涵、主要挑战和研究进展,在此基础上分析了神经渲染流水线对硬件加速支持的共性需求和当前主流神经渲染硬件加速结构的特点,进而讨论了神经渲染处理器架构的设计挑战,最后展望了其未来的发展趋势. 展开更多
关键词 神经渲染 硬件加速 神经渲染处理器 多层感知机 光线步进 哈希表
在线阅读 下载PDF
零知识证明硬件加速研究综述
10
作者 谢明东 郝萌 +2 位作者 杨洪伟 何慧 张伟哲 《信息安全研究》 CSCD 北大核心 2024年第7期594-601,共8页
零知识证明(zeroknowledge proofs,ZKP)是一种允许证明者向验证者证明某一陈述正确性而无需泄露任何其他信息的密码学协议.主要介绍了零知识证明的加速研究,尤其关注了基于二次算术程序(QAP quadratic arithmetic program)和内积证明(in... 零知识证明(zeroknowledge proofs,ZKP)是一种允许证明者向验证者证明某一陈述正确性而无需泄露任何其他信息的密码学协议.主要介绍了零知识证明的加速研究,尤其关注了基于二次算术程序(QAP quadratic arithmetic program)和内积证明(inner product argument,IPA)的ZKP.研究表明,零知识证明的计算效率可以通过硬件加速技术显著提高,包括使用GPU,ASIC,FPGA等.首先介绍了零知识证明的定义与分类及目前零知识证明应用所遇到的困难.其次详细讨论了不同硬件系统的加速方法、实现原理及其相对于传统CPU的性能提升.例如,cuZK和GZKP利用GPU实现了多标量乘法(multiscalar multiplication,MSM)和数论变换(number theoretic transform,NTT),而PipeZK,PipeMSM,BSTMSM则通过ASIC和FPGA加速这些计算过程.此外,也提到了零知识证明在区块链中隐藏交易细节等方面的应用案例,如ZCash的隐秘交易.最后,提出了未来研究的方向,包括加速更多类型的ZKP和将硬件加速应用到实际的应用场景中,以解决效率低下问题,推动零知识证明技术的广泛应用. 展开更多
关键词 零知识证明 硬件加速计算 并行计算 密码学协议 区块链隐私
在线阅读 下载PDF
zk-SNARK中数论变换的硬件加速方法研究 被引量:3
11
作者 赵海旭 柴志雷 +2 位作者 花鹏程 王锋 丁冬 《计算机科学与探索》 CSCD 北大核心 2024年第2期538-552,共15页
简洁非交互式零知识证明能够生成长度固定的证明并快速进行验证,极大地推动了零知识证明在数字签名、区块链及分布式存储等领域的应用。但其证明的生成过程极其耗时且需要被频繁调用,其中数论变换是证明生成过程的主要运算之一。然而现... 简洁非交互式零知识证明能够生成长度固定的证明并快速进行验证,极大地推动了零知识证明在数字签名、区块链及分布式存储等领域的应用。但其证明的生成过程极其耗时且需要被频繁调用,其中数论变换是证明生成过程的主要运算之一。然而现有的通用数论变换硬件加速方法难以满足其在简洁非交互式零知识证明中大规模、高位宽的要求。针对该问题,提出一种数论变换多级流水硬件计算架构。针对高位宽计算需求对高位模运算进行优化,设计了低时延蒙哥马利模乘单元;为了加速大规模计算,通过二维子任务划分将大规模数论变换任务划分为小规模独立子任务,并通过消除数据依赖实现了子任务间计算流水;在子任务多轮蝶形运算之间采用数据重排机制,有效缓解了访存需求并实现了不同步长蝶形运算间的计算流水。所提出的数论变换计算架构可以根据现场可编程门阵列(FPGA)片上资源灵活扩展,方便部署在不同规模的FPGA上以获得最大加速效果。所提出的硬件架构使用高层次综合(HLS)开发并基于OpenCL框架在AMD Xilinx Alveo U50实现了整套异构加速系统。实验结果表明,相比于PipeZK中的数论变换加速模块,该方法获得了1.95倍的加速比;在运行当前主流的简洁非交互式零知识证明开源项目bellman时,相比于AMD Ryzen 95900X单核及12核分别获得了27.98倍和1.74倍的加速比,并分别获得了6.9倍、6倍的能效提升。 展开更多
关键词 现场可编程门阵列(FPGA) 简洁非交互式零知识证明(zk-SNARK) 模乘 数论变换 硬件加速
在线阅读 下载PDF
轻量级卷积神经网络的硬件加速方法
12
作者 吕文浩 支小莉 童维勤 《计算机工程与设计》 北大核心 2024年第3期699-706,共8页
为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单... 为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。 展开更多
关键词 硬件协同优化 现场可编程门阵列 轻量级卷积神经网络 移位量化 并行计算 硬件加速 开放式计算语言
在线阅读 下载PDF
面向深度强化学习自动驾驶决策算法的硬件加速器 被引量:2
13
作者 冉敬楠 倪伟 陈世宇 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2024年第9期1159-1169,共11页
针对自动驾驶决策计算低功耗、低延时、高精度的需求,文章设计一种支持混合精度运算的深度强化学习自动驾驶决策算法的硬件加速器。通过多运算单元重构方式设计乘累加单元(multiply-and-accumulate unit, MAC),支持多种精度模式的计算,... 针对自动驾驶决策计算低功耗、低延时、高精度的需求,文章设计一种支持混合精度运算的深度强化学习自动驾驶决策算法的硬件加速器。通过多运算单元重构方式设计乘累加单元(multiply-and-accumulate unit, MAC),支持多种精度模式的计算,提高加速器的灵活性,降低量化模型的部署成本;通过多层次优化数据流,提高复用程度,优化加速器能耗比。在随机潜在演员评论家(stochastic latent actor-critic, SLAC)自动驾驶决策算法上测试该硬件加速器,结果表明:有效算力达到18.3 GOPS,是CPU的10.7倍,GPU的3.3倍;能效比达到2.197 GOPS/W,是CPU的104倍,GPU的28倍。同时提出一种高位数据编码(most significant bit data coding, MSB-DC)方法实现层内混合精度特征图计算,实验结果表明,该方法能以较少的延迟成本有效降低量化所带来的误差。 展开更多
关键词 深度强化学习 自动驾驶 混合精度 神经网络量化 硬件加速
在线阅读 下载PDF
基于FPGA的卷积神经网络核素识别硬件加速方法研究 被引量:1
14
作者 王博 石睿 +2 位作者 刘敏俊 曾雄 王洲 《核电子学与探测技术》 CAS 北大核心 2024年第2期334-343,共10页
核素识别是核探测领域研究的关键技术之一,传统基于能谱解谱算法的核素识别仪器,实时性差,功耗较高,限制了实际应用中的识别效率,为了加快对放射性核素定性分析,本文提出了一种基于FPGA的卷积神经网络核素识别硬件加速方法。提出了一种... 核素识别是核探测领域研究的关键技术之一,传统基于能谱解谱算法的核素识别仪器,实时性差,功耗较高,限制了实际应用中的识别效率,为了加快对放射性核素定性分析,本文提出了一种基于FPGA的卷积神经网络核素识别硬件加速方法。提出了一种用于核素分类的轻量型一维卷积神经网络模型,再根据模型卷积层、池化层和全连接层的运算特点,利用并行流水线和加法树等硬件加速策略,将模型部署在Xilinx ZYNQ7020异构芯片中。实验结果表明,在FPGA中,测试集平均识别精度达到98.41%,单次识别耗时1.57 ms,与桌面端CPU相比,该硬件加速方法实现了64倍加速效果,功耗仅为2.115 W。在实际测试实验中,^(137)Cs单源识别精度为98%,^(137)Cs与^(60)Co混合源识别精度达到98.17%。该硬件加速方案满足低延时、低功耗等要求,适合于现场快速核素检测的场景,对便携式核素识别仪器开发具有重要的参考价值。 展开更多
关键词 能谱数据 核素识别 FPGA 卷积神经网络 硬件加速
在线阅读 下载PDF
一种面积高效的双态可配置NTT硬件加速器
15
作者 朱敏 肖昊 《信息网络安全》 CSCD 北大核心 2024年第6期959-967,共9页
矩阵向量乘法是基于格的后量子密码(Post-Quantum Cryptography,PQC)方案的主要计算瓶颈。利用数论变换(Number Theoretic Transform,NTT)能将矩阵向量乘法的计算复杂度从O(N^(2))降到O(Nlog_(2)N),从而可以进一步提高后量子密码方案的... 矩阵向量乘法是基于格的后量子密码(Post-Quantum Cryptography,PQC)方案的主要计算瓶颈。利用数论变换(Number Theoretic Transform,NTT)能将矩阵向量乘法的计算复杂度从O(N^(2))降到O(Nlog_(2)N),从而可以进一步提高后量子密码方案的计算速度。文章基于现场可编程门阵列(Field Programmable Gate Array,FPGA)提出了一种面积高效的双态可配置NTT硬件加速器,能高效地执行Kyber和Dilithium算法中的NTT运算。文章所提方案使用的模乘器通过查找表(Look Up Table,LUT)技术压缩数据位宽降低取模成本后,利用KRED算法对结果约简。此外,结合优化后的无冲突NTT数据流,文章所提出的双态可配置NTT加速器可以高效完成计算。文章所提出的NTT硬件加速器在Xilinx Artix-7平台上进行了验证。相较于参考文献方案,文章所提出的双态可配置NTT硬件加速器在保持对Kyber和Dilithium算法通用性的同时,在计算性能和硬件开销等方面表现更好。 展开更多
关键词 后量子密码 快速数论变换 模乘 硬件加速 现场可编程门阵列
在线阅读 下载PDF
基于硬件加速的实时二值图像连通域标记算法 被引量:17
16
作者 赵菲 张路 +1 位作者 张志勇 卢焕章 《电子与信息学报》 EI CSCD 北大核心 2011年第5期1069-1075,共7页
针对光学成像制导武器系统对图像处理的实时性要求,该文提出了一种基于硬件加速的2次扫描连通域标记算法。算法结合基于像素和基于游程扫描算法的优点,以像素为基本的扫描单元,以线段为基本的标号单元,在第1次扫描过程中建立临时标号的... 针对光学成像制导武器系统对图像处理的实时性要求,该文提出了一种基于硬件加速的2次扫描连通域标记算法。算法结合基于像素和基于游程扫描算法的优点,以像素为基本的扫描单元,以线段为基本的标号单元,在第1次扫描过程中建立临时标号的树形拓扑结构,并输出线段作为结果。第2次扫描对线段进行标号替换完成连通域标记。通过在FPGA+DSP平台中进行实验证明,该文算法的硬件加速实现占用资源少,能够达到较高的性能和执行效率,保证了系统的实时性,具有较高的实用价值。 展开更多
关键词 图像处理 连通域 实时性 三层树 硬件加速
在线阅读 下载PDF
一种统一的硬件加速自适应EWA Splatting算法 被引量:6
17
作者 陈为 夏佳志 +3 位作者 张龙 于洋 郑文庭 彭群生 《计算机学报》 EI CSCD 北大核心 2009年第8期1571-1581,共11页
提出了一种新的硬件加速自适应EWA(椭圆加权平均)Splatting算法框架,可同时适用于三维体数据和点模型.算法将高斯重建核与低通图像滤波核结合,得到反走样、无模糊的高质量图像.提出一种高效的自适应滤波方法,减少了高质量EWA Spl... 提出了一种新的硬件加速自适应EWA(椭圆加权平均)Splatting算法框架,可同时适用于三维体数据和点模型.算法将高斯重建核与低通图像滤波核结合,得到反走样、无模糊的高质量图像.提出一种高效的自适应滤波方法,减少了高质量EWA Splatting的计算量.提出了自适应体EWA Splatting的3种数据存储模式和一系列高级特性,其中包括交互式分类、体一面混合绘制策略和自适应浮点累加.展示了如何在可编程图形处理单元(GPU)中计算体数据和点模型数据的EWA Splat基元.实验表明,文中的方法在一台普通微机上每秒可绘制1500万~2000万个基元,达到较高的图像质量与交互的绘制速度. 展开更多
关键词 体绘制 点绘制 SPLATTING EWA滤波 反走样 硬件加速
在线阅读 下载PDF
硬件加速的三维雷达作用范围表现 被引量:11
18
作者 陈鹏 杨超 吴玲达 《国防科技大学学报》 EI CAS CSCD 北大核心 2007年第6期49-53,共5页
未来数字化战场迫切需要表现复杂环境影响下的三维雷达作用范围,目前研究多限于二维,而三维表现又受限于速度,为此提出一种硬件加速的三维表现方法。在构造环境影响下雷达电磁波损失三维数据场的基础上,利用硬件加速的等值面提取算法建... 未来数字化战场迫切需要表现复杂环境影响下的三维雷达作用范围,目前研究多限于二维,而三维表现又受限于速度,为此提出一种硬件加速的三维表现方法。在构造环境影响下雷达电磁波损失三维数据场的基础上,利用硬件加速的等值面提取算法建立雷达作用范围的三维模型,并将其表现到战场环境中。在普通微机上针对典型雷达的实验中,克服了二维表现不直观以及三维表现慢的缺点,形象地展示了地形大气等环境影响下三维作用范围,从而为用户提供决策和感官支持。 展开更多
关键词 雷达作用范围 等值面 硬件加速 可视化
在线阅读 下载PDF
视点相关的层次采样:一种硬件加速体光线投射算法(英文) 被引量:9
19
作者 陈为 彭群生 鲍虎军 《软件学报》 EI CSCD 北大核心 2006年第3期587-601,共15页
光线投射是一种高质量的体绘制方法.它以图像空间为序,逐根光线遍历和采样体数据.因此,传统上,它只能在CPU上实现,因而速度慢,交互性不好.提出了一个新的视点相关的层次采样VDLS(viewdependentlayersampling)结构,VDLS将光线上的所有采... 光线投射是一种高质量的体绘制方法.它以图像空间为序,逐根光线遍历和采样体数据.因此,传统上,它只能在CPU上实现,因而速度慢,交互性不好.提出了一个新的视点相关的层次采样VDLS(viewdependentlayersampling)结构,VDLS将光线上的所有采样点重新组织成一系列层,并简化为两个视点相关的几何缓冲器,进而在GPU(graphicsprocessingunit)中用两个动态纹理表示.利用GPU的可编程性,光线投射算法的6个步骤(光线生成、光线遍历、插值、分类、着色和颜色合成)得以完全在GPU中实现.在此基础上,提出两个基于体空间和图像空间连贯性的加速技巧,快速剔除无效的光线.结合其他与渲染和颜色合成有关的技巧,VDLS将面向多边形绘制的图形引擎转化为体光线投射算法引擎,在透视投影方式下,每秒能处理1.5亿个插值、后分类与着色的光线采样点.实验结果表明,提出的方法能用于医学可视化、真实物理现象模拟、材质检测中灰度体数据快速交互的可视化与漫游. 展开更多
关键词 直接体绘制 光线投射 视点相关层次采样 硬件加速 图形处理单元
在线阅读 下载PDF
抗噪型Sobel边缘检测算法及其硬件加速设计 被引量:8
20
作者 唐永鹤 胡谋法 卢焕章 《计算机工程》 CAS CSCD 北大核心 2011年第24期204-206,共3页
根据序列图像实时边缘检测应用需求,提出一种抗噪型Sobel边缘检测算法,并对其进行硬件加速设计。用分离中值滤波代替二维中值滤波,改进梯度幅值和方向计算优化算法结构。通过采用改进分离中值滤波硬件结构、缓存中间数据以避免重复计算... 根据序列图像实时边缘检测应用需求,提出一种抗噪型Sobel边缘检测算法,并对其进行硬件加速设计。用分离中值滤波代替二维中值滤波,改进梯度幅值和方向计算优化算法结构。通过采用改进分离中值滤波硬件结构、缓存中间数据以避免重复计算、并行计算梯度幅值和方向等措施提高算法实时性,减少硬件资源消耗。ModelSim仿真结果和ISE综合报告显示,该硬件加速设计使得处理速度较快,硬件资源消耗较少,且该算法具有较好的抗噪性和边缘检测特性。 展开更多
关键词 边缘检测 SOBEL算子 分离中值滤波 硬件加速 实时图像处理
在线阅读 下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部