期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
Quantum state estimation based on deep learning
1
作者 Haowen Xiao Zhiguang Han 《Chinese Physics B》 SCIE EI CAS CSCD 2024年第12期187-195,共9页
We used deep learning techniques to construct various models for reconstructing quantum states from a given set of coincidence measurements.Through simulations,we have demonstrated that our approach generates function... We used deep learning techniques to construct various models for reconstructing quantum states from a given set of coincidence measurements.Through simulations,we have demonstrated that our approach generates functionally equivalent reconstructed states for a wide range of pure and mixed input states.Compared with traditional methods,our system offers the advantage of faster speed.Additionally,by training our system with measurement results containing simulated noise sources,the system shows a significant improvement in average fidelity compared with typical reconstruction methods.We also found that constraining the variational manifold to physical states,i.e.,positive semi-definite density matrices,greatly enhances the quality of the reconstructed states in the presence of experimental imperfections and noise.Finally,we validated the correctness and superiority of our model by using data generated on IBM Quantum Platform,a real quantum computer. 展开更多
关键词 deep learning quantum state estimation IBM quantum processor
在线阅读 下载PDF
基于ARM+DLP+SRIO的嵌入式智能计算系统研究 被引量:11
2
作者 赵二虎 吴济文 +2 位作者 查晶晶 郭振 徐勇军 《电子学报》 EI CAS CSCD 北大核心 2021年第3期443-453,共11页
以x86+GPU为代表的当前主流AI计算平台,受限于功耗、体积、带宽、环境适应性等因素,无法适用于物端及边缘智能计算场景.提出并研究了一种基于ARM+DLP+SRIO的嵌入式智能计算系统,从AI算力、能效比、IO带宽三个方面分析了所提嵌入式智能... 以x86+GPU为代表的当前主流AI计算平台,受限于功耗、体积、带宽、环境适应性等因素,无法适用于物端及边缘智能计算场景.提出并研究了一种基于ARM+DLP+SRIO的嵌入式智能计算系统,从AI算力、能效比、IO带宽三个方面分析了所提嵌入式智能计算系统的设计思路和技术优势,并实验验证了该系统的功能及性能指标.实验结果表明:基于ARM+DLP+SRIO的嵌入式智能计算系统AI峰值算力达到114.9TOPS,能效比达到1.03TFLOPS/W,IO带宽达到20Gbps.在智能计算系统领域,其能效比优于国内其它已知同类板卡或系统,嵌入式环境适应能力优于传统台式机和服务器,可作为物端及边缘环境下AI计算任务的通用硬件加速平台. 展开更多
关键词 人工智能 深度学习处理器 嵌入式智能计算系统 串行RAPIDIO 能效比
在线阅读 下载PDF
SMCA:基于芯粒集成的存算一体加速器扩展框架
3
作者 李雯 王颖 +3 位作者 何银涛 邹凯伟 李华伟 李晓维 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第11期4081-4091,共11页
基于可变电阻式随机存取存储器(ReRAM)的存算一体芯片已经成为加速深度学习应用的一种高效解决方案。随着智能化应用的不断发展,规模越来越大的深度学习模型对处理平台的计算和存储资源提出了更高的要求。然而,由于ReRAM器件的非理想性... 基于可变电阻式随机存取存储器(ReRAM)的存算一体芯片已经成为加速深度学习应用的一种高效解决方案。随着智能化应用的不断发展,规模越来越大的深度学习模型对处理平台的计算和存储资源提出了更高的要求。然而,由于ReRAM器件的非理想性,基于ReRAM的大规模计算芯片面临着低良率与低可靠性的严峻挑战。多芯粒集成的芯片架构通过将多个小芯粒封装到单个芯片中,提高了芯片良率、降低了芯片制造成本,已经成为芯片设计的主要发展趋势。然而,相比于单片式芯片数据的片上传输,芯粒间的昂贵通信成为多芯粒集成芯片的性能瓶颈,限制了集成芯片的算力扩展。因此,该文提出一种基于芯粒集成的存算一体加速器扩展框架—SMCA。该框架通过对深度学习计算任务的自适应划分和基于可满足性模理论(SMT)的自动化任务部署,在芯粒集成的深度学习加速器上生成高能效、低传输开销的工作负载调度方案,实现系统性能与能效的有效提升。实验结果表明,与现有策略相比,SMCA为深度学习任务在集成芯片上自动生成的调度优化方案可以降低35%的芯粒间通信能耗。 展开更多
关键词 芯粒 深度学习处理器 存算一体 任务调度
在线阅读 下载PDF
嵌入式异构智能计算系统并行多流水线设计
4
作者 赵二虎 吴济文 +2 位作者 肖思莹 晋振杰 徐勇军 《电子学报》 EI CAS CSCD 北大核心 2023年第11期3354-3364,共11页
嵌入式智能计算系统因其功耗受限和多传感器实时智能处理需要,对硬件平台的智能算力能效比和智能计算业务并行度提出了严峻挑战.传统嵌入式计算系统常采用的DSP+FPGA数字信号处理架构,无法适用于多个神经网络模型加速场景.本文基于ARM+D... 嵌入式智能计算系统因其功耗受限和多传感器实时智能处理需要,对硬件平台的智能算力能效比和智能计算业务并行度提出了严峻挑战.传统嵌入式计算系统常采用的DSP+FPGA数字信号处理架构,无法适用于多个神经网络模型加速场景.本文基于ARM+DLP+SRIO嵌入式异构智能计算架构,利用智能处理器多片多核多内存通道特性,提出了并行多流水线设计方法.该方法充分考虑智能计算业务中数据传输、拷贝、推理、结果反馈等环节时间开销,为不同的神经网络模型合理分配智能算力资源,以达到最大的端到端智能计算业务吞吐率.实验结果表明,采用并行多流水线设计方法的深度学习处理器利用率较单流水线平均提高约25.2%,较无流水线平均提高约30.7%,满足可见光、红外、SAR等多模图像实时智能处理需求,具有实际应用价值. 展开更多
关键词 嵌入式智能计算系统 异构计算架构 神经网络模型 并行多流水线 深度学习处理器
在线阅读 下载PDF
半导体智能视觉系统芯片
5
作者 吴南健 《中兴通讯技术》 2020年第2期38-42,共5页
介绍半导体智能视觉系统芯片的研究背景、基本概念、体系架构的演变、设计案例及今后的发展方向。认为半导体智能视觉系统芯片是一种支持图像获取、计算视觉和深度学习融合处理的典型边缘计算型视觉系统芯片,具备实现或超越人类视觉系... 介绍半导体智能视觉系统芯片的研究背景、基本概念、体系架构的演变、设计案例及今后的发展方向。认为半导体智能视觉系统芯片是一种支持图像获取、计算视觉和深度学习融合处理的典型边缘计算型视觉系统芯片,具备实现或超越人类视觉系统的功能及其性能的潜力,在高速运动目标的实时追踪、图像识别、智能交通、虚拟现实、机器人、生产线自动产品质量检测及各类智能化玩具等领域具有广泛的应用前景。 展开更多
关键词 智能 视觉系统芯片 图像传感 视觉处理器 计算视觉 深度学习
在线阅读 下载PDF
面向图像识别的深度学习VLIW处理器设计 被引量:2
6
作者 李林 张盛兵 吴鹃 《西北工业大学学报》 EI CAS CSCD 北大核心 2020年第1期216-224,共9页
为了适应航空航天领域高分辨率图像识别和本地化高效处理的需求,解决现有研究中计算并行性不足的问题,在对深度卷积神经网络模型各层计算优化的基础上,设计了一款可扩展的多处理器簇的深度学习超长指令字(VLIW)处理器体系结构。设计中... 为了适应航空航天领域高分辨率图像识别和本地化高效处理的需求,解决现有研究中计算并行性不足的问题,在对深度卷积神经网络模型各层计算优化的基础上,设计了一款可扩展的多处理器簇的深度学习超长指令字(VLIW)处理器体系结构。设计中采用了特征图和神经元的并行处理,基于VLIW的指令级并行,多处理器簇的数据级并行以及流水线技术。FPGA原型系统测试结果表明,该处理器可有效完成图像分类和目标检测应用;当工作频率为200 MHz时,处理器的峰值性能可以达到128 GOP/s;针对选取的测试基准,该处理器的计算速度至少是CPU的12倍,是GPU的7倍;对比软件框架运行结果,处理器的测试精度的平均误差不超过1%。 展开更多
关键词 图像识别 深度学习 卷积神经网络 超长指令字(VLIW) 处理器 可扩展
在线阅读 下载PDF
基于DPU的低功耗嵌入式手势识别系统设计 被引量:2
7
作者 黎海涛 刘鸣 张帅 《北京信息科技大学学报(自然科学版)》 2021年第3期1-7,共7页
为了解决嵌入式手势识别系统的速度慢和功耗高的问题,提出基于深度学习处理单元(deep-learning processor unit,DPU)的手势识别系统设计方法。通过把DPU部署于现场可编程门阵列(field programmable gate array,FPGA)器件,再调用ResNet-5... 为了解决嵌入式手势识别系统的速度慢和功耗高的问题,提出基于深度学习处理单元(deep-learning processor unit,DPU)的手势识别系统设计方法。通过把DPU部署于现场可编程门阵列(field programmable gate array,FPGA)器件,再调用ResNet-50网络对手势图片进行识别,设计并实现了一套低功耗的手势识别系统。实验结果表明,系统在工作频率为150 MHz时识别准确率为97.7%,运行速率可以达到129 GOPS,其能效比为26.3 GOPS/W,优于一些现有嵌入式FPGA神经网络手势识别实现方法。 展开更多
关键词 深度学习处理单元 手势识别 神经网络 现场可编程门阵列
在线阅读 下载PDF
基于视觉处理器芯片的遥感图像智能处理系统设计与验证
8
作者 于双铭 武文波 +3 位作者 窦润江 刘力源 刘剑 吴南健 《航天返回与遥感》 CSCD 北大核心 2023年第5期54-64,共11页
随着遥感卫星成像技术向高分辨率、高帧率的方向快速发展,星上遥感图像处理技术面临海量数据处理速度慢、有效信息提取能力不足、载荷功耗高等瓶颈问题。文章提出一种面向星上处理的遥感图像智能处理系统,系统架构设计基于一款边缘型视... 随着遥感卫星成像技术向高分辨率、高帧率的方向快速发展,星上遥感图像处理技术面临海量数据处理速度慢、有效信息提取能力不足、载荷功耗高等瓶颈问题。文章提出一种面向星上处理的遥感图像智能处理系统,系统架构设计基于一款边缘型视觉处理器芯片,该芯片为可重构并行处理器架构,可通过指令编程兼容支持图像预处理算法、计算机视觉算法和深度学习神经网络算法。基于算法-硬件协同设计思想,对图像处理算法进行了剪枝和量化等压缩优化,在芯片上实现算法的高效部署。搭建基于视觉处理器芯片的遥感图像智能处理系统,进行实验验证。结果表明,该系统能够完成对遥感图像的实时目标检测等智能化处理,系统处理能力达到200 M像素/s,芯片峰值计算能效达到2×1012次/W(300 MHz时)。 展开更多
关键词 遥感图像 图像处理 视觉处理器 深度学习神经网络
在线阅读 下载PDF
一种运算和数据协同优化的深度学习编译框架 被引量:4
9
作者 吴林阳 杜伟健 +1 位作者 陈小兵 庄毅敏 《高技术通讯》 EI CAS 北大核心 2020年第2期120-125,共6页
近年来,深度学习算法和深度学习处理器已被广泛应用于工业界,如何从软件层面充分挖掘深度学习处理器的性能成为目前编译器领域研究的热点和难点。现有的深度学习编译框架更侧重于对程序的运算部分进行优化,对数据的优化非常有限,这并不... 近年来,深度学习算法和深度学习处理器已被广泛应用于工业界,如何从软件层面充分挖掘深度学习处理器的性能成为目前编译器领域研究的热点和难点。现有的深度学习编译框架更侧重于对程序的运算部分进行优化,对数据的优化非常有限,这并不能发挥深度学习处理器的峰值性能。本文分析了深度学习算法和硬件平台的特点,提出一种运算和数据协同优化的深度学习编译框架CDUCA,它包含计算图引擎、代码生成器、数据优化器3个不同层次的组件,在多个层次对运算和数据进行协同优化,最终生成高效的可部署模型。本文在现场可编程门阵列(FPGA)平台上评估了CDUCA,实验结果表明,对于典型的深度学习应用,CDUCA生成的模型性能能达到手工优化模型性能的86.5%。 展开更多
关键词 深度学习 深度学习处理器 编译器 编译优化
在线阅读 下载PDF
一种类CPU的深度学习协处理器架构 被引量:2
10
作者 丁然 林建文 +1 位作者 朱振华 刘弋波 《中国集成电路》 2020年第7期41-52,共12页
深度学习是当前人工智能领域的关键技术之一,它在图像识别、语音识别、自然语言处理等领域均取得了突破性的成绩,大大推进了人工智能的发展。然而,随着深度学习的发展,它的核心问题也愈显突出,如高计算量、高数据带宽、应用碎片化等,这... 深度学习是当前人工智能领域的关键技术之一,它在图像识别、语音识别、自然语言处理等领域均取得了突破性的成绩,大大推进了人工智能的发展。然而,随着深度学习的发展,它的核心问题也愈显突出,如高计算量、高数据带宽、应用碎片化等,这些问题成为近年来制约相关技术发展的关键因素。本文融合了CPU和专用处理器各自的优势,提出了一种类CPU的深度学习协处理器架构,该架构具有可灵活编程、高计算密度等的特点,同时,由于该处理器还采用了存算紧耦的计算架构,因此能有效重复利用权重等数据,降低了对带宽的需求。本文从硬件架构、软件架构、软件编程模型、软件运行模型等多个角度介绍类CPU的深度学习协处理器架构,同时基于该架构的处理器芯片也已经在28nm下流片成功,进一步验证了该架构的可行性。 展开更多
关键词 深度学习 处理器 存算紧耦
在线阅读 下载PDF
基于Vitis-AI架构的语义分割ENET模型实现 被引量:2
11
作者 胡凯 刘彤 +1 位作者 武亚恒 谢达 《电子与封装》 2022年第3期74-78,共5页
随着人工智能(Artificial Intelligence,AI)在自动驾驶和可穿戴等复杂环境中得到广泛应用,一种高效率的语义分割模型成为神经网络模型重要的解决对象。以传统ENET网络模型为基础,提出改进ENET网络,可利用深度学习处理单元(DPU)内部的EeL... 随着人工智能(Artificial Intelligence,AI)在自动驾驶和可穿戴等复杂环境中得到广泛应用,一种高效率的语义分割模型成为神经网络模型重要的解决对象。以传统ENET网络模型为基础,提出改进ENET网络,可利用深度学习处理单元(DPU)内部的EeLU激活函数硬件模式减少参数以改进ENET网络,提高DPU的工作性能。通过搭建语义分割的Vitis-AI架构平台,完成构建量化模型和模型网络的训练学习。对比分析多种语义分割试验结果,改进ENET网络,使用更少计算资源达到最优精度,在ZCU106的硬件平台上进行部署,对改进ENET网络的性能进行分析,结果表明试验结果和仿真结果一致。 展开更多
关键词 深度学习处理单元 ENET网络 语义分割
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部