期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
基于通用图形处理器的神经网络并行推理加速
1
作者 王重熙 章隆兵 《高技术通讯》 北大核心 2025年第3期250-261,共12页
通用图形处理器(general purpose graphics processing unit,GPGPU)是目前加速人工智能(artificial intelligence,AI)负载最主要的算力来源,其内存带宽和峰值算力随着AI模型的发展而迅速提高。然而,在神经网络的推理过程中,单样本或小... 通用图形处理器(general purpose graphics processing unit,GPGPU)是目前加速人工智能(artificial intelligence,AI)负载最主要的算力来源,其内存带宽和峰值算力随着AI模型的发展而迅速提高。然而,在神经网络的推理过程中,单样本或小批量的推理难以同时充分利用通用图形处理器中不同的计算、存储和访存资源,造成部分资源闲置。对此,本文提出了基于通用图形处理器的神经网络并行推理加速方法,在通用图形处理器上同时推理多个神经网络,通过同时执行互补的神经网络层充分利用通用图形处理器中的各类资源。首先,使用PyTorch中的统一计算设备架构(compute unified device architecture,CUDA)流以及直接在CUDA流中调用CUDA基础线性代数子程序库(CUDA basic linear algebra subprograms,cuBLAS)和CUDA深度神经网络库(CUDA deep neural network library,cuDNN)2种方式,在它们并行加速效果不及预期的情况下,根据性能分析结果确定了NVIDIA通用图形处理器负载调度机制中对多负载并行的限制因素。随后,基于特定的调度机制,提出了更适合多负载并行核函数的设计方法,并实现了主要的神经网络算子,基于此方法在真实的通用图形处理器平台上实现了神经网络并行推理加速。在RTX3080通用图形处理器上的测试结果表明,该神经网络并行推理加速方法对主流神经网络的并行推理达到了平均1.94倍的加速效果,相较于直接调用cuBLAS和cuDNN库平均1.34倍的加速效果提高了45%,不仅验证了在通用图形处理器上实现神经网络并行推理加速的可行性,同时也为其他各类负载在通用图形处理器上的多负载并行加速提供了道路。 展开更多
关键词 多负载并行加速 神经网络推理 通用图形处理器
在线阅读 下载PDF
基于无裁剪图形流水线的三维图形处理器 被引量:1
2
作者 赵皓宇 王重熙 +1 位作者 宋鹏皓 章隆兵 《高技术通讯》 CAS 北大核心 2024年第7期681-691,共11页
传统的三维图形处理器通过裁剪操作获取三角形的可见区域。然而,裁剪操作的延迟长且硬件开销高,大量的裁剪操作会降低图形处理器的性能。本文设计了一款基于OpenGL ES 2.0标准的三维图形处理器芯片,采用了统一渲染架构。该图形处理器采... 传统的三维图形处理器通过裁剪操作获取三角形的可见区域。然而,裁剪操作的延迟长且硬件开销高,大量的裁剪操作会降低图形处理器的性能。本文设计了一款基于OpenGL ES 2.0标准的三维图形处理器芯片,采用了统一渲染架构。该图形处理器采用高效的无裁剪图形流水线结构,消除了裁剪所带来的硬件开销和性能损耗。此外,本文为该图形处理器设计了一个符合IEEE-754标准的三维向量内积(DP3)计算单元,用于固定功能流水线,以提高图形处理器的性能,并消除图形渲染过程中浮点乘加操作的误差,增强了图形处理器的图形渲染鲁棒性。该三维图形处理器每秒能够处理500 M个顶点和8 G个纹素,功耗为1000 mW,采用了28 nm工艺,面积为7.92 mm^(2)。实现结果表明,与之前的工作相比,本文设计的图形处理器的性能-功耗比提高了27.8%。 展开更多
关键词 三维图形处理器 图形流水线 裁剪 向量内积
在线阅读 下载PDF
面向通用处理器芯粒架构探索和评估的系统级模拟器
3
作者 张聪武 刘澳 +2 位作者 张科 常轶松 包云岗 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第12期4575-4588,共14页
随着摩尔定律的逐步失效,芯片制造工艺的提升愈发困难,芯片性能的提升面临“面积墙”问题,chiplet(芯粒)技术开始被广泛采用来解决此问题。然而,面向chiplet引入的架构设计参数,目前的体系结构模拟器面临新的挑战。为了能够探索chiplet... 随着摩尔定律的逐步失效,芯片制造工艺的提升愈发困难,芯片性能的提升面临“面积墙”问题,chiplet(芯粒)技术开始被广泛采用来解决此问题。然而,面向chiplet引入的架构设计参数,目前的体系结构模拟器面临新的挑战。为了能够探索chiplet架构的特定设计参数,现有工作通常只会为模拟器增加单一的功能,导致其难以用于探索多个参数对chiplet芯片的整体影响。为了能够较为全面地探索和评估chiplet芯片架构,该文基于现有gem5模拟器实现了面向通用处理器芯粒架构探索和评估的系统级模拟器(SEEChiplet)模拟器框架。首先,总结了现在chiplet芯片设计关注的3类设计参数,包括:(1)芯片cache系统设计;(2)封装方式模拟;(3) chiplet间的互连网络。其次,针对上述3类参数:(1)设计并实现了私有末级缓存系统,扩大了cache系统设计空间;(2)修改了gem5已有的全局目录,以适配私有末级缓存(LLC)系统;(3)建模了两种常见的chiplet封装方式以及chiplet间互连网络。最后,该文在SEEChiplet框架中进行了系统级的模拟评估,在被测chiplet架构通用处理器上运行操作系统及PARSEC 3.0基准测试程序,验证了SEEChiplet的功能,证明SEEChiplet可以对chiplet设计空间进行探索和评估。 展开更多
关键词 芯粒 设计空间探索 体系结构模拟器 缓存系统
在线阅读 下载PDF
处理器时间侧信道攻防技术综述
4
作者 唐博文 武成岗 王喆 《高技术通讯》 CAS 北大核心 2024年第5期439-452,共14页
现代处理器优化机制众多,设计人员在追求性能提升时,往往忽略背后的安全风险。时间侧信道攻击因其影响面广且隐蔽性好已成为最主要的安全威胁之一。随着瞬态执行攻击的出现,时间侧信道攻击的能力被进一步扩展,计算系统的安全基础被动摇... 现代处理器优化机制众多,设计人员在追求性能提升时,往往忽略背后的安全风险。时间侧信道攻击因其影响面广且隐蔽性好已成为最主要的安全威胁之一。随着瞬态执行攻击的出现,时间侧信道攻击的能力被进一步扩展,计算系统的安全基础被动摇。为此,处理器厂商及安全人员提出了大量防御机制。这些机制具有不同的防护能力及性能开销。与此同时,新的瞬态执行漏洞和隐蔽信道也不断被发现,已提出的防御机制被不断突破。围绕处理器时间侧信道攻防技术的博弈日益激烈。本文从基本攻击原理出发,对现有时间侧信道攻击进行了归纳总结,并在此基础上进一步分析了相关防御机制的保护能力和性能瓶颈,从而梳理出时间侧信道攻防技术的发展趋势,为未来软硬件系统开发和安全技术探索提供参考。 展开更多
关键词 处理器微架构 时间侧信道攻击 隐蔽信道 瞬态执行攻击 投机执行 防御技术
在线阅读 下载PDF
紧耦合异构线程处理器
5
作者 李文青 齐寒 +2 位作者 肖子原 朱威浦 王剑 《高技术通讯》 CAS 2023年第2期113-123,共11页
异构计算为系统达到更高的性能功耗比提供了新的思路和方向,但异构系统中中央处理器(CPU)和加速器协同执行任务的过程中大量的控制信号传输和数据搬运始终是系统性能的一个重要瓶颈。对此,本文提出了一种紧耦合异构线程处理器结构,包括... 异构计算为系统达到更高的性能功耗比提供了新的思路和方向,但异构系统中中央处理器(CPU)和加速器协同执行任务的过程中大量的控制信号传输和数据搬运始终是系统性能的一个重要瓶颈。对此,本文提出了一种紧耦合异构线程处理器结构,包括一个硬件CPU线程和一个硬件加速器线程,二者采用流水线紧耦合的硬件线程间通信接口和共享存储的方式降低了通信代价,大幅提高了系统性能。为验证该结构的优势,本文在开源BOOM核的基础上设计了硬件线程间通信接口,实现了一个具有高级加密标淮(AES)加速器的紧耦合异构线程处理器,并在现场可编程门阵列(FPGA)上进行了评估。结果显示,在加密任务中,该处理器吞吐量约是Intel Comet Lake使用AES指令集(AES-NI)的5.7倍,是BOOM平台上仅使用通用指令的4000倍。实验进一步验证了通过CPU和加速器快速通信实现的细粒度并行可以取得更多的性能收益。由此得出结论:该结构能敏捷地将加速器整合到CPU周围,有效降低了通信时间,实现CPU线程和加速器线程的细粒度并行,有效地发挥出异构计算的优势,取得可观的性能收益。 展开更多
关键词 异构计算 异构接口 紧耦合 通信 细粒度并行
在线阅读 下载PDF
基于位串行计算的动态精度神经网络处理器
6
作者 郝一帆 支天 杜子东 《高技术通讯》 CAS 2022年第9期881-893,共13页
针对当前神经网络动态精度计算系统在周期性的模型重训练和动态精度切换的过程中会引入大量的计算和访存开销问题,提出了基于串行位计算的动态精度神经网络处理器(DPNN),其可支持任意规模、任意精度的神经网络模型;支持以非重训练的方... 针对当前神经网络动态精度计算系统在周期性的模型重训练和动态精度切换的过程中会引入大量的计算和访存开销问题,提出了基于串行位计算的动态精度神经网络处理器(DPNN),其可支持任意规模、任意精度的神经网络模型;支持以非重训练的方式对模型数据精度进行细粒度调整,并消除了动态精度切换时因权值bit位重叠造成的重复计算与访存。实验结果表明,相较于自感知神经网络系统(SaNNs)的最新进展之一MinMaxNN,DPNN可使计算量平均降低1.34~2.52倍,访存量降低1.16~1.93倍;相较于代表性的bit串行计算神经网络处理器Stripes,DPNN使性能提升2.57倍、功耗节省2.87倍、面积减少1.95倍。 展开更多
关键词 神经网络处理器 动态精度计算 位串行计算
在线阅读 下载PDF
基于数据压缩和异步通信策略的分布式图算法优化研究
7
作者 梁彦 聂娜 +3 位作者 曹华伟 马丽娜 叶笑春 范东睿 《高技术通讯》 北大核心 2025年第2期145-156,共12页
图是一种非常重要的数据结构形式,被广泛用于社交网络、交通网络和搜索引擎等领域。随着图数据规模爆发式增长,存储容量受限,分布式图计算成为处理大规模图数据的焦点。宽度优先搜索(breadth first search,BFS)算法是图遍历和许多图分... 图是一种非常重要的数据结构形式,被广泛用于社交网络、交通网络和搜索引擎等领域。随着图数据规模爆发式增长,存储容量受限,分布式图计算成为处理大规模图数据的焦点。宽度优先搜索(breadth first search,BFS)算法是图遍历和许多图分析算法的基础,而在分布式图计算过程中存在严重的通信开销。针对上述问题,本文提出了一种综合的数据压缩编码优化方案,结合位图和变长压缩数组,通过更高的压缩率来降低数据通信开销;此外,还提出了一种点对点异步环形通信策略,进一步降低分布式图计算中计算-通信的同步开销。通过这些优化手段,本文在8节点的分布式集群上对优化后BFS算法的性能进行了系统评估,结果表明,当图数据规模为28时,优化后的BFS算法平均性能为46.79亿条边每秒遍历(giga-traversed edges per second,GTEPS),性能比优化前提升了接近7.82%。 展开更多
关键词 宽度优先搜索 图数据划分 压缩编码 异步环形通信 并行优化
在线阅读 下载PDF
Web应用访问控制漏洞检测研究进展
8
作者 孟海宁 陆杰 +3 位作者 李昊峰 黄永恒 曹立庆 李炼 《高技术通讯》 北大核心 2025年第3期227-240,共14页
访问控制机制在维护Web应用安全方面扮演着至关重要的角色。然而,不安全的访问控制机制已经成为威胁Web应用安全的主要风险来源之一。为了保护Web应用安全,及早地检测并报告访问控制漏洞至关重要。为了帮助安全研究者和程序开发者更深... 访问控制机制在维护Web应用安全方面扮演着至关重要的角色。然而,不安全的访问控制机制已经成为威胁Web应用安全的主要风险来源之一。为了保护Web应用安全,及早地检测并报告访问控制漏洞至关重要。为了帮助安全研究者和程序开发者更深入地了解Web应用的访问控制漏洞以及现有工作的研究进展,本文对该领域的相关工作进行了系统总结,概括了访问控制漏洞的基本概念与特征,归纳了检测访问控制漏洞的关键步骤和核心思想。此外,本文进一步针对功能级、对象级和对象属性级3类高危访问控制漏洞,详细分析和讨论了现有工作的漏洞检测能力。最后,对Web应用访问控制漏洞检测技术的发展进行了总结与展望。 展开更多
关键词 WEB应用 访问控制 访问控制漏洞 漏洞检测 越权访问 软件缺陷检测
在线阅读 下载PDF
NUMA感知的云平台负载调度系统
9
作者 娄杰 段宏键 +1 位作者 曹华伟 叶笑春 《高技术通讯》 北大核心 2025年第1期20-36,共17页
随着互联网的高速发展,云计算逐渐走向了云原生时代。在云原生领域中,对容器进行调度与编排的标准系统是Kubernetes。Kubernetes有着开源、可扩展、部署难度低等诸多优点,然而,随着容器化应用的多样化和底层资源的多元化,Kubernetes在... 随着互联网的高速发展,云计算逐渐走向了云原生时代。在云原生领域中,对容器进行调度与编排的标准系统是Kubernetes。Kubernetes有着开源、可扩展、部署难度低等诸多优点,然而,随着容器化应用的多样化和底层资源的多元化,Kubernetes在以非统一存储访问(non-uniform memory access,NUMA)资源为代表的细粒度资源调度方面仍然存在不足,集群中计算资源利用率低、使用不均衡、系统关键资源争用等情况常常发生。本文以Kubernetes系统为基础,探究以NUMA为代表的细粒度资源的优化调度机制,具体研究点如下:(1)建立缓存管理器,对集群中基于容器的典型应用进行性能的建模与特征分析;(2)设计NUMA管理器,实现细粒度资源划分;(3)优化面向细粒度资源调度的算法,细粒度分配NUMA资源。通过NUMA感知的调度优化,本文所提方案提高了系统的关键资源利用率,提升了应用的运行速度,减少了集群中资源的争用以及资源使用上不均衡的现象。 展开更多
关键词 云计算 容器云平台 负载调度 非统一存储访问 资源划分
在线阅读 下载PDF
Lite-IJformer:面向长序列Transformer的轻量化方法
10
作者 连家诚 郝一帆 +2 位作者 张曦珊 支天 孙广中 《高技术通讯》 北大核心 2025年第2期167-174,共8页
针对面向长序列的Transformer计算复杂度高的问题,本文提出了一种Trans-former轻量化方法Lite-IJformer。其核心思路分为2步:(1)对自注意力(self-attention)进行线性化,将Transformer的计算复杂度从输入序列的平方降至线性;(2)基于低秩... 针对面向长序列的Transformer计算复杂度高的问题,本文提出了一种Trans-former轻量化方法Lite-IJformer。其核心思路分为2步:(1)对自注意力(self-attention)进行线性化,将Transformer的计算复杂度从输入序列的平方降至线性;(2)基于低秩矩阵分解理论对KV矩阵乘法进行降维,进一步减少计算规模。在长序列竞技基准测试上的实验表明,当输入长度为1000~2000时,线性化可以将self-attention计算量降低13~26倍,将Transformer的推理速度提升4.75~5.72倍而无精度损失;在经过降维后,self-attention的计算量进一步减少了17.0%,模型推理速度提升了1.17倍,精度损失在0.5%以内。 展开更多
关键词 TRANSFORMER 自注意力 线性化方法 降维
在线阅读 下载PDF
基于用户级兼容技术的高效打印机驱动迁移方法
11
作者 谢本壹 张福新 《高技术通讯》 北大核心 2025年第2期124-133,共10页
打印机驱动匮乏长期困扰着全球Linux桌面用户。在办公环境中存在大量老旧打印机,这些打印机通常只支持X86 Windows的打印机驱动。然而,国产计算机平台普遍使用Linux操作系统,且存在多种非X86指令集。在信息技术应用创新的背景下,迫切需... 打印机驱动匮乏长期困扰着全球Linux桌面用户。在办公环境中存在大量老旧打印机,这些打印机通常只支持X86 Windows的打印机驱动。然而,国产计算机平台普遍使用Linux操作系统,且存在多种非X86指令集。在信息技术应用创新的背景下,迫切需要解决在国产计算机平台上复用这些老旧打印机的问题。现有方法采用系统级二进制翻译运行Windows操作系统进行打印,存在效率低下且需额外授权的不足。为此,本文提出了一种基于用户级兼容技术的打印机驱动迁移方法,高效地将X86 Windows打印机驱动迁移至国产计算机平台。该方法由操作系统兼容层和用户级二进制翻译两部分组成。操作系统兼容层负责将打印机驱动相关的系统库调用转换成宿主操作系统的调用,用户级二进制翻译负责将X86指令翻译成宿主中央处理器(central processing unit,CPU)的指令。由于无需运行Windows操作系统,本文提出的迁移方法相较于系统级二进制翻译的方法更为高效且无额外授权成本。实验结果表明,采用本方法打印相同内容比系统级二进制翻译方法快10倍左右。该方法已成功应用于搭载了龙芯CPU的国产计算机平台,其可行性和稳定性已得到市场的检验。 展开更多
关键词 打印机驱动 二进制翻译 操作系统兼容
在线阅读 下载PDF
片间互连总线协议层关键技术研究
12
作者 邢世远 张见齐 +2 位作者 王焕东 吴学智 吴瑞阳 《高技术通讯》 北大核心 2025年第2期113-123,共11页
随着以数据分析、网络搜索和虚拟现实为核心的新数据中心和高性能计算应用程序的开发,高性能计算平台上需要传输的数据量不断增加,数据密集型应用对片间数据传输带宽需求的增长从未停止,片间互连总线被视为系统瓶颈的潜在来源。相比于... 随着以数据分析、网络搜索和虚拟现实为核心的新数据中心和高性能计算应用程序的开发,高性能计算平台上需要传输的数据量不断增加,数据密集型应用对片间数据传输带宽需求的增长从未停止,片间互连总线被视为系统瓶颈的潜在来源。相比于在物理层提高总线传输速率和增加信号数量提升带宽的传统做法,在总线协议层通过结构设计优化提高带宽利用率也是提升总带宽的重要解决思路。相比前者,后者不会引入额外成本开销,并且具有能耗友好的优势。本文在协议层提出了3个关键技术,分别是数据命令分离的片内语义到跨片语义转换方案、基于年龄(Age)策略的仲裁算法和片间数据压缩技术。数据命令分离的语义策略具有很强的跨架构通用性,是仲裁和压缩的前提。片间总线协议层仲裁和压缩技术通过结构的方法大幅提高了总线带宽利用率。在Synopsys Zebu仿真加速平台上的实验结果表明,本文方法的总线架构在关闭和开启数据压缩情形下带宽利用率分别为45.8%和69.7%,达到国际先进水平。 展开更多
关键词 片间互连 总线协议层 语义转换 仲裁 数据压缩 仿真加速器
在线阅读 下载PDF
基于数据面加速器的工业5G协议处理架构研究 被引量:1
13
作者 杨喜宁 周一青 陈洋 《高技术通讯》 CAS 2023年第10期1038-1046,共9页
伴随5G标准的不断演进和商用网络的规模部署,5G已成为引领我国智能制造高质量发展的新引擎。与此同时,以高带宽、高频次小包通信为特征的工业应用也对5G终端基带芯片协议处理提出了挑战。本文提出一种以数据面加速器(DPA)为核心的高性... 伴随5G标准的不断演进和商用网络的规模部署,5G已成为引领我国智能制造高质量发展的新引擎。与此同时,以高带宽、高频次小包通信为特征的工业应用也对5G终端基带芯片协议处理提出了挑战。本文提出一种以数据面加速器(DPA)为核心的高性能软硬件协同5G协议处理架构,该架构将异构芯片计算资源与协议处理功能进行了合理映射,并通过并行化设计大幅提升5G用户面数据处理性能。实验结果表明,相比纯软件的实现方案本文提出的协同架构在不同业务负载条件下,数据包处理时延平均下降28.3%,包处理通量平均提升38%。在0.5 ms的时隙周期配置下,本文架构的数据包处理速率大于2000包/s,可以满足工业5G大规模现场节点集中式数据采集的需求。 展开更多
关键词 工业5G 软硬协同 协议处理 加速器
在线阅读 下载PDF
基于感通算融合和信息年龄优化的车联网多节点协同感知 被引量:1
14
作者 周一青 张浩岳 +3 位作者 齐彦丽 蔡青 刘玲 王江舟 《通信学报》 EI CSCD 北大核心 2024年第3期1-16,共16页
面向未来自动驾驶系统中的实时性业务需求(如高清地图更新),基于感知-通信-计算融合,引入信息年龄作为实时性度量,设计感通算融合的车联网多节点协同感知机制。在通信-计算资源和车辆能耗约束下,优化调度感知节点信息采集和传输处理,最... 面向未来自动驾驶系统中的实时性业务需求(如高清地图更新),基于感知-通信-计算融合,引入信息年龄作为实时性度量,设计感通算融合的车联网多节点协同感知机制。在通信-计算资源和车辆能耗约束下,优化调度感知节点信息采集和传输处理,最小化感知信息的平均信息年龄;提出基于李雅普诺夫的在线调度算法,将复杂的长期随机优化问题转化为单时隙在线优化问题,并设计低复杂度算法求解。仿真表明,与现有仅考虑通信与计算融合的机制相比,所提机制信息实时性可提高9%~50%。 展开更多
关键词 自动驾驶 感知信息实时性 感知-通信-计算融合 信息年龄 李雅普诺夫随机优化
在线阅读 下载PDF
深度学习程序内存预测方法
15
作者 刘晨 陆杰 李炼 《高技术通讯》 CAS 北大核心 2024年第10期1036-1045,共10页
深度学习程序在广泛领域取得了巨大成功,然而其内部错误可能导致严重的资源浪费,甚至引发灾难性故障。本文分析了导致程序在实际运行中出现任务执行失败的典型缺陷及其关键影响因素,提出基于静态分析与自注意力机制网络的深度学习程序... 深度学习程序在广泛领域取得了巨大成功,然而其内部错误可能导致严重的资源浪费,甚至引发灾难性故障。本文分析了导致程序在实际运行中出现任务执行失败的典型缺陷及其关键影响因素,提出基于静态分析与自注意力机制网络的深度学习程序内存预测方法,在程序内存估计任务上达到平均8.38%的相对预测误差,可以有效预防内存溢出问题、协助合理优化硬件资源配置。 展开更多
关键词 深度学习 静态分析 内存预测
在线阅读 下载PDF
基于MBSE的卫星互联网仿真平台架构建模 被引量:1
16
作者 李红光 刘垚圻 +1 位作者 周一青 石晶林 《电信科学》 北大核心 2024年第9期1-12,共12页
针对传统基于文档的系统工程方法在高复杂度卫星互联网仿真平台开发中存在的系统设计协调性差及早期仿真验证不足等问题,提出采用基于模型的系统工程(model-based systems engineering,MBSE)方法开展卫星互联网仿真平台架构建模。首先,... 针对传统基于文档的系统工程方法在高复杂度卫星互联网仿真平台开发中存在的系统设计协调性差及早期仿真验证不足等问题,提出采用基于模型的系统工程(model-based systems engineering,MBSE)方法开展卫星互联网仿真平台架构建模。首先,提出基于MBSE的双V模型(dual V model based on MBSE,DVMBSE)及与外部软件集成验证架构;然后,基于MBSE方法论对卫星互联网仿真平台顶层架构开展需求分析、功能分解及交互结构建模;最后,通过运行逻辑验证与外部模型集成验证实现了模型的有效性验证,从而支撑卫星互联网设计论证。 展开更多
关键词 卫星互联网 MBSE 仿真建模 仿真平台 集成验证
在线阅读 下载PDF
基于特征校准的双注意力遮挡行人检测器
17
作者 汤书苑 周一青 +2 位作者 李锦涛 刘畅 石晶林 《西安电子科技大学学报》 CSCD 北大核心 2024年第6期25-39,共15页
基于计算机视觉的行人检测技术面临的主要挑战之一是遮挡问题,包括自然环境中物体对行人造成的类间遮挡以及行人与行人之间的类内遮挡。这些交织的遮挡模式限制了行人检测器的性能。为此,在Faster R-CNN标准行人检测框架的基础上,提出... 基于计算机视觉的行人检测技术面临的主要挑战之一是遮挡问题,包括自然环境中物体对行人造成的类间遮挡以及行人与行人之间的类内遮挡。这些交织的遮挡模式限制了行人检测器的性能。为此,在Faster R-CNN标准行人检测框架的基础上,提出了一种基于特征校准的双注意力检测网络。该网络首先通过监督学习生成注意力掩码,用以表征图像中的行人空间特征;然后将掩码与主干特征融合,并结合通道注意力机制,校准行人区域。该方法能够增强行人的可见区域,同时减弱遮挡部分对分类和回归的干扰。此外,提出了一种基于遮挡率的非均匀采样策略,专门针对难例进行采样,帮助网络更有效地学习复杂遮挡模式。实验结果表明,与标准行人检测器相比,所提方法在CityPersons验证集的合理遮挡子集上性能提升了约2.5%。 展开更多
关键词 卷积神经网络 行人检测 双注意力机制 特征校准 难例挖掘 遮挡率
在线阅读 下载PDF
基于紧耦合加速器的高性能Java压缩系统
18
作者 王雪 李文青 +3 位作者 张婷婷 张福新 王剑 敖琪 《高技术通讯》 CAS 北大核心 2024年第4期386-395,共10页
Java无损压缩应用广泛,尽管软件算法在不断改进,但仍然存在压缩速度慢、耗时严重等问题。本文使用领域前沿的紧耦合框架集成压缩加速器的处理器平台,设计了一个高性能Java压缩系统,在Java虚拟机(JVM)内部实现了对紧耦合无损压缩加速器... Java无损压缩应用广泛,尽管软件算法在不断改进,但仍然存在压缩速度慢、耗时严重等问题。本文使用领域前沿的紧耦合框架集成压缩加速器的处理器平台,设计了一个高性能Java压缩系统,在Java虚拟机(JVM)内部实现了对紧耦合无损压缩加速器的封装,并为其提供了轻量级运行时环境。本系统可以有效减少通信开销、避免数据拷贝问题,具有易编程、快速压缩的特点,充分发挥加速器给Java压缩带来的性能优势。实验结果表明,此系统大幅提升了Java压缩性能,压缩速度达到主流Java Gzip软件压缩的63倍,最高可达247倍,且在大数据集下性能提升更显著。 展开更多
关键词 Java压缩 无损压缩 紧耦合加速器 Java虚拟机(JVM)
在线阅读 下载PDF
SMCA:基于芯粒集成的存算一体加速器扩展框架
19
作者 李雯 王颖 +3 位作者 何银涛 邹凯伟 李华伟 李晓维 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第11期4081-4091,共11页
基于可变电阻式随机存取存储器(ReRAM)的存算一体芯片已经成为加速深度学习应用的一种高效解决方案。随着智能化应用的不断发展,规模越来越大的深度学习模型对处理平台的计算和存储资源提出了更高的要求。然而,由于ReRAM器件的非理想性... 基于可变电阻式随机存取存储器(ReRAM)的存算一体芯片已经成为加速深度学习应用的一种高效解决方案。随着智能化应用的不断发展,规模越来越大的深度学习模型对处理平台的计算和存储资源提出了更高的要求。然而,由于ReRAM器件的非理想性,基于ReRAM的大规模计算芯片面临着低良率与低可靠性的严峻挑战。多芯粒集成的芯片架构通过将多个小芯粒封装到单个芯片中,提高了芯片良率、降低了芯片制造成本,已经成为芯片设计的主要发展趋势。然而,相比于单片式芯片数据的片上传输,芯粒间的昂贵通信成为多芯粒集成芯片的性能瓶颈,限制了集成芯片的算力扩展。因此,该文提出一种基于芯粒集成的存算一体加速器扩展框架—SMCA。该框架通过对深度学习计算任务的自适应划分和基于可满足性模理论(SMT)的自动化任务部署,在芯粒集成的深度学习加速器上生成高能效、低传输开销的工作负载调度方案,实现系统性能与能效的有效提升。实验结果表明,与现有策略相比,SMCA为深度学习任务在集成芯片上自动生成的调度优化方案可以降低35%的芯粒间通信能耗。 展开更多
关键词 芯粒 深度学习处理器 存算一体 任务调度
在线阅读 下载PDF
基于真值表的函数自动生成的神经网络模型
20
作者 贺文凯 支天 +4 位作者 胡杏 张曦珊 张蕊 杜子东 郭崎 《高技术通讯》 CAS 北大核心 2024年第3期265-274,共10页
作为目前最常见的程序综合问题,示例编程通过用户提供的输入/输出示例生成程序,为编程能力不足的开发者提供了便利。近年来,示例编程已经被应用于Microsoft Office Excel办公软件的自动编程,以及勘探、测井、航空航天等领域。鉴于目前... 作为目前最常见的程序综合问题,示例编程通过用户提供的输入/输出示例生成程序,为编程能力不足的开发者提供了便利。近年来,示例编程已经被应用于Microsoft Office Excel办公软件的自动编程,以及勘探、测井、航空航天等领域。鉴于目前示例编程鲜有关于二进制流的研究,本文针对基于真值表函数自动生成问题具有函数表达式的语法符号序列中各语法符号的关系与它们的距离大小无关、函数表达式的生成语义规则与布尔向量函数采样的结果长度无关的特点,设计了一种神经网络模型和算法,在程序综合、功能等价和序列匹配的指标上分别取得了70.56%、64.66%、0.6355的结果,分别优于现有最先进的程序综合模型55.07%、49.70%、0.5690。 展开更多
关键词 真值表 神经网络 序列模型 示例编程 程序综合
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部