期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
面向分布式超导量子计算架构的量子线路映射 被引量:1
1
作者 朱鹏程 卫丽华 +3 位作者 冯世光 周祥臻 郑盛根 管致锦 《软件学报》 北大核心 2025年第5期2381-2400,共20页
近年来,超导量子互连技术的研究取得了重要进展,这为构建分布式超导量子计算架构提供了有效途径.分布式超导架构在网络拓扑、量子比特连通性、以及量子态传输协议等方面对量子线路的执行施加了严格约束.为在分布式架构上调度和执行量子... 近年来,超导量子互连技术的研究取得了重要进展,这为构建分布式超导量子计算架构提供了有效途径.分布式超导架构在网络拓扑、量子比特连通性、以及量子态传输协议等方面对量子线路的执行施加了严格约束.为在分布式架构上调度和执行量子线路,需要通过专门的映射工序对量子线路进行适配底层架构的变换,并将变换后的线路交由网络中多个QPU(quantum processing unit)协同运行.分布式量子线路映射需向原始线路插入辅助的量子态移动操作,这些操作(尤其是QPU间量子态移动操作)具有较高的错误率.因此,减少映射所需的量子态移动操作数对于保证分布式计算的成功率至关重要.基于超导量子互连技术和超导QPU的技术特征构建一种抽象的分布式量子计算模型,并基于该抽象模型提出一种分布式量子线路映射方法,该方法由量子比特分布式映射和量子态路由两个核心模块组成,前者以量子态路由开销为代价函数,通过局部寻优和模拟退火相结合的策略生成近最优的初始映射;后者根据量子门执行的不同情形构建多个启发式量子态路由策略,并通过灵活应用这些策略最小化插入的量子态移动操作数.所构建的分布式抽象模型屏蔽了底层架构中和量子线路映射无关的物理细节,这使得基于该模型的映射方法可适用于一类分布式超导架构而非某个特定架构.另外,所提方法可作为辅助工具参与分布式网络拓扑结构的设计和评价.实验结果表明,所提算法可以有效降低映射所需的QPU内量子态移动操作(即SWAP门)数和QPU间量子态移动操作(即ST门)数.相较已有算法,在所有基准线路上平均减少69.69%的SWAP门和85.88%的ST门,且时间开销和已有算法接近. 展开更多
关键词 超导量子计算 量子网络 分布式计算 量子处理器 量子线路映射
在线阅读 下载PDF
Falcon后量子算法的密钥树生成部件GPU并行优化设计与实现 被引量:1
2
作者 张磊 赵光岳 +1 位作者 肖超恩 王建新 《计算机工程》 CAS CSCD 北大核心 2024年第9期208-215,共8页
近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较... 近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较多的时间和消耗较多的资源。为此,提出一种基于图形处理器(GPU)的Falcon密钥树并行生成方案。该方案使用奇偶线程联合控制的单指令多线程(SIMT)并行模式和无中间变量的直接计算模式,达到了提升速度和减少资源占用的目的。基于Python的CUDA平台进行了实验,验证结果的正确性。实验结果表明,Falcon密钥树生成在RTX 3060 Laptop的延迟为6 ms,吞吐量为167次/s,在计算单个Falcon密钥树生成部件时相对于CPU实现了1.17倍的加速比,在同时并行1024个Falcon密钥树生成部件时,GPU相对于CPU的加速比达到了约56倍,在嵌入式Jetson Xavier NX平台上的吞吐量为32次/s。 展开更多
关键词 后量子密码 Falcon算法 图形处理器 CUDA平台 并行计算
在线阅读 下载PDF
NTRU格基密钥封装方案GPU高性能实现
3
作者 李文倩 沈诗羽 赵运磊 《计算机学报》 EI CAS CSCD 北大核心 2024年第9期2163-2178,共16页
随着量子计算技术的发展,传统加密算法受到的威胁日益严重.为应对量子计算时代的挑战,各国正积极加强后量子密码算法的实现和迁移部署工作.由于NTRU密码方案具有结构简洁、计算效率高、尺寸较小、无专利风险等优点,因此NTRU格基密钥封... 随着量子计算技术的发展,传统加密算法受到的威胁日益严重.为应对量子计算时代的挑战,各国正积极加强后量子密码算法的实现和迁移部署工作.由于NTRU密码方案具有结构简洁、计算效率高、尺寸较小、无专利风险等优点,因此NTRU格基密钥封装算法对于后量子时代的密码技术储备和应用具有重要意义.同时,图形处理器(Graphics Processing Unit,GPU)以其强大的并行计算能力、高吞吐量、低能耗等特性,已成为当前高并发密码工程实现的重要平台.本文给出后量子密码算法CTRU/CNTR的首个GPU高性能实现方案.对GPU主要资源占用进行分析,我们综合考虑并行计算、内存访问、数据布局和算法优化等多个方面,采用一系列计算和内存优化技术,旨在并行加速计算、优化访存、合理占用GPU资源以及减少I/O时延,从而提高本方案的计算能力和性能.本文的主要贡献在于以下几个方面:首先,针对模约减操作,使用NVIDIA并行指令集实现,有效减少所需指令条数;其次,针对耗时的多项式乘法模块,采用混合基NTT,并采用层融合、循环展开和延迟约减等方法,加快计算速度;此外,针对内存重复访问和冲突访问等问题,通过合并访存、核函数融合等优化技术,实现内存的高效访问;最后,为实现高并行的算法,设计恰当的线程块大小和数量,采用内存池机制,实现多任务的快速访存和高效处理.基于NVIDIA RTX4090平台,本方案CTRU768实现中密钥生成、封装和解封装的吞吐量分别为每秒1170.9万次、926.7万次和315.4万次.与参考实现相比,密钥生成、封装和解封装的吞吐量分别提高了336倍、174倍和128倍.本方案CNTR768实现中密钥生成、封装和解封装的吞吐量分别为每秒1117.3万次、971.8万次和322.2万次.与参考实现相比,密钥生成、封装和解封装的吞吐量分别提高了329倍、175倍和134倍;与开源Kyber实现相比,密钥生成、密钥封装和密钥解封装的吞吐量分别提升10.84~11.36倍、9.49~9.95倍和5.11~5.22倍.高性能的密钥封装实现在大规模任务处理场景下具有较大的应用潜力,对保障后量子时代的信息和数据安全具有重要意义. 展开更多
关键词 后量子密码 格基密码 密钥封装方案 并行处理 图形处理器
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部