期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向分布式超导量子计算架构的量子线路映射
被引量:
1
1
作者
朱鹏程
卫丽华
+3 位作者
冯世光
周祥臻
郑盛根
管致锦
《软件学报》
北大核心
2025年第5期2381-2400,共20页
近年来,超导量子互连技术的研究取得了重要进展,这为构建分布式超导量子计算架构提供了有效途径.分布式超导架构在网络拓扑、量子比特连通性、以及量子态传输协议等方面对量子线路的执行施加了严格约束.为在分布式架构上调度和执行量子...
近年来,超导量子互连技术的研究取得了重要进展,这为构建分布式超导量子计算架构提供了有效途径.分布式超导架构在网络拓扑、量子比特连通性、以及量子态传输协议等方面对量子线路的执行施加了严格约束.为在分布式架构上调度和执行量子线路,需要通过专门的映射工序对量子线路进行适配底层架构的变换,并将变换后的线路交由网络中多个QPU(quantum processing unit)协同运行.分布式量子线路映射需向原始线路插入辅助的量子态移动操作,这些操作(尤其是QPU间量子态移动操作)具有较高的错误率.因此,减少映射所需的量子态移动操作数对于保证分布式计算的成功率至关重要.基于超导量子互连技术和超导QPU的技术特征构建一种抽象的分布式量子计算模型,并基于该抽象模型提出一种分布式量子线路映射方法,该方法由量子比特分布式映射和量子态路由两个核心模块组成,前者以量子态路由开销为代价函数,通过局部寻优和模拟退火相结合的策略生成近最优的初始映射;后者根据量子门执行的不同情形构建多个启发式量子态路由策略,并通过灵活应用这些策略最小化插入的量子态移动操作数.所构建的分布式抽象模型屏蔽了底层架构中和量子线路映射无关的物理细节,这使得基于该模型的映射方法可适用于一类分布式超导架构而非某个特定架构.另外,所提方法可作为辅助工具参与分布式网络拓扑结构的设计和评价.实验结果表明,所提算法可以有效降低映射所需的QPU内量子态移动操作(即SWAP门)数和QPU间量子态移动操作(即ST门)数.相较已有算法,在所有基准线路上平均减少69.69%的SWAP门和85.88%的ST门,且时间开销和已有算法接近.
展开更多
关键词
超导量子计算
量子网络
分布式计算
量子处理器
量子线路映射
在线阅读
下载PDF
职称材料
Falcon后量子算法的密钥树生成部件GPU并行优化设计与实现
被引量:
1
2
作者
张磊
赵光岳
+1 位作者
肖超恩
王建新
《计算机工程》
CAS
CSCD
北大核心
2024年第9期208-215,共8页
近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较...
近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较多的时间和消耗较多的资源。为此,提出一种基于图形处理器(GPU)的Falcon密钥树并行生成方案。该方案使用奇偶线程联合控制的单指令多线程(SIMT)并行模式和无中间变量的直接计算模式,达到了提升速度和减少资源占用的目的。基于Python的CUDA平台进行了实验,验证结果的正确性。实验结果表明,Falcon密钥树生成在RTX 3060 Laptop的延迟为6 ms,吞吐量为167次/s,在计算单个Falcon密钥树生成部件时相对于CPU实现了1.17倍的加速比,在同时并行1024个Falcon密钥树生成部件时,GPU相对于CPU的加速比达到了约56倍,在嵌入式Jetson Xavier NX平台上的吞吐量为32次/s。
展开更多
关键词
后量子密码
Falcon算法
图形处理器
CUDA平台
并行计算
在线阅读
下载PDF
职称材料
NTRU格基密钥封装方案GPU高性能实现
3
作者
李文倩
沈诗羽
赵运磊
《计算机学报》
EI
CAS
CSCD
北大核心
2024年第9期2163-2178,共16页
随着量子计算技术的发展,传统加密算法受到的威胁日益严重.为应对量子计算时代的挑战,各国正积极加强后量子密码算法的实现和迁移部署工作.由于NTRU密码方案具有结构简洁、计算效率高、尺寸较小、无专利风险等优点,因此NTRU格基密钥封...
随着量子计算技术的发展,传统加密算法受到的威胁日益严重.为应对量子计算时代的挑战,各国正积极加强后量子密码算法的实现和迁移部署工作.由于NTRU密码方案具有结构简洁、计算效率高、尺寸较小、无专利风险等优点,因此NTRU格基密钥封装算法对于后量子时代的密码技术储备和应用具有重要意义.同时,图形处理器(Graphics Processing Unit,GPU)以其强大的并行计算能力、高吞吐量、低能耗等特性,已成为当前高并发密码工程实现的重要平台.本文给出后量子密码算法CTRU/CNTR的首个GPU高性能实现方案.对GPU主要资源占用进行分析,我们综合考虑并行计算、内存访问、数据布局和算法优化等多个方面,采用一系列计算和内存优化技术,旨在并行加速计算、优化访存、合理占用GPU资源以及减少I/O时延,从而提高本方案的计算能力和性能.本文的主要贡献在于以下几个方面:首先,针对模约减操作,使用NVIDIA并行指令集实现,有效减少所需指令条数;其次,针对耗时的多项式乘法模块,采用混合基NTT,并采用层融合、循环展开和延迟约减等方法,加快计算速度;此外,针对内存重复访问和冲突访问等问题,通过合并访存、核函数融合等优化技术,实现内存的高效访问;最后,为实现高并行的算法,设计恰当的线程块大小和数量,采用内存池机制,实现多任务的快速访存和高效处理.基于NVIDIA RTX4090平台,本方案CTRU768实现中密钥生成、封装和解封装的吞吐量分别为每秒1170.9万次、926.7万次和315.4万次.与参考实现相比,密钥生成、封装和解封装的吞吐量分别提高了336倍、174倍和128倍.本方案CNTR768实现中密钥生成、封装和解封装的吞吐量分别为每秒1117.3万次、971.8万次和322.2万次.与参考实现相比,密钥生成、封装和解封装的吞吐量分别提高了329倍、175倍和134倍;与开源Kyber实现相比,密钥生成、密钥封装和密钥解封装的吞吐量分别提升10.84~11.36倍、9.49~9.95倍和5.11~5.22倍.高性能的密钥封装实现在大规模任务处理场景下具有较大的应用潜力,对保障后量子时代的信息和数据安全具有重要意义.
展开更多
关键词
后量子密码
格基密码
密钥封装方案
并行处理
图形处理器
在线阅读
下载PDF
职称材料
题名
面向分布式超导量子计算架构的量子线路映射
被引量:
1
1
作者
朱鹏程
卫丽华
冯世光
周祥臻
郑盛根
管致锦
机构
宿迁学院信息工程学院
南通大学信息科学技术学院
清华大学计算机科学与技术系
鹏城实验室
出处
《软件学报》
北大核心
2025年第5期2381-2400,共20页
基金
国家自然科学基金(62072259)
江苏省自然科学基金(BK20221411)
宿迁市科技计划面上项目(H202117)。
文摘
近年来,超导量子互连技术的研究取得了重要进展,这为构建分布式超导量子计算架构提供了有效途径.分布式超导架构在网络拓扑、量子比特连通性、以及量子态传输协议等方面对量子线路的执行施加了严格约束.为在分布式架构上调度和执行量子线路,需要通过专门的映射工序对量子线路进行适配底层架构的变换,并将变换后的线路交由网络中多个QPU(quantum processing unit)协同运行.分布式量子线路映射需向原始线路插入辅助的量子态移动操作,这些操作(尤其是QPU间量子态移动操作)具有较高的错误率.因此,减少映射所需的量子态移动操作数对于保证分布式计算的成功率至关重要.基于超导量子互连技术和超导QPU的技术特征构建一种抽象的分布式量子计算模型,并基于该抽象模型提出一种分布式量子线路映射方法,该方法由量子比特分布式映射和量子态路由两个核心模块组成,前者以量子态路由开销为代价函数,通过局部寻优和模拟退火相结合的策略生成近最优的初始映射;后者根据量子门执行的不同情形构建多个启发式量子态路由策略,并通过灵活应用这些策略最小化插入的量子态移动操作数.所构建的分布式抽象模型屏蔽了底层架构中和量子线路映射无关的物理细节,这使得基于该模型的映射方法可适用于一类分布式超导架构而非某个特定架构.另外,所提方法可作为辅助工具参与分布式网络拓扑结构的设计和评价.实验结果表明,所提算法可以有效降低映射所需的QPU内量子态移动操作(即SWAP门)数和QPU间量子态移动操作(即ST门)数.相较已有算法,在所有基准线路上平均减少69.69%的SWAP门和85.88%的ST门,且时间开销和已有算法接近.
关键词
超导量子计算
量子网络
分布式计算
量子处理器
量子线路映射
Keywords
superconducting
quantum
computing
quantum
network
distributed computing
quantum
processing
unit
(
qpu
)
quantum
circuit mapping
分类号
TP303 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
Falcon后量子算法的密钥树生成部件GPU并行优化设计与实现
被引量:
1
2
作者
张磊
赵光岳
肖超恩
王建新
机构
北京电子科技学院电子与通信工程系
北京电子科技学院网络空间安全系
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第9期208-215,共8页
基金
国家重点研发计划(2017YFB0801803)
中央高校基本科研业务费资金(328202278,328202261,3282023005)
+1 种基金
北京高等教育“本科教学改革创新项目”(202110018002)
北京电子科技学院一流学科建设项目(20210064Z0401)。
文摘
近年来,后量子密码算法因其具有抗量子攻击的特性成为安全领域的研究热点。基于格的Falcon数字签名算法是美国国家标准与技术研究所(NIST)公布的首批4个后量子密码标准算法之一。密钥树生成是Falcon算法的核心部件,在实际运算中占用较多的时间和消耗较多的资源。为此,提出一种基于图形处理器(GPU)的Falcon密钥树并行生成方案。该方案使用奇偶线程联合控制的单指令多线程(SIMT)并行模式和无中间变量的直接计算模式,达到了提升速度和减少资源占用的目的。基于Python的CUDA平台进行了实验,验证结果的正确性。实验结果表明,Falcon密钥树生成在RTX 3060 Laptop的延迟为6 ms,吞吐量为167次/s,在计算单个Falcon密钥树生成部件时相对于CPU实现了1.17倍的加速比,在同时并行1024个Falcon密钥树生成部件时,GPU相对于CPU的加速比达到了约56倍,在嵌入式Jetson Xavier NX平台上的吞吐量为32次/s。
关键词
后量子密码
Falcon算法
图形处理器
CUDA平台
并行计算
Keywords
post-
quantum
cryptography
Falcon algorithm
Graphics
processing
unit
(GPU)
CUDA platform
parallel computing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
NTRU格基密钥封装方案GPU高性能实现
3
作者
李文倩
沈诗羽
赵运磊
机构
复旦大学计算机科学技术学院
密码科学技术全国重点实验室
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2024年第9期2163-2178,共16页
基金
国家重点研发计划基金资助项目(No.2022YFB2701601)
密码科学技术国家重点实验室面上课题基金资助项目(No.MMKFKT202227)
+2 种基金
上海市科委技术标准基金资助项目(No.21DZ2200500)
上海市协同创新基金资助项目(No.XTCX-KJ-2023-54)
上海市科委区块链关键技术攻关专项基金资助项目(No.23511100300)资助.
文摘
随着量子计算技术的发展,传统加密算法受到的威胁日益严重.为应对量子计算时代的挑战,各国正积极加强后量子密码算法的实现和迁移部署工作.由于NTRU密码方案具有结构简洁、计算效率高、尺寸较小、无专利风险等优点,因此NTRU格基密钥封装算法对于后量子时代的密码技术储备和应用具有重要意义.同时,图形处理器(Graphics Processing Unit,GPU)以其强大的并行计算能力、高吞吐量、低能耗等特性,已成为当前高并发密码工程实现的重要平台.本文给出后量子密码算法CTRU/CNTR的首个GPU高性能实现方案.对GPU主要资源占用进行分析,我们综合考虑并行计算、内存访问、数据布局和算法优化等多个方面,采用一系列计算和内存优化技术,旨在并行加速计算、优化访存、合理占用GPU资源以及减少I/O时延,从而提高本方案的计算能力和性能.本文的主要贡献在于以下几个方面:首先,针对模约减操作,使用NVIDIA并行指令集实现,有效减少所需指令条数;其次,针对耗时的多项式乘法模块,采用混合基NTT,并采用层融合、循环展开和延迟约减等方法,加快计算速度;此外,针对内存重复访问和冲突访问等问题,通过合并访存、核函数融合等优化技术,实现内存的高效访问;最后,为实现高并行的算法,设计恰当的线程块大小和数量,采用内存池机制,实现多任务的快速访存和高效处理.基于NVIDIA RTX4090平台,本方案CTRU768实现中密钥生成、封装和解封装的吞吐量分别为每秒1170.9万次、926.7万次和315.4万次.与参考实现相比,密钥生成、封装和解封装的吞吐量分别提高了336倍、174倍和128倍.本方案CNTR768实现中密钥生成、封装和解封装的吞吐量分别为每秒1117.3万次、971.8万次和322.2万次.与参考实现相比,密钥生成、封装和解封装的吞吐量分别提高了329倍、175倍和134倍;与开源Kyber实现相比,密钥生成、密钥封装和密钥解封装的吞吐量分别提升10.84~11.36倍、9.49~9.95倍和5.11~5.22倍.高性能的密钥封装实现在大规模任务处理场景下具有较大的应用潜力,对保障后量子时代的信息和数据安全具有重要意义.
关键词
后量子密码
格基密码
密钥封装方案
并行处理
图形处理器
Keywords
post-
quantum
cryptography
lattice-based cryptography
key encapsulation mechanism
parallel
processing
Graphics
processing
unit
s(GPU)
分类号
TP309 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向分布式超导量子计算架构的量子线路映射
朱鹏程
卫丽华
冯世光
周祥臻
郑盛根
管致锦
《软件学报》
北大核心
2025
1
在线阅读
下载PDF
职称材料
2
Falcon后量子算法的密钥树生成部件GPU并行优化设计与实现
张磊
赵光岳
肖超恩
王建新
《计算机工程》
CAS
CSCD
北大核心
2024
1
在线阅读
下载PDF
职称材料
3
NTRU格基密钥封装方案GPU高性能实现
李文倩
沈诗羽
赵运磊
《计算机学报》
EI
CAS
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部