期刊文献+
共找到156篇文章
< 1 2 8 >
每页显示 20 50 100
A High Speed Signal Processing Machine -Its Architecture, Language and Compiler
1
作者 Wang Yufei and Yu ShiqiBeijing Institute of Data Processing Technology, P.O.Box 3927, Beijing 100039, China 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 1991年第1期119-128,共10页
A systolic array architecture computer (FXCQ) has been designed for signal processing. R can handle floating point data at very high speed. It is composed of 16 processing cells and a cache that are connected linearly... A systolic array architecture computer (FXCQ) has been designed for signal processing. R can handle floating point data at very high speed. It is composed of 16 processing cells and a cache that are connected linearly and form a ring structure. All processing cells are identical and programmable. Each processing cell has the peak performance of 20 million floating-point operations per second (20MFLOPS). The machine therefore has a peak performance of 320 M FLOPS. It is integrated as an attached processor into a host system through VME bus interface. Programs for FXCQ are written in a high-level language -B language, which is supported by a parallel optimizing compiler. This paper describes the architecture of FXCQ, B language and its compiler. 展开更多
关键词 parallel processing Systolic array processor parallel language Compiler.
在线阅读 下载PDF
面向国产异构众核系统的Parallel C语言设计与实现 被引量:10
2
作者 何王全 刘勇 +2 位作者 方燕飞 魏迪 漆锋滨 《软件学报》 EI CSCD 北大核心 2017年第4期764-785,共22页
异构众核架构具有超高的性能功耗比,已成为超级计算机体系结构的重要发展方向.但众核系统更为复杂的并行层次和存储层次,给编程和优化带来了极大的挑战.因此,研究面向众核系统的并行编程技术,对于降低国产众核系统并行应用的编程难度、... 异构众核架构具有超高的性能功耗比,已成为超级计算机体系结构的重要发展方向.但众核系统更为复杂的并行层次和存储层次,给编程和优化带来了极大的挑战.因此,研究面向众核系统的并行编程技术,对于降低国产众核系统并行应用的编程难度、提升并行程序的性能都具有重要的意义.提出统一架构的多模式并行编程模型,包括异构融合的加速运算模型和按同构方式编程的自主运算模型,根据编程模型设计了Parallel C语言,能够有效地描述国产众核系统的异构并行性.与其他众核系统上MPI+X的使用模式相比,编程和系统优化都具有全局视角,在多级局部性描述、单边消息、兼容已有多核应用等方面具有特色;基于Open64构建了Parallel C编译系统,全面支持加速运算模型和自主运算模型,提出并实现了数据布局与自动DMA、编译指导的线程代理和拓扑位置感知的集合通信等优化.Micro Benchmark和实际应用在神威太湖之光计算机系统上的测试数据结果表明:Parallel C语言和编译系统具有良好的性能和可扩展性,能够有效支撑大型应用. 展开更多
关键词 异构众核 编程模型 并行语言 parallel C 编译器 消息传递
在线阅读 下载PDF
多语言平行情感语料库的构建与研究
3
作者 张浩 李世琪 +3 位作者 刁宇峰 杨亮 林鸿飞 樊小超 《计算机科学与探索》 北大核心 2025年第9期2506-2519,共14页
在自然语言处理领域,多语平行语料库的构建与应用日益成为研究热点,其在跨文化交流、机器翻译、情感分析及智慧问答等领域的应用价值愈发凸显。特别是在“一带一路”倡议背景下,深化中蒙两国在文化、经济及社会领域的交流合作具有重要... 在自然语言处理领域,多语平行语料库的构建与应用日益成为研究热点,其在跨文化交流、机器翻译、情感分析及智慧问答等领域的应用价值愈发凸显。特别是在“一带一路”倡议背景下,深化中蒙两国在文化、经济及社会领域的交流合作具有重要意义。因此,该研究构建了一个涵盖中文、传统蒙文和新蒙文的多语平行情感语料库,以推动蒙文体系下的情感分析研究。该语料库的构建不仅有助于深化中蒙两国间的文化交流与合作,还将促进我国民族团结及蒙古族文化的传承与发展。该研究基于SMP2020-EWECT和OCEMOTION两个公开中文情感分析数据集,采用先进的机器翻译技术,将中文文本自动翻译为传统蒙文和新蒙文,并通过机器校对与人工校对相结合的双重验证机制,确保语料库的准确性和高质量。对该语料库进行详尽的数据分析,以确保文本的多样性与平衡性,涵盖不同领域和情感类别,保证语料库在多种自然语言处理任务中的广泛适用性和代表性。通过一系列系统性的实验,探索了多种情感分析模型在蒙文数据上的性能表现,实验结果验证了该语料库在情感分析任务中的可用性和研究价值。 展开更多
关键词 自然语言处理 多语言平行语料库 传统蒙文 新蒙文
在线阅读 下载PDF
Pipe-RLHF:计算模式感知的RLHF并行加速框架
4
作者 徐颖 王梦迪 +4 位作者 程龙 刘炼 赵世新 张磊 王颖 《计算机研究与发展》 北大核心 2025年第6期1513-1529,共17页
基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问... 基于人类反馈的强化学习(reinforcement learning with human feedback,RLHF)作为当前大语言模型(large language models,LLMs)对齐的主流方法,其核心优化算法——近端策略优化(proximal policy optimization,PPO)却面临着显著的效率问题.PPO由生成、推理、训练3个相互关联的阶段组成,各个阶段有着不同的计算特性.然而,现有的RLHF并行框架采用相同并行策略顺序执行PPO的所有阶段,这导致以下2个问题:其一,生成阶段不能充分利用计算资源,进而影响整体效率;其二,阶段间严格串行执行,未能充分利用潜在并行性.针对上述问题,提出了一个新型RLHF并行框架——Pipe-RLHF.该框架能够自适应地根据各阶段的计算特征确定最优并行策略,突破现有阶段串行范式,采用异步PPO算法发掘阶段间的并行性.具体而言,创新性地提出了适用于PPO生成阶段的延迟批间流水线并行方法,显著提升了该阶段的计算资源利用率;再次,使用异步PPO解放阶段间的依赖关系,将阶段间并行应用到PPO的加速上;最后,针对PPO算法的整体优化,构建了分层并行策略空间,并提出了一套优化算法以实现该空间中的最优解搜索.通过在多个大语言模型上的性能评估实验表明,相较于现有方法,Pipe-RLHF最高可实现3.7倍的加速比,充分验证了该框架的有效性和优越性. 展开更多
关键词 基于人类反馈的强化学习 近端策略优化 大模型微调 分布式系统 并行计算
在线阅读 下载PDF
基于大语言模型的API使用约束知识构建
5
作者 刘根壕 张能 郑子彬 《计算机工程》 北大核心 2025年第8期74-85,共12页
API(Application Programming Interface)使用约束是开发者在调用API时必须遵守的条件或限制,以确保正确使用并避免API误用。API文档是提取这些约束的重要来源。现有的基于自然语言处理(NLP)的API使用约束提取方法通常依赖于句法模式,... API(Application Programming Interface)使用约束是开发者在调用API时必须遵守的条件或限制,以确保正确使用并避免API误用。API文档是提取这些约束的重要来源。现有的基于自然语言处理(NLP)的API使用约束提取方法通常依赖于句法模式,但对复杂并列句的处理能力有限,且对语法模式要求严格。为此,提出一种基于大语言模型(LLM)的API使用约束知识提取方法,记为AUCK。AUCK首先对Java API文档进行预处理,提取包含API使用约束的句子;其次,总结并列句的句法模式并设计相应案例,指导LLM将并列句拆分为简单句;最后,针对简单句总结出三元组句法模式,并设计案例指导LLM提取API使用约束三元组。实验结果表明,在Java API文档上,AUCK的准确率和召回率分别达到92.23%和93.14%,显著优于现有方法DRONE(准确率为80.61%,召回率为86.81%)、主流三元组提取工具OpenIE(准确率为76.92%,召回率为52.63%)以及大语言模型ChatGPT-3.5(准确率为82.23%,召回率为67.71%)。此外,将AUCK应用于Android和Python API文档的实验结果验证了其良好的迁移能力。 展开更多
关键词 Java API文档 API使用约束 大语言模型 并列句拆解 三元组提取 知识提取
在线阅读 下载PDF
Parallel C语言级容错机制的设计与实现
6
作者 何王全 方燕飞 +2 位作者 魏迪 董恩铭 漆锋滨 《计算机工程与应用》 CSCD 北大核心 2018年第17期41-49,61,共10页
大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针... 大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针对传统基于检查点的系统级容错开销过大的问题,在Parallel C语言中设计并实现了故障局部感知的轻量级降级、编译指导与自动分析的检查点等语言支持的容错机制,兼顾了好用性和高效性。局部故障感知的轻量级降级结合动态任务调度框架实现,支持众核系统,可扩展到百万以上并行规模;编译指导与自动分析的检查点通过程序员插入简单的编译指示,由编译器进行分析,提示不需要保留的数据,可有效降低保留恢复的数据量。神威太湖之光超级计算机上的测试数据表明,两种容错措施相对于传统容错方法效果良好,轻量级降级的容错开销小于1%,相对于传统回卷容错方法单次故障执行时间可减少3.5%以上,编译指导与自动分析的检查点在典型应用中最多可将保留量降低至1/10,具有很好的实用性。 展开更多
关键词 容错 降级 检查点 parallel C语言
在线阅读 下载PDF
面向AI算力场景的多元异构混合训练系统研究
7
作者 李攀攀 牛红韦华 +6 位作者 赵万龙 马华伟 王艳辉 江伟 张雯欣 陆一鸣 赵峰 《电信科学》 北大核心 2025年第7期133-144,共12页
大语言模型训练是人工智能(artificial intelligence,AI)发展的核心场景,在算力多元化和异构化趋势下,跨生态异构算力协同能力将成为十万卡级训练的关键支撑。基于此背景,设计了一套异构AI算力混合训练系统,该系统能够主动检测、适配异... 大语言模型训练是人工智能(artificial intelligence,AI)发展的核心场景,在算力多元化和异构化趋势下,跨生态异构算力协同能力将成为十万卡级训练的关键支撑。基于此背景,设计了一套异构AI算力混合训练系统,该系统能够主动检测、适配异构AI芯片,实现异构算力间的集合通信。基于该原型系统,在一个由3种异构算力组成的RoCEv2网络互通集群实现了多种异构算力组合的混训。在异构流水线并行(pipeline parallelism,PP)混训场景下,英伟达与壁仞的最优混训效率达到99.77%,英伟达、天数智芯、壁仞的最优混训效率可达99.03%。在异构数据并行(data parallelism,DP)混训场景下,英伟达与壁仞的最优混训效率达到92.88%。 展开更多
关键词 大语言模型 集合通信 异构并行 异构混合训练
在线阅读 下载PDF
基于二维张量并行策略的大模型加速训练方法
8
作者 朱仕通 董琦 《智能系统学报》 北大核心 2025年第5期1256-1265,共10页
近期语言模型领域的进展显示,采用Transformer架构的大型预训练模型在自然语言处理应用中表现出优异的技术能力。然而,受限于GPU内存,训练大语言模型(large language models,LLMs)成为了一项挑战。张量并行方法要求单个GPU存储所有激活... 近期语言模型领域的进展显示,采用Transformer架构的大型预训练模型在自然语言处理应用中表现出优异的技术能力。然而,受限于GPU内存,训练大语言模型(large language models,LLMs)成为了一项挑战。张量并行方法要求单个GPU存储所有激活值,难以突破内存瓶颈。为解决GPU内存对大语言模型训练的制约并提升训练效率,本文提出一种二维张量并行方法(2D tensor parallelism,TP2D)。2D张量并行将输入数据和参数矩阵分割并分配至4个GPU;采用分布式通信,进行GPU间数据的高速交互,实现真正的分布式并行训练。以GPT-2模型作为基准模型,测试了两种训练方法的软扩展(soft scaling)效率和训练效率。实验表明,当使用4块GPU时,2D张量并行的训练速度是张量并行的1.84倍,软扩展效率达到86%,并降低了内存占用。 展开更多
关键词 TRANSFORMER 张量并行 注意力机制 自然语言处理 人工智能 预训练 分布式训练 分布式通信
在线阅读 下载PDF
从基础智能到通用智能:基于大模型的GenAI和AGI之现状与展望 被引量:21
9
作者 缪青海 王兴霞 +10 位作者 杨静 赵勇 王雨桐 陈圆圆 田永林 俞怡 林懿伦 鄢然 马嘉琪 那晓翔 王飞跃 《自动化学报》 EI CAS CSCD 北大核心 2024年第4期674-687,共14页
本文对生成式AI(Generative artificial intelligence,GenAI)的国内外发展现状进行了概述,重点分析了中美之间在算力、数据、算法、生态等方面存在的差距.为改变我国在生成式AI领域的落后现状,提出高能效算力建设、联邦数据、专业领域... 本文对生成式AI(Generative artificial intelligence,GenAI)的国内外发展现状进行了概述,重点分析了中美之间在算力、数据、算法、生态等方面存在的差距.为改变我国在生成式AI领域的落后现状,提出高能效算力建设、联邦数据、专业领域模型、基于TAO的联邦生态等应对策略,对大模型时代AI安全治理进行了论述,对通用人工智能(Artificial general intelligence,AGI)的未来发展进行了展望. 展开更多
关键词 生成式人工智能 大语言模型 基础模型 通用人工智能 基础智能 平行智能 SORA
在线阅读 下载PDF
轻量级卷积神经网络的硬件加速方法 被引量:1
10
作者 吕文浩 支小莉 童维勤 《计算机工程与设计》 北大核心 2024年第3期699-706,共8页
为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单... 为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。 展开更多
关键词 软硬件协同优化 现场可编程门阵列 轻量级卷积神经网络 移位量化 并行计算 硬件加速 开放式计算语言
在线阅读 下载PDF
基于异构平台的图像中值滤波的OpenCL加速算法 被引量:6
11
作者 肖诗洋 王镭 +1 位作者 杜莹 肖汉 《河北大学学报(自然科学版)》 CAS 北大核心 2024年第1期92-103,共12页
图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,... 图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,对图像中值滤波功能模块进行了并行优化,降低了算法复杂度.通过充分激活NDRange索引空间中的工作组和工作项来提高数据访问效率,优化内核工作组配置参数,实现了中值滤波器的并行处理.实验结果表明,在图像质量保持不变的情况下,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,图像中值滤波并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了29.74、17.29、1.15倍的加速比.验证了算法的有效性和平台的可移植性,基本满足应用的实时性处理要求. 展开更多
关键词 中值滤波 椒盐噪声 图形处理器 开放式计算语言 并行算法
在线阅读 下载PDF
申威众核处理器访存与通信融合编译优化 被引量:1
12
作者 方燕飞 李雁冰 +2 位作者 董恩铭 王云飞 刘齐 《软件学报》 EI CSCD 北大核心 2024年第6期2648-2667,共20页
申威众核片上多级存储层次是缓解众核“访存墙”的重要结构.完全由软件管理的SPM结构和片上RMA通信机制给应用性能提升带来很多机会,但也给应用程序开发优化与移植提出了很大挑战.为充分挖掘片上存储层次特点提升应用程序性能,同时减轻... 申威众核片上多级存储层次是缓解众核“访存墙”的重要结构.完全由软件管理的SPM结构和片上RMA通信机制给应用性能提升带来很多机会,但也给应用程序开发优化与移植提出了很大挑战.为充分挖掘片上存储层次特点提升应用程序性能,同时减轻用户编程优化负担,提出一种多级存储层次访存与通信融合的编译优化方法.该方法首先设计融合编译指示,将程序高层信息传递给编译器.其次构建编译优化收益模型并设计启发式循环优化方案迭代求解框架,并由编译器完成循环优化方案的求解和优化代码的变换.通过编译生成的DMA和RMA批量数据传输操作,将较低存储层次空间中高访问延迟的核心数据批量缓冲进低访问延迟的更高存储层次空间中.在3个典型测试用例上进行优化实验测试与分析,结果表明所提出的优化在性能上与手工优化相当,较未优化版程序性能有显著提升. 展开更多
关键词 申威众核处理器 多级存储层次 RMA通信 并行语言 编译优化
在线阅读 下载PDF
可重构OCS技术在大模型预训练中的应用(特邀) 被引量:1
13
作者 朱宸 周谞 王佩龙 《光通信研究》 北大核心 2024年第5期25-34,共10页
【目的】相比于电子分组交换机(EPS),全光电路交换(OCS)在时延、功耗、成本和稳定性等各个方面都体现出了优势,文章通过分析大模型预训练中的并行切分策略、集合通信需求、流量模式和现今的网络架构,讨论了基于OCS在训练组网中的可行的... 【目的】相比于电子分组交换机(EPS),全光电路交换(OCS)在时延、功耗、成本和稳定性等各个方面都体现出了优势,文章通过分析大模型预训练中的并行切分策略、集合通信需求、流量模式和现今的网络架构,讨论了基于OCS在训练组网中的可行的应用方式,以在训练任务中充分利用OCS的优势。【方法】文章提出在故障快速恢复中采用多个小端口OCS进行网络设备冗余保护的机制,可在机顶(ToR)交换机故障时快速切换不中断训练任务。此外,文章还提出OCS只为数据并行(DP)服务,且仅在任务开始前进行配置。【结果】文章提出了多种可行的光电组网架构,以及在不同AllReduce算法下的具体配置,采用包括集合通信算法和架构设计联合优化的方式达到更优的带宽利用率。【结论】只要充分结合训练任务的流量模型,OCS可以很好地融入现有EPS网络架构,从成本、低功耗、低时延以及高稳定性等各方面对大模型预训练进行优化。 展开更多
关键词 全光电路交换 可重构 光电混合网络架构 大模型预训练 集合通信 并行训练
在线阅读 下载PDF
基于方法调用一般化模型的并行性分析 被引量:4
14
作者 于勐 阳雪林 +2 位作者 臧婉瑜 谢立 孙钟秀 《计算机学报》 EI CSCD 北大核心 2002年第4期403-408,共6页
该文给出了一种考虑了面向对象语言的多态和对象引用别名问题的对象方法间并行性的分析方法 .这种方法用于面向对象语言并行化中的并行性分析 .文中首先给出了一般化的方法调用模型 ,然后基于该模型给出了表达式化简、过程内和过程间分... 该文给出了一种考虑了面向对象语言的多态和对象引用别名问题的对象方法间并行性的分析方法 .这种方法用于面向对象语言并行化中的并行性分析 .文中首先给出了一般化的方法调用模型 ,然后基于该模型给出了表达式化简、过程内和过程间分析的算法 ,该算法可以求出变量的定义和使用集合 ,用于并行性分析 .该文给出的简单例子即可以将该文的工作和相关的工作加以区别 .其技术已经在作者研制的 Java并行化编译器 JAPS- 展开更多
关键词 并行编译 并行计算 面向对象语言 并行性分析 一般化模型
在线阅读 下载PDF
JAVA并行化编译器JAPS-Ⅱ 被引量:5
15
作者 于 勐 陈贵海 +2 位作者 阳雪林 谢 立 过敏意 《软件学报》 EI CSCD 北大核心 2002年第4期739-747,共9页
JAPS-Ⅱ(Java automatic parallelizing system version 2)是一个Java源代码重构编译器,用来发现和实现串行Java程序中对象内和对象间的并行性.其目标体系结构为基于工作站网络环境的分布式存储器计算机系统.介绍了JAPS-Ⅱ的体系结构... JAPS-Ⅱ(Java automatic parallelizing system version 2)是一个Java源代码重构编译器,用来发现和实现串行Java程序中对象内和对象间的并行性.其目标体系结构为基于工作站网络环境的分布式存储器计算机系统.介绍了JAPS-Ⅱ的体系结构和实现JAPS-Ⅱ的关键技术,包括用于对象并行性分析的数据流分析技术、提高对象并行性和减少运行开销的优化技术以及类重构和代码生成技术.测试结果表明,JAPS-Ⅱ能够有效地发现循环中和对象内、对象间的并行性,获得加速比.这种技术也可应用于其他面向对象语言的并行化. 展开更多
关键词 并行计算 面向对象语言 JAVA语言 并行化编译器 JAPS-Ⅱ
在线阅读 下载PDF
用于激励超声导波的任意波形发生器 被引量:12
16
作者 吴斌 王智 +2 位作者 金山 焦敬品 何存富 《北京工业大学学报》 CAS CSCD 北大核心 2002年第4期389-393,共5页
通过PC机编程生成试验所需的高频调幅信号,分别经RS232串口及IEEE488并口发送给任意函数发生器HP33120A,经函数发生器接收、处理后,输出所需超声波激励信号;着重研究了PC机与任意函数发生器之间基于RS232与IEEE488接口的数据通信以及信... 通过PC机编程生成试验所需的高频调幅信号,分别经RS232串口及IEEE488并口发送给任意函数发生器HP33120A,经函数发生器接收、处理后,输出所需超声波激励信号;着重研究了PC机与任意函数发生器之间基于RS232与IEEE488接口的数据通信以及信号频率与周期的可调整性;成功地实现了汉宁窗、高斯窗调制的任意频率单音频信号的产生,达到了任意波形发生器的功能. 展开更多
关键词 激励 超声导波 RS232串口 IEEE488并口 任意波形发生器 SCPI语言 超声无损检测 函数发生器
在线阅读 下载PDF
并行程序设计模型和语言 被引量:22
17
作者 安虹 陈国良 《软件学报》 EI CSCD 北大核心 2002年第1期118-124,共7页
并行计算技术的发展已有20多年的历史了.时至今日,高性能并行计算仍然缺乏有效的并行程序设计方法和工具,使得编写并行程序、理解并行程序的行为、调试和优化并行程序的性能都很困难.从分析并行程序设计困难的原因入手,指出了当前各种... 并行计算技术的发展已有20多年的历史了.时至今日,高性能并行计算仍然缺乏有效的并行程序设计方法和工具,使得编写并行程序、理解并行程序的行为、调试和优化并行程序的性能都很困难.从分析并行程序设计困难的原因入手,指出了当前各种高性能并行机系统支持的并行程序设计方法存在的诸多问题,综述了并行程序设计模型和语言的研究现状,给出了并行程序设计模型的评价标准,并提出了这一研究领域所面临的挑战性问题,指出了一些未来可能的发展方向. 展开更多
关键词 并行程序设计 模型 可移植性 可扩放性 局部性 程序设计语言 并行计算机
在线阅读 下载PDF
HPF编译器中的通信实现策略及其相关算法 被引量:12
18
作者 汪剑平 程旭 +2 位作者 丁文魁 李晓明 许卓群 《计算机学报》 EI CSCD 北大核心 1999年第5期486-495,共10页
介绍了HPF编译系统p_HPF中的通信实现策略及其相关算法.综合数组的分布方式、对准、FORALL语句的空间索引变量范围以及数组元素的下标表达式,将程序语句中所隐含的通信划分为3种情形,即无通信、SHIFT通信和其它... 介绍了HPF编译系统p_HPF中的通信实现策略及其相关算法.综合数组的分布方式、对准、FORALL语句的空间索引变量范围以及数组元素的下标表达式,将程序语句中所隐含的通信划分为3种情形,即无通信、SHIFT通信和其它通信(REMAP通信),指出了这种划分的意义,给出相应的通信检测算法,描述了具体的实现细节;详细讨论了SHIFT通信以及利用阴影区技术对它进行的优化,对于REMAP通信的典型形式及其优化也进行了讨论. 展开更多
关键词 HPF语言 群通信 通信实现策略 编译器 算法
在线阅读 下载PDF
基于半连接的并行查询处理算法的研究 被引量:11
19
作者 王意洁 王勇军 卢锡城 《软件学报》 EI CSCD 北大核心 2001年第2期219-224,共6页
多元连接查询的并行执行是并行数据库的研究重点 ,传统的并行查询处理算法没有利用面向对象数据库及其查询的特点 ,算法效率较低 .借鉴分布式数据库查询处理中基于半连接的优化思想 ,提出了基于半连接的并行查询处理算法 .性能评价表明... 多元连接查询的并行执行是并行数据库的研究重点 ,传统的并行查询处理算法没有利用面向对象数据库及其查询的特点 ,算法效率较低 .借鉴分布式数据库查询处理中基于半连接的优化思想 ,提出了基于半连接的并行查询处理算法 .性能评价表明了其实用性和有效性 . 展开更多
关键词 半连接 并行数据库 并行查询处理算法 面向对象数据库
在线阅读 下载PDF
OpenMP指导语句全局嵌套类型的静态分析及应用(英文) 被引量:3
20
作者 陈永健 舒继武 +1 位作者 李建江 王鼎兴 《软件学报》 EI CSCD 北大核心 2005年第2期194-204,共11页
由于指导语句动态嵌套与绑定规则的存在,OpenMP 程序中线程的一些上下文只能在运行时刻才能完全确定.然而,通过编译时刻的静态分析可以部分确定指导语句的嵌套类型,这些信息可以用于指导后续的编译与优化.由于函数调用的存在,嵌套与绑... 由于指导语句动态嵌套与绑定规则的存在,OpenMP 程序中线程的一些上下文只能在运行时刻才能完全确定.然而,通过编译时刻的静态分析可以部分确定指导语句的嵌套类型,这些信息可以用于指导后续的编译与优化.由于函数调用的存在,嵌套与绑定常常会跨越过程边界,除了通常的局部和全局分析之外,还需要过ü谕ǔ5墓碳浞治龅幕∩细郊有畔?可以使得嵌套类型信息在过程调用图中进行传播.将这些全局信息与过程内的局部信息结合起来,就可以在编译时刻确定语句的嵌套类型.结果表明,编译时刻的嵌套类型分析可以有效地确定通常的科学与工程计算程序中指导语句的嵌套类型,基于嵌套类型的翻译与优化可以同时减少运行时开销和目标代码长度. 展开更多
关键词 0penMP 编译 过程间分析 全局嵌套类型 OpenMP翻译
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部