针对索引推荐中存在的未能利用SQL流量特征以及规则方法机械性等问题,提出一种基于DQN模型的新型双通道索引推荐模型DC-DQN(Dual Channel Deep Q-Network)。该模型将索引选择度与SQL查询类型特征通过两个单独的通道独立训练,通过全连接...针对索引推荐中存在的未能利用SQL流量特征以及规则方法机械性等问题,提出一种基于DQN模型的新型双通道索引推荐模型DC-DQN(Dual Channel Deep Q-Network)。该模型将索引选择度与SQL查询类型特征通过两个单独的通道独立训练,通过全连接层进行信息融合,从而选择符合三星索引特征的候选索引。公开测试集TPC-H上的实验测试表明,DC-DQN相较增加全量索引取得几乎同样的性能提升效果,同时在构造特定查询流量下,DC-DQN相对之前的方法取得了更好的效果。展开更多
海量感知数据的采集、存储和共享技术推动了物联网的兴起,其大规模应用对数据库系统提出了数据强一致和资源高效能的迫切要求.然而,现有的数据库系统架构和管控方法在保证一致性的约束下,较多采用降低传输数据量和增加节点存储副本的方...海量感知数据的采集、存储和共享技术推动了物联网的兴起,其大规模应用对数据库系统提出了数据强一致和资源高效能的迫切要求.然而,现有的数据库系统架构和管控方法在保证一致性的约束下,较多采用降低传输数据量和增加节点存储副本的方式降低通信成本,缺少对系统网络资源的一体化感知和优化,从而导致数据库效能低下.为此,构建算网一体数据库系统,驱动算力资源和网络的一体化感知表征,并将智能物联网(artificial intelligence of things,AIoT)技术赋能数据库,实现算力资源和网络的联合智能调度,以降低综合成本和提升算网效能.首先,构建算网一体的分布式数据库网络,并分析其架构特点.然后,为实现计算和通信优化变量的统一表征,构建了一体化代价感知模型.并在此基础上提出了智能化的一站式资源优化算法,满足一致性时延约束的前提下,最优化数据库系统的整体算网效能.最后,仿真实验验证了所提架构和算法在算网性能、算法收敛、集成代价和资源效率上均具有优越性.展开更多
大语言模型(large language model,LLM)技术热潮对数据质量的要求提升到了一个新的高度.在现实场景中,数据通常来源不同且高度相关.但由于数据隐私安全问题,跨域异质数据往往不允许集中共享,难以被LLM高效利用.鉴于此,提出了一种LLM和...大语言模型(large language model,LLM)技术热潮对数据质量的要求提升到了一个新的高度.在现实场景中,数据通常来源不同且高度相关.但由于数据隐私安全问题,跨域异质数据往往不允许集中共享,难以被LLM高效利用.鉴于此,提出了一种LLM和知识图谱(knowledge graph,KG)协同的跨域异质数据查询框架,在LLM+KG的范式下给出跨域异质数据查询的一个治理方案.为确保LLM能够适应多场景中的跨域异质数据,首先采用适配器对跨域异质数据进行融合,并构建相应的知识图谱.为提高查询效率,引入线性知识图,并提出同源知识图抽取算法HKGE来实现知识图谱的重构,可显著提高查询性能,确保跨域异质数据治理的高效性.进而,为保证多域数据查询的高可信度,提出可信候选子图匹配算法Trust HKGM,用于检验跨域同源数据的置信度计算和可信候选子图匹配,剔除低质量节点.最后,提出基于线性知识图提示的多域数据查询算法MKLGP,实现LLM+KG范式下的高效可信跨域查询.该方法在多个真实数据集上进行了广泛实验,验证了所提方法的有效性和高效性.展开更多
为了解决超万卡智算集群硬件故障多、任务训练故障率居高不下、跨域问题定位困难等稳定性保障问题,提出了一种基于数据和知识驱动的保障超万卡智算集群稳定性的方案。首先,通过异构资源一体化采集技术、分布式实时大数据抽取—转换—加...为了解决超万卡智算集群硬件故障多、任务训练故障率居高不下、跨域问题定位困难等稳定性保障问题,提出了一种基于数据和知识驱动的保障超万卡智算集群稳定性的方案。首先,通过异构资源一体化采集技术、分布式实时大数据抽取—转换—加载(extract-transform-load,ETL)技术采集集群性能数据;然后,基于改进的自注意力机制的双向长短期记忆(self-attention-based bidirectional long short-term memory,SABiLSTM)网络深度学习模型实现故障诊断;最后,通过知识图谱分析匹配诊断模型输出的结果,完成故障诊断报告的输出,提升诊断模型输出的可解释性。在深度学习模型提取时序性特征时引入特征权重系数,对不同尺度提取的特征加权融合,提高模型故障诊断精度。在基于1.8万卡智算集群故障诊断仿真实验中,损失值逐渐收敛并稳定在0.047,准确率达到了98.4%。实践表明,该稳定性保障方案能有效保障大模型训练,提升智算集群的可靠性,为未来更大规模的智算集群建设与大模型训练提供坚实的基础。展开更多
在地外天体执行遥操作任务时,在复杂约束条件下会出现多分支作业选择困难、事件属性设置复杂等现实难题。提出了一种通用型任务智能规划方法——分层规划对象模型(Hierarchical Plan Object Model,HPOM),巡视器在地外天体作业时,其分解...在地外天体执行遥操作任务时,在复杂约束条件下会出现多分支作业选择困难、事件属性设置复杂等现实难题。提出了一种通用型任务智能规划方法——分层规划对象模型(Hierarchical Plan Object Model,HPOM),巡视器在地外天体作业时,其分解为多选项作业、带约束行为、多分支指令序列、参数化虚拟指令4个层次,将带约束行为表示的计划转化为行为规划问题进行求解,获得求解方法集合。采用“人机协同迭代求解”(Human-In-The-Loop,HITL)的处理流程,生成指令序列以期实现对不同规划粒度方案的一致性验证。该方法已成功应用于“嫦娥四号”(Chang'E-4,CE-4)任务,为任务圆满成功提供了技术支撑。展开更多
文摘针对索引推荐中存在的未能利用SQL流量特征以及规则方法机械性等问题,提出一种基于DQN模型的新型双通道索引推荐模型DC-DQN(Dual Channel Deep Q-Network)。该模型将索引选择度与SQL查询类型特征通过两个单独的通道独立训练,通过全连接层进行信息融合,从而选择符合三星索引特征的候选索引。公开测试集TPC-H上的实验测试表明,DC-DQN相较增加全量索引取得几乎同样的性能提升效果,同时在构造特定查询流量下,DC-DQN相对之前的方法取得了更好的效果。
文摘海量感知数据的采集、存储和共享技术推动了物联网的兴起,其大规模应用对数据库系统提出了数据强一致和资源高效能的迫切要求.然而,现有的数据库系统架构和管控方法在保证一致性的约束下,较多采用降低传输数据量和增加节点存储副本的方式降低通信成本,缺少对系统网络资源的一体化感知和优化,从而导致数据库效能低下.为此,构建算网一体数据库系统,驱动算力资源和网络的一体化感知表征,并将智能物联网(artificial intelligence of things,AIoT)技术赋能数据库,实现算力资源和网络的联合智能调度,以降低综合成本和提升算网效能.首先,构建算网一体的分布式数据库网络,并分析其架构特点.然后,为实现计算和通信优化变量的统一表征,构建了一体化代价感知模型.并在此基础上提出了智能化的一站式资源优化算法,满足一致性时延约束的前提下,最优化数据库系统的整体算网效能.最后,仿真实验验证了所提架构和算法在算网性能、算法收敛、集成代价和资源效率上均具有优越性.
文摘为解决智算中心超大规模算力集群算力可用率低、国产技术成熟度低、大规模组网效率存在瓶颈、运营运维复杂等问题,提出了一种基于云计算技术构建智算中心万卡集群的系统。采用18432块神经网络处理单元(neural processing unit,NPU)卡和优化后的基于以太网的远程直接内存访问(remote direct memory access,RDMA)网络构建云化的智算中心万卡集群,结合软件定义网络(software defined network,SDN)技术实现RDMA网络租户隔离,实现了链路负载均衡误差小于10%,集群All-Reduce带宽达35 GB/s以上。采用优化后的分布式存储协议,实现模型断点恢复时长缩短为原来的1/2。验证结果表明,经过软硬件协同优化,国产化的NPU万卡集群不仅能够满足千亿参数大模型训练的需求,未来更可以支撑万亿参数大模型训练任务。
文摘大语言模型(large language model,LLM)技术热潮对数据质量的要求提升到了一个新的高度.在现实场景中,数据通常来源不同且高度相关.但由于数据隐私安全问题,跨域异质数据往往不允许集中共享,难以被LLM高效利用.鉴于此,提出了一种LLM和知识图谱(knowledge graph,KG)协同的跨域异质数据查询框架,在LLM+KG的范式下给出跨域异质数据查询的一个治理方案.为确保LLM能够适应多场景中的跨域异质数据,首先采用适配器对跨域异质数据进行融合,并构建相应的知识图谱.为提高查询效率,引入线性知识图,并提出同源知识图抽取算法HKGE来实现知识图谱的重构,可显著提高查询性能,确保跨域异质数据治理的高效性.进而,为保证多域数据查询的高可信度,提出可信候选子图匹配算法Trust HKGM,用于检验跨域同源数据的置信度计算和可信候选子图匹配,剔除低质量节点.最后,提出基于线性知识图提示的多域数据查询算法MKLGP,实现LLM+KG范式下的高效可信跨域查询.该方法在多个真实数据集上进行了广泛实验,验证了所提方法的有效性和高效性.
文摘为了解决超万卡智算集群硬件故障多、任务训练故障率居高不下、跨域问题定位困难等稳定性保障问题,提出了一种基于数据和知识驱动的保障超万卡智算集群稳定性的方案。首先,通过异构资源一体化采集技术、分布式实时大数据抽取—转换—加载(extract-transform-load,ETL)技术采集集群性能数据;然后,基于改进的自注意力机制的双向长短期记忆(self-attention-based bidirectional long short-term memory,SABiLSTM)网络深度学习模型实现故障诊断;最后,通过知识图谱分析匹配诊断模型输出的结果,完成故障诊断报告的输出,提升诊断模型输出的可解释性。在深度学习模型提取时序性特征时引入特征权重系数,对不同尺度提取的特征加权融合,提高模型故障诊断精度。在基于1.8万卡智算集群故障诊断仿真实验中,损失值逐渐收敛并稳定在0.047,准确率达到了98.4%。实践表明,该稳定性保障方案能有效保障大模型训练,提升智算集群的可靠性,为未来更大规模的智算集群建设与大模型训练提供坚实的基础。
文摘在地外天体执行遥操作任务时,在复杂约束条件下会出现多分支作业选择困难、事件属性设置复杂等现实难题。提出了一种通用型任务智能规划方法——分层规划对象模型(Hierarchical Plan Object Model,HPOM),巡视器在地外天体作业时,其分解为多选项作业、带约束行为、多分支指令序列、参数化虚拟指令4个层次,将带约束行为表示的计划转化为行为规划问题进行求解,获得求解方法集合。采用“人机协同迭代求解”(Human-In-The-Loop,HITL)的处理流程,生成指令序列以期实现对不同规划粒度方案的一致性验证。该方法已成功应用于“嫦娥四号”(Chang'E-4,CE-4)任务,为任务圆满成功提供了技术支撑。