-
题名可重构OCS技术在大模型预训练中的应用(特邀)
被引量:1
- 1
-
-
作者
朱宸
周谞
王佩龙
-
机构
百度在线网络技术有限公司系统部
-
出处
《光通信研究》
北大核心
2024年第5期25-34,共10页
-
文摘
【目的】相比于电子分组交换机(EPS),全光电路交换(OCS)在时延、功耗、成本和稳定性等各个方面都体现出了优势,文章通过分析大模型预训练中的并行切分策略、集合通信需求、流量模式和现今的网络架构,讨论了基于OCS在训练组网中的可行的应用方式,以在训练任务中充分利用OCS的优势。【方法】文章提出在故障快速恢复中采用多个小端口OCS进行网络设备冗余保护的机制,可在机顶(ToR)交换机故障时快速切换不中断训练任务。此外,文章还提出OCS只为数据并行(DP)服务,且仅在任务开始前进行配置。【结果】文章提出了多种可行的光电组网架构,以及在不同AllReduce算法下的具体配置,采用包括集合通信算法和架构设计联合优化的方式达到更优的带宽利用率。【结论】只要充分结合训练任务的流量模型,OCS可以很好地融入现有EPS网络架构,从成本、低功耗、低时延以及高稳定性等各方面对大模型预训练进行优化。
-
关键词
全光电路交换
可重构
光电混合网络架构
大模型预训练
集合通信
并行训练
-
Keywords
OCS
reconfigurable
opto-electro hybrid network architect
large language models pre-training
collective communication
parallel training
-
分类号
TN929
[电子电信—通信与信息系统]
-
-
题名采用深度神经网络的说话人特征提取方法
被引量:8
- 2
-
-
作者
张涛涛
陈丽萍
蒋兵
戴礼荣
-
机构
中国科学技术大学语音及语言信息处理国家工程实验室
百度在线网络技术有限公司
-
出处
《小型微型计算机系统》
CSCD
北大核心
2017年第1期142-146,共5页
-
基金
国家自然科学基金项目(61273264)资助
-
文摘
在说话人确认中,通常采用的声学特征(如MFCC,PLP特征等)包含的主要是文本信息和信道信息,说话人信息属于其中的弱信息,极易受到语音信号中的文本信息及信道、噪声等干扰的影响.针对这个问题,提出一种基于深度神经网络提取语音信号中说话人特征的方法,该方法用语音识别深度神经网络各个隐层非线性输出值来提取说话人特征.在RSR2015数据库上开展了GMM-UBM文本无关和文本相关说话人确认实验,实验结果表明本文方法提取的特征相对于传统的MFCC特征,系统等错误率(Equal Error Rate,EER)有了明显的下降.
-
关键词
说话人确认
深度神经网络
DN特征
-
Keywords
speaker verification
deep neural network
DN feature
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名图概要技术研究进展
被引量:3
- 3
-
-
作者
王雄
董一鸿
施炜杰
潘剑飞
-
机构
宁波大学信息科学与工程学院
百度在线网络技术有限公司
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2019年第6期1338-1355,共18页
-
基金
国家自然科学基金项目(61572266)
浙江省自然科学基金项目(LY16F020003)
宁波市自然科学基金项目(2017A610114)~~
-
文摘
图的概要化,简称图概要,旨在寻找一组简洁的超图或稀疏图,阐明原始图的主要结构信息或变化趋势.当前图概要的研究大多结合原始图的应用领域和背景,使用不同的概要技术构建一个特定的概要图,解决目前大图面临的信息过载、查询优化、空间压缩、影响分析、社交网络可视化等问题.对现有的图概要技术进行了汇总,以概要主要目的作为分类标准划分为基于空间压缩的图概要、基于查询优化的图概要、基于模式可视化的图概要和基于影响分析的图概要四大类,针对部分属性图和无属性图概要算法在真实数据集上进行了相关实验,并从压缩率、信息保持率、信息熵和时间进行对比分析.点明图概要的发展趋势,并指出图概要面临的挑战和可深入探索的研究方向,结合热门的深度学习技术提出了部分有价值的的宏观想法用以解决当前挑战.
-
关键词
综述
图概要
图聚集
图概化
图压缩
可视化
-
Keywords
survey
graph summarization
graph aggregation
graph synopsis
graph compression
visualization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-