近年来,以Chat GPT为代表的大语言模型(large language model,LLM)技术发展迅速.随着模型参数规模的持续增长,构建和应用大模型对数据存储规模和存储访问效率提出了更高要求,这对传统存储系统带来了严峻挑战.首先分析了大模型在数据准...近年来,以Chat GPT为代表的大语言模型(large language model,LLM)技术发展迅速.随着模型参数规模的持续增长,构建和应用大模型对数据存储规模和存储访问效率提出了更高要求,这对传统存储系统带来了严峻挑战.首先分析了大模型在数据准备、模型训练和推理阶段的存储访问特征,深入探讨了传统存储系统在大模型场景下面临的主要问题和瓶颈.针对这些挑战,提出并实现了一种高性能、可扩展的分布式元数据设计Scale FS.通过目录树元数据与属性元数据解耦的架构设计,并结合深度与广度均衡的目录树分层分区策略设计,Scale FS实现了高效的路径解析、负载均衡和系统扩展能力,能够高效管理千亿级文件.此外,Scale FS设计了细粒度元数据结构,优化了元数据访问模式,并构建了面向文件语义优化的元数据键值存储底座,显著提升了元数据访问效率并减少了磁盘I/O操作.实验结果表明,Scale FS的每秒操作次数(operations per second,OPS)是HDFS的1.04~7.12倍,而延迟仅为HDFS的12.67%~99.55%.在千亿级文件规模下,Scale FS的大部分操作性能优于HDFS在十亿级文件规模下的表现,展现出更高的扩展性和访问效率,能够更好地满足大模型场景对千亿级文件存储及高效访问的需求.展开更多
STEP-NC是新发展的数控编程国际标准(ISO 14649),依据该标准生成的数控程序通常采用ISO10303 Part 21物理文件格式。但该格式的数控程序不但不易解释,而且不适合在网上传输。为此,提出了采用可扩展标记语言作为STEP-NC数控程序的文件格...STEP-NC是新发展的数控编程国际标准(ISO 14649),依据该标准生成的数控程序通常采用ISO10303 Part 21物理文件格式。但该格式的数控程序不但不易解释,而且不适合在网上传输。为此,提出了采用可扩展标记语言作为STEP-NC数控程序的文件格式。首先,分析了STEP-NC数据模型核心内容及ISO10303Part 21物理文件格式数控程序的缺点,研究了可扩展标记语言格式STEP-NC数控程序的生成,包括文档结构的选择、EXPRESS向可扩展标记语言的映射等,并将其作为机床控制器的输入。将机床控制器软件划分为3个模块,即可扩展标记语言形式数控程序的解释、微观工艺规划并自动生成刀具路径和控制机床运动的数控指令的生成。重点研究了可扩展标记语言数控程序的解释。展开更多
文摘STEP-NC是新发展的数控编程国际标准(ISO 14649),依据该标准生成的数控程序通常采用ISO10303 Part 21物理文件格式。但该格式的数控程序不但不易解释,而且不适合在网上传输。为此,提出了采用可扩展标记语言作为STEP-NC数控程序的文件格式。首先,分析了STEP-NC数据模型核心内容及ISO10303Part 21物理文件格式数控程序的缺点,研究了可扩展标记语言格式STEP-NC数控程序的生成,包括文档结构的选择、EXPRESS向可扩展标记语言的映射等,并将其作为机床控制器的输入。将机床控制器软件划分为3个模块,即可扩展标记语言形式数控程序的解释、微观工艺规划并自动生成刀具路径和控制机床运动的数控指令的生成。重点研究了可扩展标记语言数控程序的解释。