AI数据中心架构的计算集群包括高性能处理器、高带宽内存HBM、动态随机存取内存DRAM 和高性能本地固态硬盘SSD,它们形成强大的AI训练引擎。设备内置内存具备高性能,通常由连接到处理器(图形处理单元GPU和中央处理单元CPU或数据处理单元DPU)的HBM 或DRAM 组成。DPU是卸载功能引擎,连接到 CPU,有助于处理特定任务。一些架构会使用DPU,而有些则不会使用。内存的高吞吐量可实现 AI 的高效数据提取和模型训练。希捷分析AI数据中心对HDD的需求指出,SSD 的低延迟和充足容量可实现快速推理和对存储内容的频繁访问。在AI数据中心架构中,高性能本地SSD包含在计算集群中,靠近处理器和内存的位置。本地SSD通常运行三级单元内存,也具有高耐用性,但通常比网络SSD更昂贵,而容量却没有网络SSD高。网络SSD具有比本地SSD更高的数据存储容量,用在存储集群中,并在整个 AI 应用工作流程中承担其他特定职责。它们的性能速度与本地 SSD的速度不一致。相对来说,网络SSD在每天硬盘写入次数方面不太耐用,但它们的容量较大,弥补了这一不足。 网络硬盘也是AI数据中心架构存储集群的一部分,是 AI 工作流中最具扩展性、最高效的 IT 设备。这些设备的访问速度相对适中,但是容量很高,非常适合不需要快速频繁访问的实例。AI 工作流在使用和创建的无限循环中运行,不仅需要支持计算的处理器和内存,还需要存储组件。AI 工作流的相互关联的步骤包括搜寻数据、训练模型、创建内容、存储内容、保留数据和重用数据。具体来说,在开始的数据搜寻阶段,网络SSD和网络硬盘用于存储创建新内容所需的大量数据。网络 SSD 充当可立即访问的数据层,提供更快的性能。网络硬盘提供充足、密集、可扩展的容量并通过长期保留和数据保护来提供原始数据。在模型训练中,HBM和DRAM 对于快速数据访问至关重要,并将活动数据集保存在处理器附近。本地SSD用作此阶段中所用数据集的快速访问存储。它们存储中间训练结果并允许快速检索大型数据集。它们对于需要快速访问大量数据的训练模型特别有用,例如涉及数百万张图像的图像识别模型。机械硬盘以经济实惠的方式存储训练AI模型所需的大量数据。除了提供所需的可扩展容量,机械硬盘还可以帮助保持数据的完整性,存储和保护已创建内容的复制版本。机械硬盘与其他存储选项相比更经济高效,可提供可靠的长期存储以及高效保存和管理大型数据集。在内容存储阶段,内容存储阶段依赖于网络SSD和网络硬盘来保存数据以用于持续优化、质量保证和合规性。网络SSD 提供速度匹配的数据层,并用于AI 生成内容的短期、高速存储。与机械硬盘相比,SSD 的容量较低,所以通常用于存储经常访问的内容或必须立即供编辑和提炼的内容。机械硬盘用于存储和保护所创建内容的复制版本,并提供关键容量,用于存储 AI 处理过程中生成的内容。机械硬盘特别适合这一用途,因为与其他存储选项(如 SSD)相比,它们以相对低的成本提供较大存储容量。在数据保存阶段,复制的数据集将跨地区和环境保留。存储的数据是值得信赖的AI的支柱,这样数据科学家才能确保模型按预期运行。而网络SSD作为性能媒介,将这些机械硬盘连接到本地SSD层,促进数据在生态系统中移动。机械硬盘是实现长期数据存储和数据保护的主要工具。它们帮助维护 AI 内容创建的结果,安全地存储生成的内容,以便在需要时访问这些内容。它们还提供高效处理不断增长的数据量所需的可扩展性。在数据重用环节,源数据、训练数据和推理数据将应用于工作流的下一次迭代。内容输出反馈到模型中,提高其准确性并推动新模型的生成。网络机械硬盘和SSD支持地理位置分散的 AI 数据创建。原始数据集和结果成为新工作流的来源。SSD 可以加速以前存储的数据的检索。低延迟访问促进了将这些数据快速重新集成到 AI 工作流中,从而减少了等待时间,并提高了整体系统效率。机械硬盘可满足 AI 数据重用阶段的大容量存储要求,从而以合理的成本实现该模型的后续迭代。