

作者丨刘伊伦
“存储是保证大模型正常运行的基础。”平头哥半导体产品总监周冠锋向雷峰网说到。
在大模型时代,全球正掀起大规模算力基建潮。“算力、算力,还是算力”的口号成为行业对这一趋势的直白概括,不少人将算力视为最核心的竞争资源。
但鲜少有人意识到,大模型从千亿参数训练到实时场景推理,每一步都需要EB级海量数据的持续供给,而这些数据的安全留存、高效调取,全依赖存储系统的稳定运行,若缺乏高质量、高可靠的存储支撑,再强大的算力也会因“数据断供”陷入“无米之炊”的困境。
这也恰恰点破了大模型时代技术基建的核心逻辑:看似聚焦“算力突破”的技术革命,实则离不开“存储支撑”的底层托举。
中国信通院最新出具的《2025先进存力研究报告》指出,我国数据生产量逐年增长,存力建设却略显滞后,数据“应存未存”现象凸显。
在数据产量与存储容量的规模方面,2023至2024年数据年产量由32.85ZB增至41.06ZB,增速达到25%,而数据存储总量仅由1.73ZB提升至2.09ZB,增速为20.81%,数据存储增量明显落后于数据生产速度,存力缺口已然出现。
“国内对智算算力的消纳主要是围绕大模型的训练、推理、微调及开发,所以这并不单纯是对于计算能力的价值体现,而是算力+存力+网络运力的综合能力体现。”某智算云头部厂商负责人对雷峰网表示,也正因如此,在智算中心组网方案的合理性以及如何合理消纳算力等方面,一旦出现不合理之处,在运营过程中就会面临瓶颈和问题。
某算力集群就曾因设计的计算访存比过小,导致工作负载仅维持在10%,通过优化存储的性能,该集群提高到了20%-30%的使用范围,改造设计后客户数量大幅上升。
当存力缺口成为制约算力效能释放的关键瓶颈,当存储优化对算力集群的价值已被实践验证,如何系统性弥补存力短板?如何优化存储技术以实现大规模算力集群高效运转?平头哥镇岳510,正在为这些问题提供关键解决方案。
镇岳510补齐阿里AI基建,
实现「算力-存力-运力」业务闭环
从政策加码到企业竞逐,AI基建已成为各国科技竞争的核心筹码。
正如阿里巴巴集团CEO吴泳铭在2025云栖大会上所指,未来五年全球AI累计投入金额将超过4万亿美元,这是人类历史上最大规模的算力与研发投入。
2025年2月,阿里率先宣布未来三年投入超3800亿元建设云计算和AI硬件基础设施,七个月后,吴泳铭在云栖大会上再次强调这一规划,并明确表示将追加更多投入。
真金白银的投入已落地为具体动作:仅过去四个季度,阿里在AI基础设施和产品研发上的累计投入已超1000亿元,2025年资本支出预计达1100-1200亿元,其中700-800亿元直接用于服务器采购与数据中心建设。
从扩建墨西哥、日本等地的数据中心,到首次在巴西、法国、荷兰布局云计算地域节点,阿里的算力网络正加速织密全球版图,而这背后,亟需解决“算力-存力-运力”的协同瓶颈。
若仅仅关注算力芯片的性能,就很容易面临“内存墙”等存储领域的限制,无法充分发挥集群的性能。
这种瓶颈在大模型训练与推理场景中尤为突出:训练阶段需频繁读取PB级数据集、写入TB级Checkpoint(检查点)文件,推理场景中长上下文对话导致的KV缓存爆炸,都可能让GPU陷入“空等数据”的闲置状态。
为此,国内各大厂商纷纷发力破局,镇岳510的存在,补全了阿里及合作厂商在对先进存力的需求,使数据从“产生-存储-调用”形成高效闭环。
作为平头哥推出的镇岳510高性能SSD主控,其4μs超低时延比业界主流水平低30%以上,搭配340万IOPS的超高随机读性能与14GB/s顺序读带宽,可直接为GPU提供“无间断数据供给”。
更关键的是,它通过“双向适配”覆盖全场景需求:向上支持pSLC模式,降低随机读时延,适配数据准备阶段的高频随机读写;向下兼容ZNS+QLC方案,通过分区顺序写入消除垃圾回收开销,兼顾冷数据存储的大容量与低成本。
跻身存储主控芯片第一梯队,镇岳510如何打造「高性能、低成本」的AI存储方案?
在阿里云大规模算力基建的实践中,存储与计算的协同效率始终是决定集群效能的核心命题。
“算力集群的计算过程是把数据从存储搬运到计算单元,计算完成后其中间结果以及存力结果会返存回存力集群,存力是不是能以更大的带宽、更低的时延将数据搬运到算力单元中进行计算,将影响算力的利用率。”周冠锋表示。
由于计算集群会不定时发生故障,计算过程中需要定期进行Checkpoint保存,更是对存储性能的“压力测试”,保存耗时越短、整个计算过程被中断的时间越少,因集群故障导致的训练中断风险就越低,业务连续性与可靠性也随之增强,从而进一步提升计算的效率。
这一逻辑在阿里云的实际运营中得到了深刻印证。
为平衡存储成本与容量需求,阿里云曾广泛采用HDD(机械硬盘)作为底层存储介质,但HDD有限的带宽与IOPS(每秒输入输出操作数),在大模型训练前的数据准备、高频次Checkpoint写入等场景中显得力不从心。
为突破瓶颈,需要在HDD上加一层缓存,以提升整个存储集群的带宽和IOPS。阿里云此前选用傲腾(Optane)作为缓存层核心,但随着傲腾的逐步停产,急需替代品作为缓存进行持续供应。
平头哥镇岳510通过对pSLC NAND(伪SLC NAND)技术的深度适配,不仅解决了阿里云的存储性能瓶颈,还规避了傲腾停产造成的供应链风险。
在云栖大会的演讲中,平头哥披露,基于镇岳510的pSLC方案实现了对傲腾的性能超越,随机读带宽提升17%,随机写IOPS提升4%。
更关键的是,这一方案打破了“高性能必高成本”的行业困境:在性能升级的同时,SSD整体成本大幅降低,完美适配了阿里云对“高效能+低成本”的核心诉求,高度适配大语言模型训练前的数据准备阶段。如今,这一方案已在阿里云OSS(对象存储服务)等场景中开展灰度测试,意味着其技术成熟度与场景适配性已通过初步验证,即将进入规模化应用阶段。
为了进一步提供高性能、低成本的AI存储方案,平头哥与阿里云的深度合作,开展ZNS+QLC存储解决方案的探索。QLC NAND作为高密度存储介质,虽凭借每GB更低的成本成为大规模存储场景的理想选择,但传统SSD主控对QLC的适配始终存在短板,随机写入时的写放大效应显著,不仅导致性能波动,更缩短了SSD的使用寿命,让QLC的成本优势难以充分释放。
而ZNS(分区命名空间)技术的出现,为解决这一痛点提供了方向:它通过将闪存划分为独立分区,让数据按分区顺序写入,从根源上减少垃圾回收操作,但如何让ZNS与QLC深度协同成了又一命题。
镇岳510针对ZNS+QLC方案进行了底层架构优化:
一方面,通过定制化的分区管理算法,让数据写入严格匹配ZNS分区的顺序特性,改善了传统方案中的空间浪费问题;
另一方面,镇岳510内置的智能磨损均衡机制,能根据QLC的擦写寿命特性,动态调整各分区的数据分布,避免单一分区过度损耗,延长QLC SSD的使用寿命。
更关键的是,这些优化并未以性能妥协为代价,完全满足AI冷数据存储、训练数据集归档等场景的性能需求。
镇岳510的价值不止于AI场景,其对分布式存储的深度支持,在阿里云EBS(弹性块存储)等核心产品中也展现出优势。
分布式存储作为云计算的底层基石,需要应对多租户、多场景的混合读写需求,对QoS(服务质量,衡量存储系统性能稳定性与可靠性的关键指标)的稳定性要求极高。
镇岳510从硬件层面重构了QoS保障机制:通过独立的读写通道设计,将随机读、顺序写、混合读写等不同任务的资源需求进行隔离,避免任务间的相互干扰;同时,内置的智能优先级调度算法,能根据 EBS 的业务场景动态分配带宽与IO资源,确保核心业务的时延优先。
平头哥在云栖大会现场的对比数据显示,在混合读写场景下,镇岳510为阿里云EBS提供99%时延表现,意为在统计周期内,存储系统处理混合读写请求时,99%的请求响应时间都能控制在某一特定时延值以内。基于镇岳510的EBS混合读写QoS 99%时延仅为两款国外主流竞品时延的56%和84%,时延明显更短。
镇岳510规模化:
深耕阿里云EBS,驱动高性能SSD发展
在商业世界里,技术不是唯一,实现规模化落地才能真正释放产品的价值。
得益于背靠阿里云的天然优势,镇岳510以“内部深度应用+外部生态合作”的双轮驱动,从阿里云存储的“芯” 底座走向全产业的存储解决方案
阿里云EBS作为支撑千万级云服务器的底层存储服务,是镇岳510规模化应用的关键场景之一。
镇岳510通过硬件架构优化与智能调度算法,为EBS带来了全方位的性能跃升:不仅大幅提升系统的IOPS(每秒输入输出操作数)与吞吐带宽,更在读写混合场景下实现关键突破,时延较行业其他主控压缩92%,同等资源条件下,有效提升承载用户的并发访问量。
在内部场景验证技术成熟度后,镇岳510以“核心主控芯片”的身份向外延伸,与忆恒创源、得瑞领新、佰维存储等头部存储厂商达成深度合作。
忆恒创源基于镇岳510打造的PBlaze7 7A40系列企业级SSD,成为业内首款实现4K随机写入100万IOPS的企业级存储产品。该系列SSD推出后,迅速切入多个应用场景,支持大规模模型训练和推理任务,优化在线交易处理(OLTP)和数据分析性能,满足金融、电商等行业需求,并且助力云服务提供商提升存储效率,降低运营成本。
依托镇岳510芯片,得瑞领新推出了首款支持PCIe5.0接口的高性能NVMe SSD,即D8000 系列,能够稳定满足 AI 训练、实时数据分析等高性能计算场景的严苛需求。
行业内的技术探索从未停歇,平头哥作为专注该领域研发的重要力量,也有着清晰且长远的规划。
“平头哥的存储产品线目前还是聚焦于SSD主控芯片的研发,因此平头哥存储产品线会持续开发下一代性能更强、容量更大、纠错性能更高、访问时延更低的SSD主控芯片,来解决未来AI算力增加、算力规模增大之后对存储带来的性能更高的要求。”周冠锋说道。
