存力竞争开启，平头哥镇岳510正在成为阿里AI Infra的新基石

“ 基于镇岳510的pSLC方案已在阿里云OSS开展灰度测试，平头哥与阿里云深度合作开展ZNS+QLC存储解决方案的探索。”

作者丨刘伊伦

编辑丨包永刚

“存储是保证大模型正常运行的基础。”平头哥半导体产品总监周冠锋向雷峰网说到。

在大模型时代，全球正掀起大规模算力基建潮。“算力、算力，还是算力”的口号成为行业对这一趋势的直白概括，不少人将算力视为最核心的竞争资源。

但鲜少有人意识到，大模型从千亿参数训练到实时场景推理，每一步都需要EB级海量数据的持续供给，而这些数据的安全留存、高效调取，全依赖存储系统的稳定运行，若缺乏高质量、高可靠的存储支撑，再强大的算力也会因“数据断供”陷入“无米之炊”的困境。

这也恰恰点破了大模型时代技术基建的核心逻辑：看似聚焦“算力突破”的技术革命，实则离不开“存储支撑”的底层托举。

中国信通院最新出具的《2025先进存力研究报告》指出，我国数据生产量逐年增长，存力建设却略显滞后，数据“应存未存”现象凸显。

在数据产量与存储容量的规模方面，2023至2024年数据年产量由32.85ZB增至41.06ZB，增速达到25%，而数据存储总量仅由1.73ZB提升至2.09ZB，增速为20.81%，数据存储增量明显落后于数据生产速度，存力缺口已然出现。

“国内对智算算力的消纳主要是围绕大模型的训练、推理、微调及开发，所以这并不单纯是对于计算能力的价值体现，而是算力+存力+网络运力的综合能力体现。”某智算云头部厂商负责人对雷峰网表示，也正因如此，在智算中心组网方案的合理性以及如何合理消纳算力等方面，一旦出现不合理之处，在运营过程中就会面临瓶颈和问题。

某算力集群就曾因设计的计算访存比过小，导致工作负载仅维持在10%，通过优化存储的性能，该集群提高到了20%-30%的使用范围，改造设计后客户数量大幅上升。

当存力缺口成为制约算力效能释放的关键瓶颈，当存储优化对算力集群的价值已被实践验证，如何系统性弥补存力短板？如何优化存储技术以实现大规模算力集群高效运转？平头哥镇岳510，正在为这些问题提供关键解决方案。

镇岳510补齐阿里AI基建，

实现「算力-存力-运力」业务闭环

从政策加码到企业竞逐，AI基建已成为各国科技竞争的核心筹码。

正如阿里巴巴集团CEO吴泳铭在2025云栖大会上所指，未来五年全球AI累计投入金额将超过4万亿美元，这是人类历史上最大规模的算力与研发投入。

2025年2月，阿里率先宣布未来三年投入超3800亿元建设云计算和AI硬件基础设施，七个月后，吴泳铭在云栖大会上再次强调这一规划，并明确表示将追加更多投入。

真金白银的投入已落地为具体动作：仅过去四个季度，阿里在AI基础设施和产品研发上的累计投入已超1000亿元，2025年资本支出预计达1100-1200亿元，其中700-800亿元直接用于服务器采购与数据中心建设。

从扩建墨西哥、日本等地的数据中心，到首次在巴西、法国、荷兰布局云计算地域节点，阿里的算力网络正加速织密全球版图，而这背后，亟需解决“算力-存力-运力”的协同瓶颈。

若仅仅关注算力芯片的性能，就很容易面临“内存墙”等存储领域的限制，无法充分发挥集群的性能。

这种瓶颈在大模型训练与推理场景中尤为突出：训练阶段需频繁读取PB级数据集、写入TB级Checkpoint（检查点）文件，推理场景中长上下文对话导致的KV缓存爆炸，都可能让GPU陷入“空等数据”的闲置状态。

为此，国内各大厂商纷纷发力破局，镇岳510的存在，补全了阿里及合作厂商在对先进存力的需求，使数据从“产生-存储-调用”形成高效闭环。

作为平头哥推出的镇岳510高性能SSD主控，其4μs超低时延比业界主流水平低30%以上，搭配340万IOPS的超高随机读性能与14GB/s顺序读带宽，可直接为GPU提供“无间断数据供给”。

更关键的是，它通过“双向适配”覆盖全场景需求：向上支持pSLC模式，降低随机读时延，适配数据准备阶段的高频随机读写；向下兼容ZNS+QLC方案，通过分区顺序写入消除垃圾回收开销，兼顾冷数据存储的大容量与低成本。

跻身存储主控芯片第一梯队，
镇岳510如何打造「高性能、低成本」的AI存储方案？

在阿里云大规模算力基建的实践中，存储与计算的协同效率始终是决定集群效能的核心命题。

“算力集群的计算过程是把数据从存储搬运到计算单元，计算完成后其中间结果以及存力结果会返存回存力集群，存力是不是能以更大的带宽、更低的时延将数据搬运到算力单元中进行计算，将影响算力的利用率。”周冠锋表示。

由于计算集群会不定时发生故障，计算过程中需要定期进行Checkpoint保存，更是对存储性能的“压力测试”，保存耗时越短、整个计算过程被中断的时间越少，因集群故障导致的训练中断风险就越低，业务连续性与可靠性也随之增强，从而进一步提升计算的效率。

这一逻辑在阿里云的实际运营中得到了深刻印证。

为平衡存储成本与容量需求，阿里云曾广泛采用HDD（机械硬盘）作为底层存储介质，但HDD有限的带宽与IOPS（每秒输入输出操作数），在大模型训练前的数据准备、高频次Checkpoint写入等场景中显得力不从心。

为突破瓶颈，需要在HDD上加一层缓存，以提升整个存储集群的带宽和IOPS。阿里云此前选用傲腾（Optane）作为缓存层核心，但随着傲腾的逐步停产，急需替代品作为缓存进行持续供应。

平头哥镇岳510通过对pSLC NAND（伪SLC NAND）技术的深度适配，不仅解决了阿里云的存储性能瓶颈，还规避了傲腾停产造成的供应链风险。

在云栖大会的演讲中，平头哥披露，基于镇岳510的pSLC方案实现了对傲腾的性能超越，随机读带宽提升17%，随机写IOPS提升4%。

更关键的是，这一方案打破了“高性能必高成本”的行业困境：在性能升级的同时，SSD整体成本大幅降低，完美适配了阿里云对“高效能+低成本”的核心诉求，高度适配大语言模型训练前的数据准备阶段。如今，这一方案已在阿里云OSS（对象存储服务）等场景中开展灰度测试，意味着其技术成熟度与场景适配性已通过初步验证，即将进入规模化应用阶段。

为了进一步提供高性能、低成本的AI存储方案，平头哥与阿里云的深度合作，开展ZNS+QLC存储解决方案的探索。QLC NAND作为高密度存储介质，虽凭借每GB更低的成本成为大规模存储场景的理想选择，但传统SSD主控对QLC的适配始终存在短板，随机写入时的写放大效应显著，不仅导致性能波动，更缩短了SSD的使用寿命，让QLC的成本优势难以充分释放。

而ZNS（分区命名空间）技术的出现，为解决这一痛点提供了方向：它通过将闪存划分为独立分区，让数据按分区顺序写入，从根源上减少垃圾回收操作，但如何让ZNS与QLC深度协同成了又一命题。

镇岳510针对ZNS+QLC方案进行了底层架构优化：

一方面，通过定制化的分区管理算法，让数据写入严格匹配ZNS分区的顺序特性，改善了传统方案中的空间浪费问题；

另一方面，镇岳510内置的智能磨损均衡机制，能根据QLC的擦写寿命特性，动态调整各分区的数据分布，避免单一分区过度损耗，延长QLC SSD的使用寿命。

更关键的是，这些优化并未以性能妥协为代价，完全满足AI冷数据存储、训练数据集归档等场景的性能需求。

镇岳510的价值不止于AI场景，其对分布式存储的深度支持，在阿里云EBS（弹性块存储）等核心产品中也展现出优势。

分布式存储作为云计算的底层基石，需要应对多租户、多场景的混合读写需求，对QoS（服务质量，衡量存储系统性能稳定性与可靠性的关键指标）的稳定性要求极高。

镇岳510从硬件层面重构了QoS保障机制：通过独立的读写通道设计，将随机读、顺序写、混合读写等不同任务的资源需求进行隔离，避免任务间的相互干扰；同时，内置的智能优先级调度算法，能根据 EBS 的业务场景动态分配带宽与IO资源，确保核心业务的时延优先。

平头哥在云栖大会现场的对比数据显示，在混合读写场景下，镇岳510为阿里云EBS提供99%时延表现，意为在统计周期内，存储系统处理混合读写请求时，99%的请求响应时间都能控制在某一特定时延值以内。基于镇岳510的EBS混合读写QoS 99%时延仅为两款国外主流竞品时延的56%和84%，时延明显更短。

镇岳510规模化：

深耕阿里云EBS，驱动高性能SSD发展

在商业世界里，技术不是唯一，实现规模化落地才能真正释放产品的价值。

得益于背靠阿里云的天然优势，镇岳510以“内部深度应用+外部生态合作”的双轮驱动，从阿里云存储的“芯” 底座走向全产业的存储解决方案

阿里云EBS作为支撑千万级云服务器的底层存储服务，是镇岳510规模化应用的关键场景之一。

镇岳510通过硬件架构优化与智能调度算法，为EBS带来了全方位的性能跃升：不仅大幅提升系统的IOPS（每秒输入输出操作数）与吞吐带宽，更在读写混合场景下实现关键突破，时延较行业其他主控压缩92%，同等资源条件下，有效提升承载用户的并发访问量。

在内部场景验证技术成熟度后，镇岳510以“核心主控芯片”的身份向外延伸，与忆恒创源、得瑞领新、佰维存储等头部存储厂商达成深度合作。

忆恒创源基于镇岳510打造的PBlaze7 7A40系列企业级SSD，成为业内首款实现4K随机写入100万IOPS的企业级存储产品。该系列SSD推出后，迅速切入多个应用场景，支持大规模模型训练和推理任务，优化在线交易处理（OLTP）和数据分析性能，满足金融、电商等行业需求，并且助力云服务提供商提升存储效率，降低运营成本。

依托镇岳510芯片，得瑞领新推出了首款支持PCIe5.0接口的高性能NVMe SSD，即D8000 系列，能够稳定满足 AI 训练、实时数据分析等高性能计算场景的严苛需求。

行业内的技术探索从未停歇，平头哥作为专注该领域研发的重要力量，也有着清晰且长远的规划。

“平头哥的存储产品线目前还是聚焦于SSD主控芯片的研发，因此平头哥存储产品线会持续开发下一代性能更强、容量更大、纠错性能更高、访问时延更低的SSD主控芯片，来解决未来AI算力增加、算力规模增大之后对存储带来的性能更高的要求。”周冠锋说道。存力竞争开启，平头哥镇岳510正在成为阿里AI Infra的新基石图4