先进存力站稳AI应用落地主场！平头哥镇岳510以六大特性镇场

先进存力站稳AI应用落地主场！平头哥镇岳510以六大特性镇场图1

存力成AI应用下半场关键变量。

作者 | 程茜

编辑 | 漠影

超一个月训练时长、TB/PB级别的数据容量、行业数据的实时动态更新……这些模型训练、推理与迭代的核心流程中日益复杂的需求，都对数据存储提出了更严苛的要求。

一直以来，算力、数据、算法作为驱动大模型发展的“三驾马车”已是行业共识，而如今伴随大模型的发展，此前Scaling Law指引下的算力竞赛是AI发展的上半场，那么以大规模应用为核心的AI落地竞赛，已然将先进存力推至产业竞争的聚光灯下。

在这背后，我们看到了中国存储芯片赛道的一匹黑马——平头哥半导体的镇岳510 SSD主控芯片。

▲平头哥半导体镇岳510 SSD主控芯片

镇岳510的IO处理能力达到3400K IOPS，数据带宽达到14GB/s，能效比达到420K IOPS/Watt，其通过自研LDPC纠错算法与介质电压预测算法，误码率比业内头部产品领先1个数量级，且拥有4μs时延，比业界主流产品降低超30%以上。

具备大容量、低时延、高能效、高带宽、高可靠、低成本六大特性的镇岳510，既是阿里云AI存储体系的核心底座，更释放出成为AI产业存储能力升级“芯引擎”的潜力。

01.

AI时代冷热数据逻辑重构

镇岳510六大硬指标破局

稳定、高效、安全的数据存储在大模型时代至关重要。

一方面，传统的冷热数据概念被颠覆，以往因访问频率低被称冷数据的信息，现在也可以在大模型场景发挥作用，大模型的精准度、泛化能力高度依赖海量、高质量且多样化的数据支撑；另一方面，其在训练阶段所需的大规模标注数据、文本图像音频等异构数据、推理过程中实时调用的动态数据、模型优化时依赖的反馈数据，都需要数据存储体系承载。

可以说，在一定程度上数据存储直接决定了大模型的发展上限与应用价值。

当下，千亿、万亿级别参数规模的大模型诞生，就意味着其训练过程可能需同时承载TB级的模型参数、PB级的训练语料及TB级的中间计算结果，还要维持在长达数月训练时间内的系统稳定，避免因中途数据丢失或损坏导致训练流程中断。

再加上大模型存储集群芯片能耗、成本控制，这意味着存储芯片的核心竞争力成为容量、速度、能效、兼容性、可靠性的多维协同。

而兼具高性能与低成本双重核心优势的平头哥镇岳510，与大模型时代数据存储在这些维度的需求高度契合。

为了更为直观对比其性能与大模型训练的需求，平头哥半导体技术服务专家杨泽宏举例说，公开数据显示GPT-3在几个月的训练时间内，GPU利用率不到40%，其中大部分时间都在进行故障恢复、数据预处理。这是当下大模型训练效率提升的一大难点。

而镇岳510误码率低至10⁻¹⁸，这就意味着读取一块32TB的硬盘，一天写一遍，连续十年才出一个无法恢复的读错误。这种高可靠性尽可能地减少了因为存储出现不可恢复性错误导致的模型训练中断。

平头哥半导体产品总监周冠锋提到，虽然AI训练、推理集群当下的性能瓶颈是算力和算力密度，但存力的重要性也不断提升，算力的性能和存力能提供的IO性能之间有一定匹配关系，随着未来算力密度进一步提升、算力规模扩大，必然会要求存力密度和存力的IO性能随之提高。镇岳510拥有最大随机读带宽3400K IOPS，随机写带宽2500K IOPS，并率先实现4μs的超低时延，比业界主流降低30%以上。

这种兼具高可靠性与稳定性的数据存储系统，就使得AI训练集群提高GPU利用率、降低训练成本水到渠成。

02.

与阿里云软硬协同

为AI场景提供高容量、高性能存力

这些能力的落地，背后是平头哥清晰的技术战略，将发力点集中在性能提升与容量扩大两大方向上，其本质就是破解当前存储芯片瓶颈，适配AI场景的核心需求。

首先在性能提升层面，平头哥看到了两个市场机遇。

其一是市场需求的急迫性，杨泽宏提到，性能在云存储当中有着巨大价值，特别是高性能缓存可以解决数据延迟、数据不一致等问题。

其二是傲腾技术的退出，英特尔此前宣布将彻底关停傲腾技术相关业务，这意味着业界急需一种能够解决高性能缓存需求的更优方案。

平头哥瞄准了pSLC技术，杨泽宏进一步透露，他们采用传统的TLC介质，通过固件与电压控制技术也就是仅施加高低两种电压信号，将TLC的单个存储单元切换为SLC模拟模式。

这样一来，可以提升大模型训练前数据准备的效率，因为其对数据进行清洗、格式化、标注等操作往往需要全局频繁随机读写。

目前，基于镇岳510的pSLC在阿里云OSS上进行灰度试验，其实测发现，与傲腾相比，基于镇岳510的pSLC，随机读带宽可以提升17%，写带宽维持和傲腾介质相当的水平，相对于目前主流的TLC SSD+硬盘的混闪模式，pSLC+硬盘的组合可以提供更高的读写IOPS。与此同时，镇岳510还实现了和傲腾一致的极低写延时、近乎无限的写寿命。

其次是扩大存储容量，平头哥的策略是前瞻性布局。

杨泽宏解释说，平头哥的布局之一是提早规划、适配未来5~6年可能出现的更多介质。

目前，诸多存储介质厂商提出QLC、OLC和PLC，可以预见未来芯片单位封装的容量会持续提升，这随之而来的挑战就是，如何协同底层算法优化、负载均衡、充分发挥大容量介质的作用。

在此基础上，镇岳510和阿里云协同探索ZNS（分区命名空间）+QLC存储解决方案。

相比于现在业界主流看好的FDP方案，杨泽宏谈道，他们选择ZNS有两大原因，一是FDP无法释放冗余杂质，二是ZNS可以降低对DRAM的占用。随着存储介质迭代，单个存储单元需承载更多bit数据，导致介质本身的可靠性下降，为对冲这一风险，介质厂商趋向于提供更大OP（预留空间），而FDP无法释放OP就使得存储介质的低成本优势大打折扣。

平头哥与阿里云正深度协同合作，积极探索这一解决方案的应用。

除了AI，镇岳510在分布式存储上同样展现出强大的竞争优势，其为阿里云EBS打造了更优的混合读写QoS，实测的99%时延表现仅为使用海外两大主流竞品时延的56%和84%。

综合来看，作为平头哥旗下首款SSD主控芯片，其于2023年11月发布至今，以阿里云数据中心为起点，正在更多AI核心场景释放价值。

03.

大模型驱动存力价值升级

镇岳510瞄准四大进阶方向

大模型发展至今，可以肯定的一点是，存力的核心价值正在被重新定义，其作为AI效能的核心枢纽价值凸显。

今年8月，中国信息通信研究院发布了《先进存力中心研究报告（2025）》，其中提到我国数据生产量逐年增长，存力建设略显滞后，数据仍存在“应存未存”现象。

据《全国数据资源调查报告》所示，2023年至2024年数据年产量增速25%，数据存储总量增速为20.81%，这意味着存力缺口存在，在大模型飞速发展的同时持续强化存力建设迫在眉睫。

一开始就锚定高性能、高可靠性、低成本的镇岳510，内置RISC-V多核CPU，可以提供强大的算力支持，能适应AI、数据库、云计算等高性能应用场景，已经站上这一波先进存力竞赛的第一梯队。

而这仅仅是AI存力竞赛的起点，AI需求仍在飙涨，正迫切呼唤性能更强、容量更大、SSD容量开销更低、功耗更优的存储芯片加速诞生。

杨泽宏谈道，随着大模型应用大规模铺开，其需要降低实时推理时延、支撑更大容量，其必备的两大指标就是高带宽、大容量，未来或许可以达到一颗主控芯片实现PB级容量。

针对上文提到的超大OP趋势，其需要降低内部存储容量开销，迭代算法优化释放OP，基于片内RAID提高数据、空间的利用率。

最后是针对大型AI集群算力带来的能量损耗，针对其中数量较多的核心部件，降低SSD的功耗可以显著降低整个数据中心能源损耗。

一方面可以通过制程演进降低主控芯片本身的功率密度，另一方面可以通过先进的电源管理模块，实现低功耗模式高效运行，同时让发热量尽可能保持平稳，制冷系统的功率也相对平稳。

周冠锋补充说，目前其还在探索针对更细分场景优化产品特性，例如统一地址寻址、新CXL接口等。

但总的来看，平头哥镇岳510在先进存力竞赛上正凭借实力突围。

此前AI Infra建设多以算力规模为核心指标，而当算力密度不断增大，与之深度绑定的存力，其重要性也随之愈发凸显，成为不可忽视的关键支撑。

04.

结语：崭露头角的平头哥镇岳510

还有巨大的想象空间

在大模型驱动的先进存力时代，数据的价值早已超越存储留存的基础范畴，单纯将数据存起来只是满足了AI运转的前提，而通过存储体系的优化让数据被高效利用起来，才是释放数据价值、撬动AI效能的关键。

作为存储主控芯片赛道的后来者，平头哥镇岳510短短几年已成功通过了阿里云存储和多家硬盘厂商的检验，这也意味着在存力领域，镇岳510已经拿到了一张门票。当然，这只是故事的开端，面向即将爆发的AI推理市场，镇岳还有巨大的想象空间。