一直以来,算力、数据、算法作为驱动大模型发展的“三驾马车”已是行业共识,而如今伴随大模型的发展,此前Scaling Law指引下的算力竞赛是AI发展的上半场,那么以大规模应用为核心的AI落地竞赛,已然将先进存力推至产业竞争的聚光灯下。

▲平头哥半导体镇岳510 SSD主控芯片
具备大容量、低时延、高能效、高带宽、高可靠、低成本六大特性的镇岳510,既是阿里云AI存储体系的核心底座,更释放出成为AI产业存储能力升级“芯引擎”的潜力。
稳定、高效、安全的数据存储在大模型时代至关重要。
一方面,传统的冷热数据概念被颠覆,以往因访问频率低被称冷数据的信息,现在也可以在大模型场景发挥作用,大模型的精准度、泛化能力高度依赖海量、高质量且多样化的数据支撑;另一方面,其在训练阶段所需的大规模标注数据、文本图像音频等异构数据、推理过程中实时调用的动态数据、模型优化时依赖的反馈数据,都需要数据存储体系承载。
可以说,在一定程度上数据存储直接决定了大模型的发展上限与应用价值。
当下,千亿、万亿级别参数规模的大模型诞生,就意味着其训练过程可能需同时承载TB级的模型参数、PB级的训练语料及TB级的中间计算结果,还要维持在长达数月训练时间内的系统稳定,避免因中途数据丢失或损坏导致训练流程中断。
再加上大模型存储集群芯片能耗、成本控制,这意味着存储芯片的核心竞争力成为容量、速度、能效、兼容性、可靠性的多维协同。
而兼具高性能与低成本双重核心优势的平头哥镇岳510,与大模型时代数据存储在这些维度的需求高度契合。
为了更为直观对比其性能与大模型训练的需求,平头哥半导体技术服务专家杨泽宏举例说,公开数据显示GPT-3在几个月的训练时间内,GPU利用率不到40%,其中大部分时间都在进行故障恢复、数据预处理。这是当下大模型训练效率提升的一大难点。
这种兼具高可靠性与稳定性的数据存储系统,就使得AI训练集群提高GPU利用率、降低训练成本水到渠成。
这些能力的落地,背后是平头哥清晰的技术战略,将发力点集中在性能提升与容量扩大两大方向上,其本质就是破解当前存储芯片瓶颈,适配AI场景的核心需求。
首先在性能提升层面,平头哥看到了两个市场机遇。
其一是市场需求的急迫性,杨泽宏提到,性能在云存储当中有着巨大价值,特别是高性能缓存可以解决数据延迟、数据不一致等问题。
其二是傲腾技术的退出,英特尔此前宣布将彻底关停傲腾技术相关业务,这意味着业界急需一种能够解决高性能缓存需求的更优方案。
平头哥瞄准了pSLC技术,杨泽宏进一步透露,他们采用传统的TLC介质,通过固件与电压控制技术也就是仅施加高低两种电压信号,将TLC的单个存储单元切换为SLC模拟模式。
这样一来,可以提升大模型训练前数据准备的效率,因为其对数据进行清洗、格式化、标注等操作往往需要全局频繁随机读写。
其次是扩大存储容量,平头哥的策略是前瞻性布局。
杨泽宏解释说,平头哥的布局之一是提早规划、适配未来5~6年可能出现的更多介质。
目前,诸多存储介质厂商提出QLC、OLC和PLC,可以预见未来芯片单位封装的容量会持续提升,这随之而来的挑战就是,如何协同底层算法优化、负载均衡、充分发挥大容量介质的作用。
在此基础上,镇岳510和阿里云协同探索ZNS(分区命名空间)+QLC存储解决方案。
相比于现在业界主流看好的FDP方案,杨泽宏谈道,他们选择ZNS有两大原因,一是FDP无法释放冗余杂质,二是ZNS可以降低对DRAM的占用。随着存储介质迭代,单个存储单元需承载更多bit数据,导致介质本身的可靠性下降,为对冲这一风险,介质厂商趋向于提供更大OP(预留空间),而FDP无法释放OP就使得存储介质的低成本优势大打折扣。
平头哥与阿里云正深度协同合作,积极探索这一解决方案的应用。
综合来看,作为平头哥旗下首款SSD主控芯片,其于2023年11月发布至今,以阿里云数据中心为起点,正在更多AI核心场景释放价值。
大模型发展至今,可以肯定的一点是,存力的核心价值正在被重新定义,其作为AI效能的核心枢纽价值凸显。
今年8月,中国信息通信研究院发布了《先进存力中心研究报告(2025)》,其中提到我国数据生产量逐年增长,存力建设略显滞后,数据仍存在“应存未存”现象。
据《全国数据资源调查报告》所示,2023年至2024年数据年产量增速25%,数据存储总量增速为20.81%,这意味着存力缺口存在,在大模型飞速发展的同时持续强化存力建设迫在眉睫。
一开始就锚定高性能、高可靠性、低成本的镇岳510,内置RISC-V多核CPU,可以提供强大的算力支持,能适应AI、数据库、云计算等高性能应用场景,已经站上这一波先进存力竞赛的第一梯队。
而这仅仅是AI存力竞赛的起点,AI需求仍在飙涨,正迫切呼唤性能更强、容量更大、SSD容量开销更低、功耗更优的存储芯片加速诞生。
杨泽宏谈道,随着大模型应用大规模铺开,其需要降低实时推理时延、支撑更大容量,其必备的两大指标就是高带宽、大容量,未来或许可以达到一颗主控芯片实现PB级容量。
针对上文提到的超大OP趋势,其需要降低内部存储容量开销,迭代算法优化释放OP,基于片内RAID提高数据、空间的利用率。
最后是针对大型AI集群算力带来的能量损耗,针对其中数量较多的核心部件,降低SSD的功耗可以显著降低整个数据中心能源损耗。
一方面可以通过制程演进降低主控芯片本身的功率密度,另一方面可以通过先进的电源管理模块,实现低功耗模式高效运行,同时让发热量尽可能保持平稳,制冷系统的功率也相对平稳。
此前AI Infra建设多以算力规模为核心指标,而当算力密度不断增大,与之深度绑定的存力,其重要性也随之愈发凸显,成为不可忽视的关键支撑。
在大模型驱动的先进存力时代,数据的价值早已超越存储留存的基础范畴,单纯将数据存起来只是满足了AI运转的前提,而通过存储体系的优化让数据被高效利用起来,才是释放数据价值、撬动AI效能的关键。
作为存储主控芯片赛道的后来者,平头哥镇岳510短短几年已成功通过了阿里云存储和多家硬盘厂商的检验,这也意味着在存力领域,镇岳510已经拿到了一张门票。当然,这只是故事的开端,面向即将爆发的AI推理市场,镇岳还有巨大的想象空间。
