存力竞争开启,平头哥镇岳510正在成为阿里AI Infra的新基石

雷锋网 2025-09-26 19:40
存力竞争开启,平头哥镇岳510正在成为阿里AI Infra的新基石图1
存力竞争开启,平头哥镇岳510正在成为阿里AI Infra的新基石图2
 基于镇岳510的pSLC方案已在阿里云OSS开展灰度测试,平头哥与阿里云深度合作开展ZNS+QLC存储解决方案的探索。” 

作者丨刘伊伦

编辑丨包永刚
存力竞争开启,平头哥镇岳510正在成为阿里AI Infra的新基石图3


存储是保证大模型正常运行的基础。平头哥半导体产品总监周冠锋向雷峰网说到。

在大模型时代,全球正掀起大规模算力基建潮。算力、算力,还是算力的口号成为行业对这一趋势的直白概括,不少人将算力视为最核心的竞争资源。

但鲜少有人意识到,大模型从千亿参数训练到实时场景推理,每一步都需要EB级海量数据的持续供给,而这些数据的安全留存、高效调取,全依赖存储系统的稳定运行,若缺乏高质量、高可靠的存储支撑,再强大的算力也会因数据断供陷入无米之炊的困境。

这也恰恰点破了大模型时代技术基建的核心逻辑:看似聚焦算力突破的技术革命,实则离不开存储支撑的底层托举。

中国信通院最新出具的《2025先进存力研究报告》指出,我国数据生产量逐年增长,存力建设却略显滞后,数据应存未存现象凸显。

在数据产量与存储容量的规模方面,20232024年数据年产量由32.85ZB增至41.06ZB,增速达到25%,而数据存储总量仅由1.73ZB提升至2.09ZB,增速为20.81%,数据存储增量明显落后于数据生产速度,存力缺口已然出现。

国内对智算算力的消纳主要是围绕大模型的训练、推理、微调及开发,所以这并不单纯是对于计算能力的价值体现,而是算力+存力+网络运力的综合能力体现。某智算云头部厂商负责人对雷峰网表示,也正因如此,在智算中心组网方案的合理性以及如何合理消纳算力等方面,一旦出现不合理之处,在运营过程中就会面临瓶颈和问题。

某算力集群就曾因设计的计算访存比过小,导致工作负载仅维持在10%,通过优化存储的性能,该集群提高到了20%-30%的使用范围,改造设计后客户数量大幅上升。

当存力缺口成为制约算力效能释放的关键瓶颈,当存储优化对算力集群的价值已被实践验证,如何系统性弥补存力短板?如何优化存储技术以实现大规模算力集群高效运转?平头哥镇岳510,正在为这些问题提供关键解决方案。


01

镇岳510补齐阿里AI基建,

实现「算力-存力-运力」业务闭环


从政策加码到企业竞逐,AI基建已成为各国科技竞争的核心筹码。

正如阿里巴巴集团CEO吴泳铭在2025云栖大会上所指,未来五年全球AI累计投入金额将超过4万亿美元,这是人类历史上最大规模的算力与研发投入。

20252月,阿里率先宣布未来三年投入超3800亿元建设云计算和AI硬件基础设施,七个月后,吴泳铭在云栖大会上再次强调这一规划,并明确表示将追加更多投入。

真金白银的投入已落地为具体动作:仅过去四个季度,阿里在AI基础设施和产品研发上的累计投入已超1000亿元,2025年资本支出预计达1100-1200亿元,其中700-800亿元直接用于服务器采购与数据中心建设。

从扩建墨西哥、日本等地的数据中心,到首次在巴西、法国、荷兰布局云计算地域节点,阿里的算力网络正加速织密全球版图,而这背后,亟需解决算力-存力-运力的协同瓶颈。

若仅仅关注算力芯片的性能,就很容易面临内存墙等存储领域的限制,无法充分发挥集群的性能。

这种瓶颈在大模型训练与推理场景中尤为突出:训练阶段需频繁读取PB级数据集、写入TBCheckpoint(检查点)文件,推理场景中长上下文对话导致的KV缓存爆炸,都可能让GPU陷入空等数据的闲置状态。

为此,国内各大厂商纷纷发力破局镇岳510的存在,补全了阿里及合作厂商在对先进存力的需求,使数据从产生-存储-调用形成高效闭环。

作为平头哥推出的镇岳510高性能SSD主控,4μs超低时延比业界主流水平低30%以上,搭配340IOPS的超高随机读性能与14GB/s顺序读带宽,可直接为GPU提供无间断数据供给

更关键的是,它通过双向适配覆盖全场景需求:向上支持pSLC模式,降低随机读时延,适配数据准备阶段的高频随机读写;向下兼容ZNS+QLC方案,通过分区顺序写入消除垃圾回收开销,兼顾冷数据存储的大容量与低成本。


02

跻身存储主控芯片第一梯队,

镇岳510如何打造「高性能、低成本」的AI存储方案?


在阿里云大规模算力基建的实践中,存储与计算的协同效率始终是决定集群效能的核心命题。

算力集群的计算过程是把数据从存储搬运到计算单元,计算完成后其中间结果以及存力结果会返存回存力集群,存力是不是能以更大的带宽、更低的时延将数据搬运到算力单元中进行计算,将影响算力的利用率。周冠锋表示。

由于计算集群会不定时发生故障,计算过程中需要定期进行Checkpoint保存,更是对存储性能的压力测试,保存耗时越短、整个计算过程被中断的时间越少,因集群故障导致的训练中断风险就越低,业务连续性与可靠性也随之增强,从而进一步提升计算的效率。

这一逻辑在阿里云的实际运营中得到了深刻印证。

为平衡存储成本与容量需求,阿里云曾广泛采用HDD(机械硬盘)作为底层存储介质,但HDD有限的带宽与IOPS(每秒输入输出操作数),在大模型训练前的数据准备、高频次Checkpoint写入等场景中显得力不从心。

为突破瓶颈,需要在HDD上加一层缓存,以提升整个存储集群的带宽和IOPS。阿里云此前选用傲腾(Optane)作为缓存层核心,但随着傲腾的逐步停产,急需替代品作为缓存进行持续供应。

平头哥镇岳510通过对pSLC NAND(伪SLC NAND)技术的深度适配,不仅解决了阿里云的存储性能瓶颈,还规避了傲腾停产造成的供应链风险。

在云栖大会的演讲中,平头哥披露,基于镇岳510pSLC方案实现了对傲腾的性能超越,随机读带宽提升17%,随机写IOPS提升4%

更关键的是,这一方案打破了高性能必高成本的行业困境:在性能升级的同时,SSD整体成本大幅降低,完美适配了阿里云对高效能+低成本的核心诉求,高度适配大语言模型训练前的数据准备阶段。如今,这一方案已在阿里云OSS(对象存储服务)等场景中开展灰度测试,意味着其技术成熟度与场景适配性已通过初步验证,即将进入规模化应用阶段。

为了进一步提供高性能、低成本的AI存储方案,平头哥与阿里云的深度合作,开展ZNS+QLC存储解决方案的探索。QLC NAND作为高密度存储介质,虽凭借每GB更低的成本成为大规模存储场景的理想选择,但传统SSD主控对QLC的适配始终存在短板,随机写入时的写放大效应显著,不仅导致性能波动,更缩短了SSD的使用寿命,让QLC的成本优势难以充分释放。

ZNS(分区命名空间)技术的出现,为解决这一痛点提供了方向:它通过将闪存划分为独立分区,让数据按分区顺序写入,从根源上减少垃圾回收操作,但如何让ZNSQLC深度协同成了又一命题。

镇岳510针对ZNS+QLC方案进行了底层架构优化:

一方面,通过定制化的分区管理算法,让数据写入严格匹配ZNS分区的顺序特性,改善了传统方案中的空间浪费问题;

另一方面,镇岳510内置的智能磨损均衡机制,能根据QLC的擦写寿命特性,动态调整各分区的数据分布,避免单一分区过度损耗,延长QLC SSD的使用寿命。

更关键的是,这些优化并未以性能妥协为代价,完全满足AI冷数据存储、训练数据集归档等场景的性能需求。

镇岳510的价值不止于AI场景,其对分布式存储的深度支持,在阿里云EBS(弹性块存储)等核心产品中也展现出优势。

分布式存储作为云计算的底层基石,需要应对多租户、多场景的混合读写需求,对QoS(服务质量,衡量存储系统性能稳定性与可靠性的关键指标)的稳定性要求极高。

镇岳510从硬件层面重构了QoS保障机制:通过独立的读写通道设计,将随机读、顺序写、混合读写等不同任务的资源需求进行隔离,避免任务间的相互干扰;同时,内置的智能优先级调度算法,能根据 EBS 的业务场景动态分配带宽与IO资源,确保核心业务的时延优先。

平头哥在云栖大会现场的对比数据显示,在混合读写场景下,镇岳510为阿里云EBS提供99%时延表现,意为在统计周期内,存储系统处理混合读写请求时,99%的请求响应时间都能控制在某一特定时延值以内。基于镇岳510EBS混合读写QoS 99%时延仅为两款国外主流竞品时延56%84%,时延明显更短。


03

镇岳510规模化:

深耕阿里云EBS,驱动高性能SSD发展


在商业世界里,技术不是唯一,实现规模化落地才能真正释放产品的价值。

得益于背靠阿里云的天然优势,镇岳510“内部深度应用+外部生态合作的双轮驱动,从阿里云存储的” 底座走向全产业的存储解决方案

阿里云EBS作为支撑千万级云服务器的底层存储服务,是镇岳510规模化应用的关键场景之一

镇岳510通过硬件架构优化与智能调度算法,为EBS带来了全方位的性能跃升:不仅大幅提升系统的IOPS(每秒输入输出操作数)与吞吐带宽,更在读写混合场景下实现关键突破,时延较行业其他主控压缩92%同等资源条件下,有效提升承载用户的并发访问量。

在内部场景验证技术成熟度后,镇岳510核心主控芯片的身份向外延伸,与忆恒创源、得瑞领新、佰维存储等头部存储厂商达成深度合作。

忆恒创源基于镇岳510打造的PBlaze7 7A40系列企业级SSD,成为业内首款实现4K随机写入100IOPS的企业级存储产品。该系列SSD推出后,迅速切入多个应用场景,支持大规模模型训练和推理任务,优化在线交易处理(OLTP)和数据分析性能,满足金融、电商等行业需求,并且助力云服务提供商提升存储效率,降低运营成本。

依托镇岳510芯片,得瑞领新推出了首款支持PCIe5.0接口的高性能NVMe SSD,即D8000 系列,能够稳定满足 AI 训练、实时数据分析等高性能计算场景的严苛需求。

业内的技术探索从未停歇,平头哥作为专注该领域研发的重要力量,也有着清晰且长远的规划。

平头哥的存储产品线目前还是聚焦于SSD主控芯片的研发,因此平头哥存储产品线会持续开发下一代性能更强、容量更大、纠错性能更高、访问时延更低的SSD主控芯片,来解决未来AI算力增加、算力规模增大之后对存储带来的性能更高的要求。周冠锋说存力竞争开启,平头哥镇岳510正在成为阿里AI Infra的新基石图4

//

近期热门文章



存力竞争开启,平头哥镇岳510正在成为阿里AI Infra的新基石图8

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
国产AI芯片设计强,制造卡壳:中芯产能紧、三星台积电代工难
Copilot 用户狂欢!微软宣布引入 Claude 模型,OpenAI 不再被“独宠”
OpenAI全新功能ChatGPT Pulse, 难道是微信公众号的终极进化?
Meta刚从OpenAI挖走了清华校友宋飏
上海人工智能实验室与模速空间接力孵化企业,用AI赋能千行百业
先进存力站稳AI应用落地主场!平头哥镇岳510以六大特性镇场
OpenAI两位首席最新采访信息量好大!终极目标是“自动化研究员”,招人并非寻找“最出圈”的人
标志卓信亮相上海工博会,AI驱动软件创新引关注
Gemini灵魂人物加盟xAI,马斯克亲自夹道欢迎!
汽车产业关键赛道产业布局:低空飞行、AI大模型、辅助驾驶、座舱、底盘、域控等17个领域
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号