国产AI芯片,用3D堆叠“弯道超车”

电子工程世界 2026-06-30 08:00

在半导体行业,3D+混合键合”一直是确定的发展方向。而在前阵子,“韬定律”又继续引发了人们对于这一路线的关注,其核心观点在于,未来半导体性能提升不仅依赖晶体管几何尺寸微缩,还需要通过时间尺度优化来降低延迟、提升能效。

AI芯片设计商博通(AVGO也在近期表示,预计到2027年,基于其3D堆叠芯片技术的出货量将至少达到100 万颗。

国内厂商也看到了3D堆叠技术在当下AI爆火下的机遇。在当下EUV被限制,摩尔定律又在放缓的前提下,3D堆叠成为了一个好路线,一个又一个国内厂商开始公布自己的产品和未来计划。


国产AI芯片,用3D堆叠“弯道超车”图1


算苗科技:3D DRAM+混合键合+RISC-V



近期,一家国产3D架构AI云端大算力芯片公司算苗科技提出3D TokenPU概念,即原生面向Token处理的新型处理器。EEWorld获悉,该公司第一代TokenPU产品A4E已流片,正式进入制造阶段。第二代产品A4S也已完成架构定义,预计将在20272月底前后启动流片,形成一代流片、一代定义的迭代节奏。公司选择了全国产化供应链,从设计到IP到制造到封装,基于RISC-V自研架构和成熟国产工艺。

A4E通过将8层存储晶圆垂直堆叠在计算逻辑晶圆之上,并利用硅通孔(TSV)和凸点(Bump)技术实现微米级互联,大幅缩短数据传输路径。相较于传统芯片间毫米级互连,其传输距离降低两个数量级,带来更高的访存带宽和数据交换效率,为大模型推理提供充足的数据供给,有效破解数据饥饿难题。

“大模型时代最核心的技术挑战并非计算单元本身,而是内存带宽瓶颈。”算苗科技创始人&CEO汪福全向EEWorld表示,随着模型参数规模不断扩大,数据搬运逐渐成为制约系统性能的关键因素。据了解,英伟达H100AI推理时,高达70%计算单元在空转,等待数据从内存中搬运过来。过去20年,摩尔定律驱动计算能力增长了60000倍,而内存带宽仅仅增长了100倍。

国产AI芯片,用3D堆叠“弯道超车”图2

算苗科技是国内最早布局3D混合键合算力芯片的团队之一,为了突破这一瓶颈,算苗团队核心成员从2019年开始探索3D混合键合技术,并最终通过3D堆叠架构实现超高带宽互连。

算苗科技把内存芯片直接盖在了计算核心的楼上(缩短搬运距离),并且修建了数百万部垂直电梯,原材料可以快速搬运到工厂的各个角落,不再受限于大门宽度,从而实现1632TB/s的带宽。同时,算苗科技设计的工厂(计算芯片)是专门用于推理AI大模型的(专用芯片),因此可以用更少的设备(12nm工艺)来实现更高的推理性能。

国产AI芯片,用3D堆叠“弯道超车”图3

当下AI芯片路线非常多,对于这些芯片来说内存选择至关重要,比如GPU/NPU搭载HBMLPU搭载SRAM、存算一体芯片搭载RRAM

相比传统HBM方案,3D混合键合能够通过上百万级互连实现更高的数据传输效率。HBM本身已经是高带宽存储的重要创新,但其依然受制于标准总线架构,而3D混合键合则采用面向特定场景的极致优化思路,从根本上突破传统架构限制。

基于这一判断,算苗科技将技术路线聚焦于3D DRAM集成与能效优化。来解决“内存墙”对于AI大模型计算的制约。目前3D DRAM的带宽可达到32TB/s,相当于英伟达B2004倍。而算苗科技的研发重点,就是要将高带宽转化为实实在在的推理性能。

汪福全强调,在光计算、存算一体等下一代技术尚未成熟之前,3D混合键合是当前唯一具备大规模量产能力、能够显著提升AI算力效率的现实路径。

目前,公司已累计融资近10亿元,其中约三分之一来自国资背景资本,其余主要来自产业资本及金融机构。


国产AI芯片,用3D堆叠“弯道超车”图4


快手拆分的凌川科技:3D近存储架构



快手拆分芯片团队成立的凌川科技下一代芯片已于今年4月完成流片,采用全国产3D堆叠技术,首创3D近存架构,针对散热、一致性、可靠性等行业关键痛点做了专项优化设计。该芯片与当前业界普遍认同的“韬定律”所倡导的3D堆叠、系统协同优化方向一致。

凌川科技前身为快手异构计算与芯片事业部,20243月正式独立运营,由北京市人工智能基金与快手集团共同发起设立。624日完成数亿元A+轮融资。其首款芯片SL200已累计销售近十万颗,部署至快手、阿里云、百度云、B站等互联网公司,覆盖快手99.7%直播转码业务,稳定服务7亿用户。

值得注意的是,这家公司也是RISC-V赛道的玩家,推出创新性延迟确定性DiPUDeterministic Inference PU)架构。

国产AI芯片,用3D堆叠“弯道超车”图5


国产AI芯片,用3D堆叠“弯道超车”图6


瑞芯微:3D堆叠封装的RISC-V+NPU协处理器



今年1月,瑞芯微再次介绍了其业内首款3D堆叠封装AI芯片——RK182X系列AI协处理器,并首次公布了两款产品的具体型号:RK1820RK1828。其中,RK1820配备2.5GB存储带宽,提供20TOPS算力,RK1828则提升至5GB。官方表示,相比明星产品RK3588RK182X系列带宽提升约30倍,可显著降低数据传输功耗,同时兼具高性能、低时延、高吞吐和高精度等优势。

RK182X采用3D堆叠封装架构设计,计算层为2×4多核Mesh结构,并叠加12DRAM存储层,层间通过数万个IO实现高速互联。芯片支持W4A16等大语言模型数据格式,可满足本地部署3B7B等大模型及多模态AI应用需求。

根据瑞芯微介绍,3D堆叠封装把多颗芯片垂直互连,像盖高楼一样“叠”成一颗,用极短的硅中介孔替代传统走线,可把带宽提升10倍、功耗降低30%、面积缩小50%,同时实现异构集成(逻辑+存储+射频+感测),在同样封装体积内塞下更多晶体管,为AI算力、存储密度和移动终端续航同时“加料”却不“加体积”。

未来RK182X系列将持续围绕四个方向演进:一是增加DRAM或其他类型存储,进一步扩展容量;二是升级计算层制程工艺;三是优化芯片间及与主SoC之间的高速互联;四是持续提升计算单元效率。

后续,瑞芯微还将推出算力达到64TOPSRK1860,其将在算力、存储容量、模型支持、视频解码能力以及能效方面全面升级,可支持最高13B参数模型,并提供2.5GB5GB10GB等不同存储版本,同时支持LPDDR扩展和多芯片级联运行。更长远来看,瑞芯微路线图中还规划了一款算力高达250TOPSRK1899,不过具体发布时间尚未公布。

国产AI芯片,用3D堆叠“弯道超车”图7


国产AI芯片,用3D堆叠“弯道超车”图8


清微智能:3D可重构AI芯片



清微智能作为源自清华大学的全球可重构架构计算领导者,也在布局3D芯片。据了解,清微智能在3D可重构AI架构技术方面布局较早,有充足专利储备,并且正加速整合国内相关产业链。

2019年,清微智能和清华大学团队就开展了3D可重构AI架构相关研究,自20231月开始,清微智能在中美进行3D芯片相关的大量专利布局。产业层面,清微智能正在与清华大学、智源研究院、智谱等上下游产业链机构共同构建国产AI生态。

2024年计算机体系结构领域顶会ISCA上,清华大学集成电路学院团队发表论文,首次通过混合键合技术实现逻辑芯片与DRAM3D可重构,构建了具有超高带宽的三维DRAM存算一体架构,从而提升AI芯片算力能效和面积效率。与最先进的2D/2.5D AI加速器相比,新架构的平均能效提升2.89倍至14.28倍,面积效率提升2.67倍至7.68倍。引入聚类相似效应(Clustering Similarity Effect)优化后,能效和面积效率的提升分别为5.69-28.13倍,以及3.82-10.98倍。

国产AI芯片,用3D堆叠“弯道超车”图9

2026中关村论坛,清微首次展出第二代3D可重构芯片,并宣布该芯片即将流片量产。该芯片创新性采用3D存算一体四芯Chiplet集成技术,将传统芯片2D平面单车道传输模式,升级为“算力4车道+ 4层存储高架”的立体架构,大幅提升数据吞吐效率与算力密度,在性能、能效、灵活性上形成显著优势。

资本方面,2025年底清微智能完成C轮超20亿元融资,20263月正式启动IPO进程。


国产AI芯片,用3D堆叠“弯道超车”图10


光羽芯辰:3D堆叠近存算+LPU+RISC-V



光羽芯辰也是最近很火热的一个公司,根据中航证券研究报告,光羽芯辰由兆易创新、燧原科技等企业联合成立,聚焦大模型端侧AI芯片研发。公司采用3D堆叠技术路线,融合燧原科技在AI计算架构方面的技术优势,以及兆易创新在DRAM存储领域的积累,致力于打造面向端侧大模型应用的新一代AI芯片。

光羽芯辰提出并采用EdgeAlon架构(创新的3D堆叠和存算一体融合技术),实现逻辑芯片与存储芯片深度耦合,搭配自研高能效端侧NPU3D SoC全栈设计,将算力效率提升10倍、功耗显著下降,打破算力传输壁垒,运行大模型的速度更可达每秒200 Token以上。该方案完美适配端侧大模型本地化运行、实时交互的核心需求,填补了国内高端端侧AI芯片的技术空白。

目前,公司首款芯片已成功流片并与多家头部客户深度协同,有望于2026年底商业化量产,抢占万亿端侧AI市场先机。

这家公司主要有四个关键技术:

第一是3D 堆叠近存算技术。针对大模型推理面临的带宽瓶颈,光羽芯辰开发了基于3D DRAM的近存算架构。通过3D堆叠技术,将NPU计算核心与DRAM存储垂直集成,显著缩短数据传输路径,大幅提升存储带宽利用率。同时,公司结合自研的分布式计算—分布式存储耦合架构、多层片上网络(NoC)和智能数据调度机制,充分利用3D堆叠带来的数万级垂直互联通道,使高带宽能够高效转化为计算吞吐,从而提升大模型推理效率。

第二是SRAM存算技术。光羽芯辰针对VLA模型中计算密集型的矩阵运算,在NPU中集成CIM加速引擎。基于高密度SRAM存算单元实现“存中计算”能力,大幅降低功耗与延迟,显著提升了端侧AI推理计算的能效比。

国产AI芯片,用3D堆叠“弯道超车”图11

第三是LPU 流式处理架构。光羽芯辰早在2024年便前瞻性布局并投入研发,目前已在首颗芯片中实现工程化落地。该架构高效支持FFN(前馈神经网络)运算,为端侧大模型的高效推理提供架构支撑。

国产AI芯片,用3D堆叠“弯道超车”图12

第四是RISC-V AI 软件架构。光羽芯辰基于RISC-V开源指令集架构,打造了一套类CUDA兼容的可编程计算平台。该架构兼具专用NPU的高效性与通用GPU的灵活性:RISC-V核心负责控制流调度与通用计算任务,NPU专用单元负责矩阵运算等密集型计算,两者通过高速片上总线实现紧耦合通信。这一架构既保留了RISC-V开源开放、可扩展性强的优势,又通过专用加速单元确保了大模型推理的高效性。


国产AI芯片,用3D堆叠“弯道超车”图13


迈特芯:3D-DRAM近存算的3D-LPU



迈特芯的端侧大模型AI协处理器芯片走得也是3D堆叠路线,其提出了基于3D DRAM近存计算的3D分布式TPU3D-LPU)技术路线,希望从架构层面解决端侧AI芯片在功耗、算力、成本以及存储带宽之间的平衡难题。

3D-LPU采用立方脉动计算(Cubic Systolic)、3D分布式IO直连等关键技术,通过将计算单元与存储进行垂直集成,大幅提升数据传输效率。芯片带宽可达到600GB/s,带宽利用率约80%,远高于传统2D NoC架构;互连能耗降至0.81.5pJ/bit,整体功耗降低至约3.87.2W,互连时延也缩短至5ns以内。

数据显示,该方案平均功耗约5W,可实现80100 tokens/s的推理速度,词元能效比相比同类产品提升约10倍。

产品规划上,迈特芯正按照“验证-流片-量产-生态”路线推进。公司于2023年完成TPU IP验证,2024年完成分布式LLM-TPU FPGA验证,2025年启动首款3D分布式LLM-TPU流片,2026年推出LPU终端AIOS MetaClaw

国产AI芯片,用3D堆叠“弯道超车”图14


国产AI芯片,用3D堆叠“弯道超车”图15


3D堆叠,弯道超车的另一条路



总的来说,目前来看,上述的国内厂商基本和韬定律思路一致,通过3D DRAM近存技术,解决存储瓶颈问题,减少对于先进制程依赖。这些厂商基本都布局RISC-V架构,在架构上进一步自主可控。未来,这些厂商或会进一步扩大至存内计算、存算一体。

国内AI芯片的市场是广阔的。弗若斯特沙利文预测,到2029年,中国的AI芯片市场规模将从2024年的1425.37亿元激增至13367.92亿元,2025年至2029年期间年均复合增长率为53.7%

3D堆叠AI芯片更是“弯道超车”的一条好路。环洋市场咨询数据,2025年全球3D堆叠逻辑芯片市场规模为6360百万美元,预计2026年增至7498百万美元,2032年达到11571百万美元,20262032期间年复合增长率CAGR7.5%

  

精彩文章推荐


· END ·

请将我们设为“星标”,这样就会第一时间收到推送消息。

欢迎关注EEWorld旗下订阅号:“机器人开发圈”

国产AI芯片,用3D堆叠“弯道超车”图16

扫码添加小助手回复“机器人”

进群和电子工程师们面对面交流经验

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 芯片
more
3900亿!北京AI芯片龙头冲刺港股IPO,背靠百度,腾讯是客户
让美国芯片再次伟大:总统卸任时40%芯片必须美国生产
芯片关键材料,缺货预警
芯片测试测量技术原厂培训(报名倒计时 苏州站 免费)
报名:MATLAB原厂培训(免费):射频、混合信号芯片设计、电磁场、Simulink新特性等(7月2日 成都)
百万台量产落地!国产Physical AI芯片迎来重要突破
都在说缺算力,90% 的 AI 芯片却被「浪费」了?
硅基量子芯片材料难关攻克,国产化成长空间正式打开
71岁浙大校友掌舵,重庆芯片“小巨人”冲刺IPO!华为持股,拟募资16亿
7月16日 | 2026新思科技汽车芯片技术开放日,共探智能时代汽车创新之路
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号