国产AI芯片，用3D堆叠“弯道超车”

在半导体行业，“3D+混合键合”一直是确定的发展方向。而在前阵子，“韬定律”又继续引发了人们对于这一路线的关注，其核心观点在于，未来半导体性能提升不仅依赖晶体管几何尺寸微缩，还需要通过时间尺度优化来降低延迟、提升能效。

AI芯片设计商博通（AVGO）也在近期表示，预计到2027年，基于其3D堆叠芯片技术的出货量将至少达到100 万颗。

国内厂商也看到了3D堆叠技术在当下AI爆火下的机遇。在当下EUV被限制，摩尔定律又在放缓的前提下，3D堆叠成为了一个好路线，一个又一个国内厂商开始公布自己的产品和未来计划。

国产AI芯片，用3D堆叠“弯道超车”图1

算苗科技：3D DRAM+混合键合+RISC-V

近期，一家国产3D架构AI云端大算力芯片公司算苗科技提出3D TokenPU概念，即原生面向Token处理的新型处理器。EEWorld获悉，该公司第一代TokenPU产品A4E已流片，正式进入制造阶段。第二代产品A4S也已完成架构定义，预计将在2027年2月底前后启动流片，形成”一代流片、一代定义”的迭代节奏。公司选择了全国产化供应链，从设计到IP到制造到封装，基于RISC-V自研架构和成熟国产工艺。

A4E通过将8层存储晶圆垂直堆叠在计算逻辑晶圆之上，并利用硅通孔（TSV）和凸点（Bump）技术实现微米级互联，大幅缩短数据传输路径。相较于传统芯片间毫米级互连，其传输距离降低两个数量级，带来更高的访存带宽和数据交换效率，为大模型推理提供充足的数据供给，有效破解“数据饥饿”难题。

“大模型时代最核心的技术挑战并非计算单元本身，而是内存带宽瓶颈。”算苗科技创始人&CEO汪福全向EEWorld表示，随着模型参数规模不断扩大，数据搬运逐渐成为制约系统性能的关键因素。据了解，英伟达H100跑AI推理时，高达70%计算单元在空转，等待数据从内存中搬运过来。过去20年，摩尔定律驱动计算能力增长了60000倍，而内存带宽仅仅增长了100倍。

国产AI芯片，用3D堆叠“弯道超车”图2

算苗科技是国内最早布局3D混合键合算力芯片的团队之一，为了突破这一瓶颈，算苗团队核心成员从2019年开始探索3D混合键合技术，并最终通过3D堆叠架构实现超高带宽互连。

算苗科技把内存芯片直接盖在了计算核心的楼上（缩短搬运距离），并且修建了数百万部垂直电梯，原材料可以快速搬运到工厂的各个角落，不再受限于大门宽度，从而实现16～32TB/s的带宽。同时，算苗科技设计的工厂（计算芯片）是专门用于推理AI大模型的（专用芯片），因此可以用更少的设备（12nm工艺）来实现更高的推理性能。

国产AI芯片，用3D堆叠“弯道超车”图3

当下AI芯片路线非常多，对于这些芯片来说内存选择至关重要，比如GPU/NPU搭载HBM、LPU搭载SRAM、存算一体芯片搭载RRAM。

相比传统HBM方案，3D混合键合能够通过上百万级互连实现更高的数据传输效率。HBM本身已经是高带宽存储的重要创新，但其依然受制于标准总线架构，而3D混合键合则采用面向特定场景的极致优化思路，从根本上突破传统架构限制。

基于这一判断，算苗科技将技术路线聚焦于3D DRAM集成与能效优化。来解决“内存墙”对于AI大模型计算的制约。目前3D DRAM的带宽可达到32TB/s，相当于英伟达B200的4倍。而算苗科技的研发重点，就是要将高带宽转化为实实在在的推理性能。

汪福全强调，在光计算、存算一体等下一代技术尚未成熟之前，3D混合键合是当前唯一具备大规模量产能力、能够显著提升AI算力效率的现实路径。

目前，公司已累计融资近10亿元，其中约三分之一来自国资背景资本，其余主要来自产业资本及金融机构。

国产AI芯片，用3D堆叠“弯道超车”图4

快手拆分的凌川科技：3D近存储架构

快手拆分芯片团队成立的凌川科技下一代芯片已于今年4月完成流片，采用全国产3D堆叠技术，首创3D近存架构，针对散热、一致性、可靠性等行业关键痛点做了专项优化设计。该芯片与当前业界普遍认同的“韬定律”所倡导的3D堆叠、系统协同优化方向一致。

凌川科技前身为快手异构计算与芯片事业部，2024年3月正式独立运营，由北京市人工智能基金与快手集团共同发起设立。6月24日完成数亿元A+轮融资。其首款芯片SL200已累计销售近十万颗，部署至快手、阿里云、百度云、B站等互联网公司，覆盖快手99.7%直播转码业务，稳定服务7亿用户。

值得注意的是，这家公司也是RISC-V赛道的玩家，推出创新性延迟确定性DiPU（Deterministic Inference PU）架构。

国产AI芯片，用3D堆叠“弯道超车”图5

国产AI芯片，用3D堆叠“弯道超车”图6

瑞芯微：3D堆叠封装的RISC-V+NPU协处理器

今年1月，瑞芯微再次介绍了其业内首款3D堆叠封装AI芯片——RK182X系列AI协处理器，并首次公布了两款产品的具体型号：RK1820和RK1828。其中，RK1820配备2.5GB存储带宽，提供20TOPS算力，RK1828则提升至5GB。官方表示，相比明星产品RK3588，RK182X系列带宽提升约30倍，可显著降低数据传输功耗，同时兼具高性能、低时延、高吞吐和高精度等优势。

RK182X采用3D堆叠封装架构设计，计算层为2×4多核Mesh结构，并叠加1至2层DRAM存储层，层间通过数万个IO实现高速互联。芯片支持W4A16等大语言模型数据格式，可满足本地部署3B、7B等大模型及多模态AI应用需求。

根据瑞芯微介绍，3D堆叠封装把多颗芯片垂直互连，像盖高楼一样“叠”成一颗，用极短的硅中介孔替代传统走线，可把带宽提升10倍、功耗降低30%、面积缩小50%，同时实现异构集成（逻辑+存储+射频+感测），在同样封装体积内塞下更多晶体管，为AI算力、存储密度和移动终端续航同时“加料”却不“加体积”。

未来RK182X系列将持续围绕四个方向演进：一是增加DRAM或其他类型存储，进一步扩展容量；二是升级计算层制程工艺；三是优化芯片间及与主SoC之间的高速互联；四是持续提升计算单元效率。

后续，瑞芯微还将推出算力达到64TOPS的RK1860，其将在算力、存储容量、模型支持、视频解码能力以及能效方面全面升级，可支持最高13B参数模型，并提供2.5GB、5GB、10GB等不同存储版本，同时支持LPDDR扩展和多芯片级联运行。更长远来看，瑞芯微路线图中还规划了一款算力高达250TOPS的RK1899，不过具体发布时间尚未公布。

国产AI芯片，用3D堆叠“弯道超车”图7

国产AI芯片，用3D堆叠“弯道超车”图8

清微智能：3D可重构AI芯片

清微智能作为源自清华大学的全球可重构架构计算领导者，也在布局3D芯片。据了解，清微智能在3D可重构AI架构技术方面布局较早，有充足专利储备，并且正加速整合国内相关产业链。

2019年，清微智能和清华大学团队就开展了3D可重构AI架构相关研究，自2023年1月开始，清微智能在中美进行3D芯片相关的大量专利布局。产业层面，清微智能正在与清华大学、智源研究院、智谱等上下游产业链机构共同构建国产AI生态。

2024年计算机体系结构领域顶会ISCA上，清华大学集成电路学院团队发表论文，首次通过混合键合技术实现逻辑芯片与DRAM的3D可重构，构建了具有超高带宽的三维DRAM存算一体架构，从而提升AI芯片算力能效和面积效率。与最先进的2D/2.5D AI加速器相比，新架构的平均能效提升2.89倍至14.28倍，面积效率提升2.67倍至7.68倍。引入聚类相似效应（Clustering Similarity Effect）优化后，能效和面积效率的提升分别为5.69倍-28.13倍，以及3.82倍-10.98倍。

国产AI芯片，用3D堆叠“弯道超车”图9

2026中关村论坛，清微首次展出第二代3D可重构芯片，并宣布该芯片即将流片量产。该芯片创新性采用3D存算一体+ 四芯Chiplet集成技术，将传统芯片2D平面单车道传输模式，升级为“算力4车道+ 4层存储高架”的立体架构，大幅提升数据吞吐效率与算力密度，在性能、能效、灵活性上形成显著优势。

资本方面，2025年底清微智能完成C轮超20亿元融资，2026年3月正式启动IPO进程。

国产AI芯片，用3D堆叠“弯道超车”图10

光羽芯辰：3D堆叠近存算+LPU+RISC-V

光羽芯辰也是最近很火热的一个公司，根据中航证券研究报告，光羽芯辰由兆易创新、燧原科技等企业联合成立，聚焦大模型端侧AI芯片研发。公司采用3D堆叠技术路线，融合燧原科技在AI计算架构方面的技术优势，以及兆易创新在DRAM存储领域的积累，致力于打造面向端侧大模型应用的新一代AI芯片。

光羽芯辰提出并采用EdgeAlon架构（创新的3D堆叠和存算一体融合技术），实现逻辑芯片与存储芯片深度耦合，搭配自研高能效端侧NPU与3D SoC全栈设计，将算力效率提升10倍、功耗显著下降，打破算力传输壁垒，运行大模型的速度更可达每秒200 Token以上。该方案完美适配端侧大模型本地化运行、实时交互的核心需求，填补了国内高端端侧AI芯片的技术空白。

目前，公司首款芯片已成功流片并与多家头部客户深度协同，有望于2026年底商业化量产，抢占万亿端侧AI市场先机。

这家公司主要有四个关键技术：

第一是3D 堆叠近存算技术。针对大模型推理面临的带宽瓶颈，光羽芯辰开发了基于3D DRAM的近存算架构。通过3D堆叠技术，将NPU计算核心与DRAM存储垂直集成，显著缩短数据传输路径，大幅提升存储带宽利用率。同时，公司结合自研的分布式计算—分布式存储耦合架构、多层片上网络（NoC）和智能数据调度机制，充分利用3D堆叠带来的数万级垂直互联通道，使高带宽能够高效转化为计算吞吐，从而提升大模型推理效率。

第二是SRAM存算技术。光羽芯辰针对VLA模型中计算密集型的矩阵运算，在NPU中集成CIM加速引擎。基于高密度SRAM存算单元实现“存中计算”能力，大幅降低功耗与延迟，显著提升了端侧AI推理计算的能效比。

第三是LPU 流式处理架构。光羽芯辰早在2024年便前瞻性布局并投入研发，目前已在首颗芯片中实现工程化落地。该架构高效支持FFN（前馈神经网络）运算，为端侧大模型的高效推理提供架构支撑。

国产AI芯片，用3D堆叠“弯道超车”图12

第四是RISC-V AI 软件架构。光羽芯辰基于RISC-V开源指令集架构，打造了一套类CUDA兼容的可编程计算平台。该架构兼具专用NPU的高效性与通用GPU的灵活性：RISC-V核心负责控制流调度与通用计算任务，NPU专用单元负责矩阵运算等密集型计算，两者通过高速片上总线实现紧耦合通信。这一架构既保留了RISC-V开源开放、可扩展性强的优势，又通过专用加速单元确保了大模型推理的高效性。

国产AI芯片，用3D堆叠“弯道超车”图13

迈特芯：3D-DRAM近存算的3D-LPU

迈特芯的端侧大模型AI协处理器芯片走得也是3D堆叠路线，其提出了基于3D DRAM近存计算的3D分布式TPU（3D-LPU）技术路线，希望从架构层面解决端侧AI芯片在功耗、算力、成本以及存储带宽之间的平衡难题。

3D-LPU采用立方脉动计算（Cubic Systolic）、3D分布式IO直连等关键技术，通过将计算单元与存储进行垂直集成，大幅提升数据传输效率。芯片带宽可达到600GB/s，带宽利用率约80%，远高于传统2D NoC架构；互连能耗降至0.8～1.5pJ/bit，整体功耗降低至约3.8～7.2W，互连时延也缩短至5ns以内。

数据显示，该方案平均功耗约5W，可实现80～100 tokens/s的推理速度，词元能效比相比同类产品提升约10倍。

产品规划上，迈特芯正按照“验证-流片-量产-生态”路线推进。公司于2023年完成TPU IP验证，2024年完成分布式LLM-TPU FPGA验证，2025年启动首款3D分布式LLM-TPU流片，2026年推出LPU终端AIOS MetaClaw。

国产AI芯片，用3D堆叠“弯道超车”图14

国产AI芯片，用3D堆叠“弯道超车”图15

3D堆叠，弯道超车的另一条路

总的来说，目前来看，上述的国内厂商基本和韬定律思路一致，通过3D DRAM近存技术，解决存储瓶颈问题，减少对于先进制程依赖。这些厂商基本都布局RISC-V架构，在架构上进一步自主可控。未来，这些厂商或会进一步扩大至存内计算、存算一体。

国内AI芯片的市场是广阔的。弗若斯特沙利文预测，到2029年，中国的AI芯片市场规模将从2024年的1425.37亿元激增至13367.92亿元，2025年至2029年期间年均复合增长率为53.7%。

3D堆叠AI芯片更是“弯道超车”的一条好路。据环洋市场咨询数据，2025年全球3D堆叠逻辑芯片市场规模为6360百万美元，预计2026年增至7498百万美元，2032年达到11571百万美元，2026至2032期间年复合增长率CAGR为7.5%。

精彩文章推荐

· END ·

请将我们设为“星标”，这样就会第一时间收到推送消息。

欢迎关注EEWorld旗下订阅号：“机器人开发圈”