从拼模型到算成本,曦望用S3 GPU给出最佳答案

半导体芯闻 2026-01-29 18:06

 

过去两年,AI产业的重心高度集中在训练。

 

更大的模型、更高端的GPU、更密集的算力投入,构成了这一阶段最鲜明的特征。训练能力一度等同于技术先进性,也决定了厂商在产业链中的话语权。但随着大模型规模趋于稳定、训练节奏放缓,AI系统的主要负载正在发生转移。真正被频繁调用、持续消耗算力的,不再是一次性的模型训练,而是无处不在、实时发生的推理请求。

 

在AI产业从训练走向推理的关键转折点,曦望科技于2026年1月27日举办首届Sunrise GPU Summit产品发布会,正式发布新一代推理GPU芯片启望S3,并同步推出寰望SC3超节点解决方案及推理云计划。这是曦望在完成近30亿元战略融资后的首次系统性技术亮相。

 

在发布会上,中国工程院院士、浙江大学信息学部主任吴汉明出席发表致辞并指出,当前国内正处于集成电路与人工智能深度融合的关键时期,算力作为核心生产力,关系到科技自立自强战略的落实。

 

“AI规模化应用对算力提出了前所未有的要求,传统芯片已难以满足多场景下的高效能需求。”吴汉明强调,推理算力价值的实现离不开协同创新,需要从芯片设计、系统集成、软件开发到产业应用的全链条协作。“曦望科技作为专注AI推理基础设施的创新者,凭借深厚的技术沉淀、量产验证和全栈自研模式,正是这一协同创新路径的积极践行者。”

 

 

 

推理为先的战略选择

 

 

 

曦望董事长徐冰在演讲中表示,曦望作为国内第一家All in推理的GPU芯片公司,使命只有一个,就是把大模型推理这件事做到极致。

 

他指出了目前行业的三个根本性改变:

 

需求端的结构性转变。根据德勤最新报告,到2026年,推理算力占比将达到66%,超过训练。“智能体、物理AI一旦爆发,推理就会从配角变成主力。这不是趋势,这是已经在发生的结构性改变。”

 

应用场景的质变。智能体需要高频响应、实时交互,3D生成、视频生成、物理世界的AI等复杂场景正在加速落地。“今天拼的是谁能在真实业务里跑得稳、跑得久、跑得划算。”

 

成本结构的倒逼。“推理成本占AI应用比已高达70%,直接决定一家AI公司能否盈利。只有把推理成本从元级降到分级,AI才有机会成为普惠的基础设施。”

 

这三大根本性改变让曦望坚定了走推理为先的路线,“曦望选择了一条反向创新的道路。” 徐冰表示,“我们将单位 Token 的成本、能耗,以及 SLA 服务稳定性,作为所有芯片设计决策的核心出发点。若能实现推理成本 90% 的降幅并保障稳定的服务能力,曦望将不再是市场上又一个芯片选项,而是将为行业发展注入全新动能。”

 

 

 

打造推理算力新标杆

 

 

 

曦望联席 CEO 王勇对启望 S3 的技术突破展开深度解读。他首先剖析行业发展现状:“大模型产业已迈入下半场,伴随 DeepSeek 等开源大模型的亮眼表现,2025 年推理 Token 消耗量实现百倍增长,推理算力正式超越训练算力,成为算力产业发展的核心驱动力。”

 

“针对行业痛点,曦望开展前瞻性技术布局,战略性聚焦推理专用 GPU 赛道。” 王勇强调,“曦望全系产品均立足真实产业场景需求研发,在持续满足极致应用需求的过程中完成技术与产品迭代。曦望亦是行业内较早提出以大容量 DDR 替代 HBM、以高性价比推理专用芯片替代训推一体芯片的企业。”

 

从拼模型到算成本,曦望用S3 GPU给出最佳答案图1

 

王勇从技术维度详解了启望 S3 的三大核心创新点:其一为算力架构的重构,该芯片支持 FP16、FP8、FP6、FP4 等全系列低精度算力,单芯片推理性能较行业同类产品提升五倍;其二为显存方案的突破,启望 S3 成为国内首款搭载 LPDDR6 的 GPGPU 推理专用芯片;其三为工艺与 IP 的领先性,芯片采用先进工艺节点,同时搭载最新高速接口 IP。

 

依托启望 S3 芯片,曦望同步发布面向大模型推理场景的寰望 SC3 超节点解决方案。王勇表示,该方案从设计之初便对标千亿、万亿级参数多模态 MoE 模型的实际部署需求,支持单域 256 卡一级互联,可高效适配 PD 分离架构与大 EP(Expert Parallelism)规模化部署,能显著提升推理阶段的系统利用率与运行稳定性,完美匹配长上下文、高并发、多专家并行等复杂推理场景需求。

 

交付层面,寰望 SC3 采用全液冷设计,可实现极致 PUE 表现,同时支持模块化交付与快速部署。曦望方面透露,在同等推理算力水平下,该方案可将整体系统交付成本从行业普遍的亿元级降至千万元级,实现成本一个数量级的下降。

 

软件体系建设上,曦望打造了全栈自研的软件平台,全面对齐并兼容 CUDA 生态,支持用户代码无缝迁移。王勇指出,通过对 CUDA 底层驱动、Runtime、编译器、工具链的全面兼容,结合极致优化的算子库与通信库,曦望能够为客户提供 GPU 应用的快速迁移服务,同时带来极致高能效的算力调优体验。

 

目前,曦望启望 S3 已完成对 ModelScope 平台 90% 以上大模型的适配,涵盖商汤日日新、DeepSeek 最新版、通义千问 2.5/3、GLM 4 等主流模型,累计适配国内外百余种大模型。

 

王勇在最后强调,推理 GPU 的竞争并不止于芯片本身,而在于能否将硬件能力稳定转化为可交付、可计价的推理算力。

 

 

 

商业模式的重构

 

 

 

曦望联席 CEO 王湛则从商业模式角度,系统阐述了曦望的差异化路径。

 

他将 AI 服务拆解为三层结构:最上层是面向用户的 AI 应用层,涵盖智能办公、内容创作等场景;中间是大模型驱动层,包括大语言模型、多模态模型、视觉模型等技术内核;而支撑一切的底层,正是算力底座。

 

从拼模型到算成本,曦望用S3 GPU给出最佳答案图2

 

“算力底座由什么构成?GPU 是算力之源,GPU 与 CPU、存储系统、主板、通信系统协同形成算力服务器,千百台服务器再通过算力调度管理系统发挥作用,最终综合形成完整的算力底座。” 王湛强调,“GPU 的算力必须通过软件栈与调度系统的紧密协同,才能真正转化为实际应用价值。算力底座本质上是一个复杂的系统工程。”

 

王湛指出,当前算力服务普遍面临着行业痛点:传统架构下 GPU 资源闲置率高,推理任务的波动性导致严重的资源错配,且芯片与模型之间存在巨大的适配鸿沟,每适配一个新模型往往需要数周时间,严重拖慢业务迭代速度。此外,大规模算力基础设施的运维体系极其复杂,任何一个环节的故障都可能影响整体服务。

 

针对这些挑战,曦望推出了新一代AI 原生智算平台,其核心优势体现在软硬件深度协同、资源极致弹性、开箱即用的便捷性,以及稳定可靠的运维保障四个方面。

 

“我们的 GPU 内核和通信库均为自研,这让软硬件协同可以实现物理级的深度优化。” 王湛介绍道,“在软件层面,我们采用了先进的量化压缩技术,在几乎不损失精度的前提下,将推理性能提升了 250%,充分释放了低精度算力的效能。”

 

在资源弹性方面,曦望通过三大技术实现了算力的高效利用:构建虚拟算力池,实现跨任务、跨节点动态调度的 GPU 池化技术;在业务峰值时快速扩容、低谷时自动缩容的动态扩缩容技术;以及通过 AI 算法预测推理任务流量峰值、提前预留资源的智能负载预测技术,在弹性与稳定性之间取得最佳平衡。

 

为解决模型适配难题,曦望还量身打造了MaaS(Model as a Service)平台,该平台汇聚了丰富的模型资源,支持一键调用和定制化优化,真正实现了 “一个入口、所有模型自动调用”,让客户无需再投入大量精力进行模型适配,能够更聚焦于自身的业务创新。

 

在运维层面,曦望的 AI 推理云平台实现了全链路的智能化管理,具备状态实时遥测、健康度自动分析、一键式自动部署和故障快速隔离四大核心能力。其内部核心运维指标达到行业领先水平:千卡集群可用性达 99.95%,可连续运行 60 天无计划外中断;故障处理实现 “1 分钟发现、3 分钟定位、5 分钟恢复”;千卡级横向扩展率大于 95%;全链路运维自动化覆盖率达 80% 以上,AI for Infra 的渗透率超过 60%。

 

王湛特别强调了电力成本的战略意义:“对于大型算力中心而言,电力成本是除硬件和运维之外的另一项核心支出。” 为此,曦望从三个维度构建了绿色算力优势:通过高能效比设计,从源头降低单位计算能耗的芯片层面;与中国核电等伙伴深度合作,锁定长期廉价核电资源的能源层面;以及通过精细化运营降低人力成本、延长硬件使用寿命的运营层面。

 

他最后总结了曦望的商业模式:芯片硬实力加上云基建软实力的Token as a Service模式。曦望能够针对不同客户,提供公共Token服务、定制化Token服务、混合Token服务,满足对弹性要求高的客户和对自主可控性要求高的客户。

 

 

 

携手产业链共生发展

 

 

 

商汤科技、第四范式等产业头部企业掌舵人纷纷对曦望在国产推理算力领域的突破给予高度认可。

 

商汤科技董事长兼 CEO 徐立博士从 AI 发展范式角度,点明推理芯片对产业升级的关键意义,更盛赞曦望国产推理 GPU 的技术与性价比优势。他指出,AI 浪潮已历经 Scaling Law、Testing Scaling 阶段,推理成本过去两年下降 280 倍,成为推动 AI 产业爆发的关键转折点,而芯片与模型的深度协同是降本核心。对比测试证实,曦望通过架构优化和推理任务专注,已实现视频实时生成,其性价比优势持续凸显。徐立认为,算力与电力的协同优化将引爆下一轮产业变革,而曦望等国产推理 GPU 企业,正成为推动 AI 走向普惠的重要支撑。

 

第四范式创始人兼 CEO 戴文渊从应用落地视角,肯定了曦望为国产算力发展带来的全新机遇。他直言当前国产算力存在生态、算子、利用率等多重差距,而曦望的出现让行业看到了国产算力在性价比上超越国际巨头的可能。戴文渊透露,在中交蓝翼大模型适配项目中,曦望算力成本低至每百万 Token 0.57 元。第四范式正携手曦望,依托自身在模型生态、算力运营的布局,借助曦望 S3 及后续产品,共同向全球最便宜算力的目标迈进,推动中国算力打造全球核心竞争力。

 

此外,曦望在本次发布会上开启多维度战略合作布局,与产业链上下游头部伙伴签约,构建起覆盖技术研发、算力基建、场景落地、产学研协同的 AI 推理算力生态体系,以生态合力加速极致推理算力的规模化落地。

 

其中,与商汤科技、第四范式的深度战略合作,三方将发挥技术、场景、算力协同优势,联合攻坚技术瓶颈,共同向 “百万 Token 一分钱” 的算力成本目标迈进;与杭钢数字科技、浙江算力科技等本土算力平台合作,将曦望极致推理算力基础设施延伸至全国,完善全国算力网络布局;与三一、协鑫、游族等十余家跨领域生态伙伴签约,推动曦望极致推理算力深度嵌入智能制造、能源服务、C 端消费、机器人等多元产业场景。

 

而在产学研协同创新方面,曦望与浙江大学签约成立 “浙江大学曦望智能计算联合研发中心”,聚焦光互联 GPU 超节点架构、半导体虚拟制造等产业关键核心领域开展联合攻关与成果转化,以高校科研实力结合企业产业落地能力,为曦望的技术创新注入持续动能,也为国产推理算力产业升级夯实技术根基。

 

 

 

写在最后

 

 

 

在推理时代,算力竞争的核心已从“拼峰值”转向“算单位成本”。曦望以All in推理的战略定位,通过芯片架构重构、系统级优化和生态协同,正在将“百万Token一分钱”从愿景变为现实。

 

随着曦望的S3在2026年底量产,S4、S5陆续推进,中国AI产业的成本曲线正在被重写。这不仅是一场技术革命,更是一次商业模式的深刻变革——当推理算力真正变得便宜、稳定、到处可用,AI才能真正成为普惠的基础设施,推动千行百业的智能化转型。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
GPU
more
美众议院通过法案:未经美国许可,远程使用GPU即是违法!
RISC-V+GPU,SiFive重磅宣布
老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛
太惨!偷TPU/GPU技术!38岁谷歌前员工,面临几十年监禁!
东芯股份2025年预亏超1.7亿元,GPU投资拖累业绩但存储业务转盈
深度拆解沐曦MXMACA软件栈功能,算力自主+生态兼容,破解国产GPU落地难题
刚刚,壁仞科技敲钟上市!GPU在手订单超12亿,拿下多个国产第一
H200批准对华出口!2026年GPU还扛得住吗?
燧原科技IPO虽迟但到,“国产GPU四小龙”凑齐资本牌桌
英伟达 GPU 能否融入中国的 AI 芯片自主计划?
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号