用一套统一架构，驱动数字空间与物理空间互通丨商汤林达华@AIGC2026

编辑部整理自 AIGC2026
量子位 | 公众号 QbitAI

AI正式迈入智能体（Agent）时代。

行业竞争已从大模型参数比拼，转向多模态融合、端到端落地、物理空间认知的深层较量。

在刚刚结束的2026中国AIGC产业峰会上，商汤科技执行副总裁、首席科学家林达华提出核心判断：

真正开启未来物理空间的钥匙，一定是从第一性原理出发，去理解这个世界。

并且要实现这一点，AI必须打破语言模型“预测下一个token”的底层范式，把理解、推理与生成统一到同一个模型之中。

商汤正是沿着这条路，在今年4月发布了SenseNova-U1，一个仅8B体量就在空间智能多个国际权威榜单上超越GPT-5和Gemini的统一模型。

从1500万用户的小浣熊智能体，到空间智能的Scaling Law探索，林达华展示了商汤不同于主流叙事的选择：

不追风口，走长期主义。

为了完整体现林达华的思考，在不改变原意的基础上，量子位对演讲内容进行了翻译和编辑整理，希望能给你带来更多启发。

2026中国AIGC产业峰会是由量子位主办的行业峰会，近20位产业代表与会讨论。线下参会观众超千人，线上直播观众近400万，获得了主流媒体的广泛关注与报道。

核心观点梳理

无论时代变化多快，决定我们走多远的，始终是长期愿景。AI是一场长跑，唯有长期主义的支撑，才能真正抵达未来。
在企业级AI落地中，大模型本身并不是最关键的，真正的瓶颈在于如何将图表、Excel、图像、视频、网页、知识库等多形态数据接入同一个AI系统——这部分往往占据企业应用AI成本的70%以上。
在数字空间之外，还有一个更广阔的世界——物理空间。今天最顶尖的多模态模型，进入真实物理空间时依然非常脆弱，这也是机器人难以走向通用化的核心瓶颈。打开物理空间的钥匙，必须从第一性原理重新理解世界。
要真正突破空间智能，就必须把语言模型、视觉的理解与生成融合到同一个模型之中——让一个模型既能做语言表达，也能够生成视觉世界中的要素。
未来真正的智能体，应当在一个“大脑”中同时完成数字空间的分析与物理空间的行动——既能综合多模态信息做出决策，也能在物理世界中敏捷行事。数字空间与物理空间的交融，才是AI真正要去往的彼岸。

以下为林达华演讲原文：

数字空间已经进入智能体时代

首先非常感谢量子位提供这次机会，让我能够跟大家分享商汤在过去这段时间里，在AI浪潮中的一些思考和进展。

我们一直在思考一个非常重要的问题——它关乎的不是当下，而是未来。我们始终相信，无论时代发展得多么迅速，真正决定我们能走多远的，仍然是长期的愿景。

就像2010年代初，OpenAI当时还是一个非常小的机构，但他们怀有一个极其重要的愿景：相信通过Scaling、通过大规模的语言模型，能够抵达一个全新的智能水平。

如今，这件事已经成为整个行业乃至全世界的共识。而我们今天所思考的，其实是AI的下一个Milestone——下一个彼岸，究竟在什么地方。

刚才方总和易总在分享中都提到了一个非常重要的概念，叫作数字空间。我们这里所说的Coding Agent、视频创作，其实都发生在数字空间里——我们在电脑里创作一个软件，创作一段视频。

毋庸置疑，这样一个时代已经到来。我们也看到，越来越多的企业和个人正在运用AI的能力，去开发各种各样的软件、创作各种各样的内容。

就这个空间而言，我们其实已经进入了一个智能体（Agent）的时代。

商汤从2023年就开始投入这件事，当时我们做了一款软件叫小浣熊。由于商汤原本的ToB业务服务过非常多的客户，因此我们把大模型能力推进到这些企业时，发现了一个非常关键的问题：最重要的并不是模型本身，而是如何把企业内部各种形态的数据接入到AI系统中。

这部分工作往往占到企业应用整体成本的70%到80%，而企业内部的数据又形态各异——图表、图像、视频、网页、知识库等等不一而足。正是从那时起，我们建立了一个非常重要的认知：要推进这件事，关键在于如何把不同形态的数据，融合成AI系统能够处理的形式。

在我们看来，Agent是这个时代的引擎。但要让这台引擎在真实的工作场景中真正发挥作用，关键就在于它能否处理各种模态的能力。

经过这两年的发展，小浣熊已经进入了不同的行业，服务了大量客户。这里列举一些具体的案例，比如电商的复盘分析、增长决策分析，以及各行各业的报告撰写。我们发现，它们的起点往往是用户面临一个亟待解决的重要问题，需要先做拆解，最后才是借助AI进行深度分析。

但分析并不是故事的终点——用户最终需要的是一份可以交付的成果，可能是一份报告，也可能是一份PPT。只有当AI能够把最初杂乱无章的数据，一路处理成可以交付、可以拿来讲的PPT时，所谓的端到端闭环才算真正完成。

我们看到，前段时间“小龙虾”非常火，一度在GitHub上拿下几十万星标，在中国的热度也极高，几乎全民都在装“龙虾”。但回过头看，“龙虾”的热度明显降温，基本上是经历了急剧上升之后又回落。

为什么呢？因为大家并没有真正从“龙虾”中获得端到端解决自身问题的价值。而小浣熊经过这两年的深耕，通过融合多种模态来重塑智能体，真正把端到端的结果做了出来。

如今，小浣熊已经服务了上千家企业客户，总用户量超过1500万。从活跃用户来看，仅在2025年就增长了7倍；2026年的数据虽然没有显示在这里，但从1月份到现在也增长了5倍。即使在“小龙虾”的热潮退去之后，我们依然保持着高速增长。这正是源于我们提供了真正的端到端价值。

但这并不是整个AI故事的终点。因为AI的意义并不仅仅在于帮我们处理工作中的文档和流程。更重要的是，回到AI的本质、回到AI的初心——它要构造的，是一个能够真正与世界自如交互的智能体，一个能在物理世界中实际行动的智能体。

因此，在数字空间之外，我想提醒大家：还存在另一个更为广阔的空间，叫作物理空间。这也正是当下另一个炙手可热的领域——具身智能。

如何理解世界

一旦回到物理空间，我们就要面对一个根本问题：如何理解世界。我们在这个世界中行动的基础是什么？先不谈机器人本身，行动的前提，是它必须能够看懂世界。

商汤在计算机视觉领域深耕多年，一直处于行业领先地位；如今，我们把视觉与大模型结合在一起，构建多模态大模型。

我们非常清楚，当前多模态大模型的能力边界，已经能够理解相当复杂的二维图像。但即便是最顶尖的模型，无论是Gemini还是GPT，一旦进入真实的物理空间，依然十分脆弱，常常闹出不少笑话。这也正是当前所有机器人只能在垂直场景中作业、而无法迈向“2.0时代”通用机器人的关键能力瓶颈。

举个例子，AI看一只狗的活动，因为它见过海量影像，所以知道狗在做什么；可是当我们理解“一个球放在桌子上，桌子一移动，球就会滚下来”这样的场景时，AI却很难真正理解。

这也是为什么大家会发现，无论是Sora，还Seedance生成的视频，常常不符合物理规律——因为本质上它并不理解背后的道理，它只是记住了海量看过的视频影像而已。

所以我们相信，真正开启未来物理空间的钥匙，一定是从第一性原理出发，去理解这个世界。

从第一性原理出发理解世界

从去年下半年开始，我们做了一个专项SenseNova-SI（Spatial Intelligence，空间智能）。我们通过细致地分析，把空间智能拆解为六个维度的能力，包括如何判断视角、如何判断物体之间的关系等等。

最初做这件事时，我们拿世界上最知名的模型Gemini、GPT，去看一些非常简单的三维结构，结果它们都闹出了不少笑话。

大家或许还记得去年一个很典型的例子：拿一张有六根手指的照片去问模型有几根手指，基于语言先验，它会告诉你有五根。这是因为如今很多多模态模型都依赖极强的语言先验来回答问题，并没有真正看懂这个世界。而这种情况，在真实的物理空间里是非常危险的。

我们进一步追问：这到底是不是数据问题？是不是训练数据不够多，只要再加入更多多模态数据就能解决？结果，我们得到了一个非常反直觉的观察——它呈现出一种“反Scaling Law”的现象：这类数据加得越多，在某些类型、尤其是视觉判断类的任务上，性能反而越弱。

原因在于，语言先验被更加牢固地固化进了训练数据里。因此，我们必须寻找新的Scaling Law，才能真正打破空间智能的困局。

为此，我们开始构造新的数据，甚至探索新的训练范式，不再是Predict the next token，而可能是Predict the next view，甚至next view中的某个local part。

这样一番努力，让我们在相当短的时间内——其实这还不是一个投入很大的探索性项目——就在空间智能这条赛道上，在多个国际权威榜单上取得了超越GPT-5和Gemini等顶尖模型的能力。它当时还只是一个用于验证的模型。但更重要的是，我们找到了一条更高效地通往空间智能的Scaling Law。

把语言模型、生成与理解统一到同一个模型之中

在推进这件事的过程中，我们在尝试新的训练范式时，遇到了一个非常关键的瓶颈：现有的训练范式只能Predict the next token，这是LLM的底层逻辑。

可是，如果我们想要预测的是另一个视觉局部，那么在不具备生成能力的情况下，根本无法完成这种预测，因为视觉的预测需要先生成出这一块内容，再去做比较。

要真正突破空间智能，经过长时间的研究，我们得出了一个非常重要的结论：必须把语言模型、生成与理解统一到同一个模型之中。一个模型必须同时具备这两种能力，既能生成语言，也能生成视觉世界的要素。

正是从那时起，我们从真实的需求出发，全力投入到“理解与生成统一”这一方向，并在去年9月提出了相应的架构。

这是我们今年4月刚刚发布的新模型，叫作SenseNova-U1。我们不仅更新了版本号，更直接更换了前面的前缀，这是一次非常大胆的尝试。

第一，我们把理解、推理与生成统一到了一个完全创新的模型底座之上：原本多模态理解所依赖的视觉编码器（visual encoder），以及生成所依赖的视觉自编码器（visual autoencoder）被全部摒弃，转而形成一个真正共享（shared）的latent representation（潜在表征）。

第二，在这样的架构之上，模型能够自由地在语言生成与视觉生成之间切换，用语言来表达它的理解，用视觉来表达它的想象，从而真正完成连贯的图文交错创作。

在一系列基准评测中我们看到，这个模型在理解、推理、生成三方面都能在单一模型上达到对应的SOTA水平。而这还只是一个8B体量的实验版本，它已经能够媲美国内一些比它大得多的商业旗舰模型——虽然还没有完全达到Nano banana的水平，但我们已经找到了更高效的Scaling路径，下一步就是去触及更高的天花板。

仅凭一个8B的模型，我们就已经能够生成排布密集、错误率极低的文字，这是以往同等体量的模型完全做不到的。正是依托“理解与生成统一”，我们让一个小体量模型具备了远超其体量的能力。

更重要的是，它打开了一个全新的空间——模型可以自如地在图文世界中穿梭，无论是想表达理解，还是想表达想象，都能自如完成。

比如它要完成一个建筑风格的设计，就会不断思考下一步该做什么，在这个过程中一步步把建筑细化出来，最终形成一份成形的设计稿。它不是一个单纯生成图像的模型，而更像一位会思考的设计师。

在这个场景里，我们为一个生图模型注入了思考，又为一个会思考的模型注入了想象。这个模型最重要的意义，并不在于它当下达到了多高的性能，而在于“统一”所带来的全新表达空间和全新可能性。

一个大脑，同时活在数字和物理世界

这是《终结者 2》（Terminator 2），一部非常著名的电影，它恰好捕捉（capture）了我们对未来人工智能终极形态的理解。

影片中的主角能够实时感知现场瞬息万变的状况，在脑海中完成各种分析，进而指导自己迅速行动。在这样的智能体身上，他不仅拥有在物理空间中自由行动的能力，同时还能把物理空间中的诸多信号转化为语言信息、转化为数字信息，进行深度分析。

在他身上，数字空间的分析与物理空间的行动是完全融为一体的。这，才是我们所看见的未来世界的智能，也正是它下一步应当发展的方向。

这正是数字空间与物理空间的交融。

几个月前，香港发生了一起令人痛心的事件——宏福苑大火。

我们不禁设想：如果我们真的拥有这样的智能体，能够进入现场执行搜救，那将会为身处灾难中的群众带来多大的帮助和慰藉。但这绝不是放进去一只机器狗、一台机器人就能完成的事情，它需要对火灾现场进行各种各样的分析，而这种分析靠的不是“小脑”，必须依靠真正的大脑。

它要综合地图、消防通道、人员状况等多方面因素来做出决策——它需要在数字空间里整合各种模态的信息进行判断，同时指导自己在物理空间中敏捷地行动。这两件事必须在同一个大脑中完成，而不是两个大脑。我们人类之所以能同时做好这两件事，正是因为我们只用一个大脑。这是我们所认为的未来智能的终极形态。

今天的SenseNova U1并不是终点，它为通向这一智能形态提供了一个全新的模型架构，让图像、文字乃至未来更多的模态，能够在同一个上下文中表达，在同一个大脑中思考与想象。我们今天迈出的这一步，对于人工智能的发展有重要意义。

最后我想说，AI领域每天都在发生新的变化。我始终认为，AI是一场长期的旅行，是一场长跑。要真正抵达未来，我们既需要敏捷的行动，更需要长期主义，唯有以长期主义为支撑，我们才能走得足够远。而要在这条路上走得越远，我们就越需要与用户建立深层的连接。

在众多产品上，我们都看到了这种连接的力量：商汤小浣熊已拥有1500万用户；视频模型Seko去年还只有20万用户，今年第一季度就已有75万创作者在使用，并保持持续高速增长。

这是因为我们真正让端到端的价值触达了用户的内心，也正是凭借这样的闭环，我们才能一路走向未来。

谢谢大家。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

超千人线下参与、数百万观众在线观看的中国AIGC产业峰会实录来了！

近20位AI实战派如何看Agent、多模态、应用、算力... 全部干货，点击回顾 👇

一键关注 👇 点亮星标

科技前沿进展每日见