编辑部 整理自 AIGC2026
量子位 | 公众号 QbitAI
AI正式迈入智能体(Agent)时代。
行业竞争已从大模型参数比拼,转向多模态融合、端到端落地、物理空间认知的深层较量。
在刚刚结束的2026中国AIGC产业峰会上,商汤科技执行副总裁、首席科学家林达华提出核心判断:
真正开启未来物理空间的钥匙,一定是从第一性原理出发,去理解这个世界。
并且要实现这一点,AI必须打破语言模型“预测下一个token”的底层范式,把理解、推理与生成统一到同一个模型之中。

商汤正是沿着这条路,在今年4月发布了SenseNova-U1,一个仅8B体量就在空间智能多个国际权威榜单上超越GPT-5和Gemini的统一模型。
从1500万用户的小浣熊智能体,到空间智能的Scaling Law探索,林达华展示了商汤不同于主流叙事的选择:
不追风口,走长期主义。
为了完整体现林达华的思考,在不改变原意的基础上,量子位对演讲内容进行了翻译和编辑整理,希望能给你带来更多启发。
2026中国AIGC产业峰会是由量子位主办的行业峰会,近20位产业代表与会讨论。线下参会观众超千人,线上直播观众近400万,获得了主流媒体的广泛关注与报道。
核心观点梳理
无论时代变化多快,决定我们走多远的,始终是长期愿景。AI是一场长跑,唯有长期主义的支撑,才能真正抵达未来。 在企业级AI落地中,大模型本身并不是最关键的,真正的瓶颈在于如何将图表、Excel、图像、视频、网页、知识库等多形态数据接入同一个AI系统——这部分往往占据企业应用AI成本的70%以上。 在数字空间之外,还有一个更广阔的世界——物理空间。今天最顶尖的多模态模型,进入真实物理空间时依然非常脆弱,这也是机器人难以走向通用化的核心瓶颈。打开物理空间的钥匙,必须从第一性原理重新理解世界。 要真正突破空间智能,就必须把语言模型、视觉的理解与生成融合到同一个模型之中——让一个模型既能做语言表达,也能够生成视觉世界中的要素。 未来真正的智能体,应当在一个“大脑”中同时完成数字空间的分析与物理空间的行动——既能综合多模态信息做出决策,也能在物理世界中敏捷行事。数字空间与物理空间的交融,才是AI真正要去往的彼岸。
以下为林达华演讲原文:
数字空间已经进入智能体时代
首先非常感谢量子位提供这次机会,让我能够跟大家分享商汤在过去这段时间里,在AI浪潮中的一些思考和进展。
我们一直在思考一个非常重要的问题——它关乎的不是当下,而是未来。我们始终相信,无论时代发展得多么迅速,真正决定我们能走多远的,仍然是长期的愿景。
就像2010年代初,OpenAI当时还是一个非常小的机构,但他们怀有一个极其重要的愿景:相信通过Scaling、通过大规模的语言模型,能够抵达一个全新的智能水平。
如今,这件事已经成为整个行业乃至全世界的共识。而我们今天所思考的,其实是AI的下一个Milestone——下一个彼岸,究竟在什么地方。
刚才方总和易总在分享中都提到了一个非常重要的概念,叫作数字空间。我们这里所说的Coding Agent、视频创作,其实都发生在数字空间里——我们在电脑里创作一个软件,创作一段视频。
毋庸置疑,这样一个时代已经到来。我们也看到,越来越多的企业和个人正在运用AI的能力,去开发各种各样的软件、创作各种各样的内容。
就这个空间而言,我们其实已经进入了一个智能体(Agent)的时代。

商汤从2023年就开始投入这件事,当时我们做了一款软件叫小浣熊。由于商汤原本的ToB业务服务过非常多的客户,因此我们把大模型能力推进到这些企业时,发现了一个非常关键的问题:最重要的并不是模型本身,而是如何把企业内部各种形态的数据接入到AI系统中。
这部分工作往往占到企业应用整体成本的70%到80%,而企业内部的数据又形态各异——图表、图像、视频、网页、知识库等等不一而足。正是从那时起,我们建立了一个非常重要的认知:要推进这件事,关键在于如何把不同形态的数据,融合成AI系统能够处理的形式。
在我们看来,Agent是这个时代的引擎。但要让这台引擎在真实的工作场景中真正发挥作用,关键就在于它能否处理各种模态的能力。
经过这两年的发展,小浣熊已经进入了不同的行业,服务了大量客户。这里列举一些具体的案例,比如电商的复盘分析、增长决策分析,以及各行各业的报告撰写。我们发现,它们的起点往往是用户面临一个亟待解决的重要问题,需要先做拆解,最后才是借助AI进行深度分析。
但分析并不是故事的终点——用户最终需要的是一份可以交付的成果,可能是一份报告,也可能是一份PPT。只有当AI能够把最初杂乱无章的数据,一路处理成可以交付、可以拿来讲的PPT时,所谓的端到端闭环才算真正完成。
我们看到,前段时间“小龙虾”非常火,一度在GitHub上拿下几十万星标,在中国的热度也极高,几乎全民都在装“龙虾”。但回过头看,“龙虾”的热度明显降温,基本上是经历了急剧上升之后又回落。
为什么呢?因为大家并没有真正从“龙虾”中获得端到端解决自身问题的价值。而小浣熊经过这两年的深耕,通过融合多种模态来重塑智能体,真正把端到端的结果做了出来。
如今,小浣熊已经服务了上千家企业客户,总用户量超过1500万。从活跃用户来看,仅在2025年就增长了7倍;2026年的数据虽然没有显示在这里,但从1月份到现在也增长了5倍。即使在“小龙虾”的热潮退去之后,我们依然保持着高速增长。这正是源于我们提供了真正的端到端价值。
但这并不是整个AI故事的终点。因为AI的意义并不仅仅在于帮我们处理工作中的文档和流程。更重要的是,回到AI的本质、回到AI的初心——它要构造的,是一个能够真正与世界自如交互的智能体,一个能在物理世界中实际行动的智能体。
因此,在数字空间之外,我想提醒大家:还存在另一个更为广阔的空间,叫作物理空间。这也正是当下另一个炙手可热的领域——具身智能。
如何理解世界
一旦回到物理空间,我们就要面对一个根本问题:如何理解世界。我们在这个世界中行动的基础是什么?先不谈机器人本身,行动的前提,是它必须能够看懂世界。
商汤在计算机视觉领域深耕多年,一直处于行业领先地位;如今,我们把视觉与大模型结合在一起,构建多模态大模型。
我们非常清楚,当前多模态大模型的能力边界,已经能够理解相当复杂的二维图像。但即便是最顶尖的模型,无论是Gemini还是GPT,一旦进入真实的物理空间,依然十分脆弱,常常闹出不少笑话。这也正是当前所有机器人只能在垂直场景中作业、而无法迈向“2.0时代”通用机器人的关键能力瓶颈。
举个例子,AI看一只狗的活动,因为它见过海量影像,所以知道狗在做什么;可是当我们理解“一个球放在桌子上,桌子一移动,球就会滚下来”这样的场景时,AI却很难真正理解。
这也是为什么大家会发现,无论是Sora,还Seedance生成的视频,常常不符合物理规律——因为本质上它并不理解背后的道理,它只是记住了海量看过的视频影像而已。
所以我们相信,真正开启未来物理空间的钥匙,一定是从第一性原理出发,去理解这个世界。
从第一性原理出发理解世界
从去年下半年开始,我们做了一个专项SenseNova-SI(Spatial Intelligence,空间智能)。我们通过细致地分析,把空间智能拆解为六个维度的能力,包括如何判断视角、如何判断物体之间的关系等等。

最初做这件事时,我们拿世界上最知名的模型Gemini、GPT,去看一些非常简单的三维结构,结果它们都闹出了不少笑话。
大家或许还记得去年一个很典型的例子:拿一张有六根手指的照片去问模型有几根手指,基于语言先验,它会告诉你有五根。这是因为如今很多多模态模型都依赖极强的语言先验来回答问题,并没有真正看懂这个世界。而这种情况,在真实的物理空间里是非常危险的。
我们进一步追问:这到底是不是数据问题?是不是训练数据不够多,只要再加入更多多模态数据就能解决?结果,我们得到了一个非常反直觉的观察——它呈现出一种“反Scaling Law”的现象:这类数据加得越多,在某些类型、尤其是视觉判断类的任务上,性能反而越弱。
原因在于,语言先验被更加牢固地固化进了训练数据里。因此,我们必须寻找新的Scaling Law,才能真正打破空间智能的困局。
为此,我们开始构造新的数据,甚至探索新的训练范式,不再是Predict the next token,而可能是Predict the next view,甚至next view中的某个local part。
这样一番努力,让我们在相当短的时间内——其实这还不是一个投入很大的探索性项目——就在空间智能这条赛道上,在多个国际权威榜单上取得了超越GPT-5和Gemini等顶尖模型的能力。它当时还只是一个用于验证的模型。但更重要的是,我们找到了一条更高效地通往空间智能的Scaling Law。
把语言模型、生成与理解统一到同一个模型之中
在推进这件事的过程中,我们在尝试新的训练范式时,遇到了一个非常关键的瓶颈:现有的训练范式只能Predict the next token,这是LLM的底层逻辑。
可是,如果我们想要预测的是另一个视觉局部,那么在不具备生成能力的情况下,根本无法完成这种预测,因为视觉的预测需要先生成出这一块内容,再去做比较。
要真正突破空间智能,经过长时间的研究,我们得出了一个非常重要的结论:必须把语言模型、生成与理解统一到同一个模型之中。一个模型必须同时具备这两种能力,既能生成语言,也能生成视觉世界的要素。
正是从那时起,我们从真实的需求出发,全力投入到“理解与生成统一”这一方向,并在去年9月提出了相应的架构。
这是我们今年4月刚刚发布的新模型,叫作SenseNova-U1。我们不仅更新了版本号,更直接更换了前面的前缀,这是一次非常大胆的尝试。

第一,我们把理解、推理与生成统一到了一个完全创新的模型底座之上:原本多模态理解所依赖的视觉编码器(visual encoder),以及生成所依赖的视觉自编码器(visual autoencoder)被全部摒弃,转而形成一个真正共享(shared)的latent representation(潜在表征)。
第二,在这样的架构之上,模型能够自由地在语言生成与视觉生成之间切换,用语言来表达它的理解,用视觉来表达它的想象,从而真正完成连贯的图文交错创作。
在一系列基准评测中我们看到,这个模型在理解、推理、生成三方面都能在单一模型上达到对应的SOTA水平。而这还只是一个8B体量的实验版本,它已经能够媲美国内一些比它大得多的商业旗舰模型——虽然还没有完全达到Nano banana的水平,但我们已经找到了更高效的Scaling路径,下一步就是去触及更高的天花板。
仅凭一个8B的模型,我们就已经能够生成排布密集、错误率极低的文字,这是以往同等体量的模型完全做不到的。正是依托“理解与生成统一”,我们让一个小体量模型具备了远超其体量的能力。
更重要的是,它打开了一个全新的空间——模型可以自如地在图文世界中穿梭,无论是想表达理解,还是想表达想象,都能自如完成。

比如它要完成一个建筑风格的设计,就会不断思考下一步该做什么,在这个过程中一步步把建筑细化出来,最终形成一份成形的设计稿。它不是一个单纯生成图像的模型,而更像一位会思考的设计师。
在这个场景里,我们为一个生图模型注入了思考,又为一个会思考的模型注入了想象。这个模型最重要的意义,并不在于它当下达到了多高的性能,而在于“统一”所带来的全新表达空间和全新可能性。
一个大脑,同时活在数字和物理世界
这是《终结者 2》(Terminator 2),一部非常著名的电影,它恰好捕捉(capture)了我们对未来人工智能终极形态的理解。

影片中的主角能够实时感知现场瞬息万变的状况,在脑海中完成各种分析,进而指导自己迅速行动。在这样的智能体身上,他不仅拥有在物理空间中自由行动的能力,同时还能把物理空间中的诸多信号转化为语言信息、转化为数字信息,进行深度分析。
在他身上,数字空间的分析与物理空间的行动是完全融为一体的。这,才是我们所看见的未来世界的智能,也正是它下一步应当发展的方向。
这正是数字空间与物理空间的交融。

几个月前,香港发生了一起令人痛心的事件——宏福苑大火。
我们不禁设想:如果我们真的拥有这样的智能体,能够进入现场执行搜救,那将会为身处灾难中的群众带来多大的帮助和慰藉。但这绝不是放进去一只机器狗、一台机器人就能完成的事情,它需要对火灾现场进行各种各样的分析,而这种分析靠的不是“小脑”,必须依靠真正的大脑。
它要综合地图、消防通道、人员状况等多方面因素来做出决策——它需要在数字空间里整合各种模态的信息进行判断,同时指导自己在物理空间中敏捷地行动。这两件事必须在同一个大脑中完成,而不是两个大脑。我们人类之所以能同时做好这两件事,正是因为我们只用一个大脑。这是我们所认为的未来智能的终极形态。
今天的SenseNova U1并不是终点,它为通向这一智能形态提供了一个全新的模型架构,让图像、文字乃至未来更多的模态,能够在同一个上下文中表达,在同一个大脑中思考与想象。我们今天迈出的这一步,对于人工智能的发展有重要意义。
最后我想说,AI领域每天都在发生新的变化。我始终认为,AI是一场长期的旅行,是一场长跑。要真正抵达未来,我们既需要敏捷的行动,更需要长期主义,唯有以长期主义为支撑,我们才能走得足够远。而要在这条路上走得越远,我们就越需要与用户建立深层的连接。
在众多产品上,我们都看到了这种连接的力量:商汤小浣熊已拥有1500万用户;视频模型Seko去年还只有20万用户,今年第一季度就已有75万创作者在使用,并保持持续高速增长。
这是因为我们真正让端到端的价值触达了用户的内心,也正是凭借这样的闭环,我们才能一路走向未来。
谢谢大家。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
超千人线下参与、数百万观众在线观看的中国AIGC产业峰会实录来了!
近20位AI实战派如何看Agent、多模态、应用、算力... 全部干货,点击回顾 👇
一键关注 👇 点亮星标