
重新定义问题、评估真实价值、重构产业生态。
今年4月,时任OpenAI研究员姚顺雨写了一篇博客《The Second Half 下半场》,他认为:“AI的下半场将把重点从解决问题转向定义问题。在这个新时代,评估将比训练更重要。”
12月17日,腾讯升级大模型研发架构,新成立AI Infra部、AI Data部、数据计算平台部,全面强化其大模型的研发体系与核心能力。姚顺雨出任“CEO/总裁办公室”首席AI科学家,同时兼任AI Infra部、大语言模型部负责人。
一场新的竞赛开始了。
这一年,AI技术正从“规模竞赛”转向“价值定义”。AI下半场的关键不在于模型有多大,而在于能否通过评估、Agent与应用场景构建,创造新问题、新工作流和新产业生态。
AI似乎已经走进了下半场,但是关于下半场本身还有很多问题等待厘清。
在12月3日举办的“轰然成势,万象归一”2025甲子引力年终盛典的巅峰对话环节,甲子光年创始人&CEO张一甲与面壁智能联合创始人&CEO李大海、云知声创始人&CEO黄伟、昆仑万维董事长兼CEO方汉、它石智航创始人兼CEO陈亦伦一起聊了聊《当AI走进Second Half》。
在这场关于“AI下半场”的讨论中有三个关键词:重新定义问题、评估真实价值、重构产业生态。而这些来自AI产业一线的佼佼者将会做出怎样的回答?
以下为本场巅峰对话的文字实录,经「甲子光年」编辑,在不改变原意的基础上略有删改。
1.什么是“AI下半场”

张一甲:今天我们一起聊聊“AI下半场”,首先请四位嘉宾介绍一下自己和所在公司。
李大海:大家好,我是李大海,面壁智能是一家具有清华背景,且专注于推动端侧大模型研发及产业应用的公司。自 2022 年 8 月成立以来,面壁智能已逐步形成“理论-模型-工具-应用”的全链路技术生态闭环与产业向心力。围绕“密度法则”(Densing Law)的科学化理论与架构创新,我们自主研发MiniCPM面壁小钢炮系列端侧模型,凭借超高效能优势,不仅收获了来自开源社区、开发者的广泛认可,更推动了在汽车、AI手机、AIPC、智能家居等终端领域广泛落地。
黄伟:大家好,我是黄伟。有朋友开玩笑说,云知声是一家“古典主义”人工智能企业,意思是我们活得比较久,所以我对“AI下半场”的话题可能有自己的一些想法。
云知声成立十多年了。在AI 1.0时代,专注投入AI算法和所谓的“小模型”,给客户提供基于算法和模型的产品和解决方案;到了大模型时代,我们自己研发了大模型,并在一些确定场景里面提供了基于自研大模型的产品和解决方案。
方汉:大家好,我是方汉。我们公司是2008年成立,2015年上市,从2020年开始在AI方面加大投入,2022年12月份发布国内第一个13B开源的中文预训练大模型,公司目前主要业务海外(95%的收入来自于海外),目前在海外的AI产品,有AI音乐、AI社交、AI视频以及短剧等业务。
我们重点关注AIGC领域,在海外AI业务均已产生大量的收入,我们相信全球AI应用市场会蓬勃发展。目前的状态,技术远超前于产品,我相信这个情况会在“AI下半场”得到极大改观。
陈亦伦:大家好,我是陈亦伦,我们是一家年轻的公司,2025年2月5日成立。它石智航是一家AI驱动的具身智能机器人公司,希望以机器人技术和具身智能技术为核心,打造可信赖的具身智能全栈系统,让它可以规模化地走入到大家的生产和生活中,我们也很感兴趣用技术解决高价值的生产生活问题。
张一甲:首先我们来聊聊“重新定义问题”。过去几年,我们见证了“AI上半场”:算力狂飙、模型军备竞赛、参数越卷越大,大家都在拼“更强的模型”。今年4月,当时还是OpenAI研究员的姚顺雨提到了“AI下半场”的概念,他认为:在这个新时代,评估将比训练更重要。我们不再只是问“我们能训练出一个能解决X的模型吗”,而是在问“我们应该训练AI去做什么,以及如何衡量真正的进步”。我想知道,你们认为我们进入“AI下半场”了吗?你们理解的“AI下半场”有什么特征?
李大海:“下半场”的概念,不同的人会有不同的理解。
我个人观点,从技术上很难说已经到了“下半场”。比如,从最近谷歌发布的Gemini 3展现出的惊艳效果来看,大家发现预训练时代还没有结束,依旧能带来惊喜。从技术层面来说,还有智能体的突破、大模型如何提高个性化记忆及主动学习的能力,以及模型之间的如何更好的协同完成更复杂的任务等等,这些提升模型智能能力上线工作都还在路上,所以技术上远没有收敛。
但是从应用的角度来讲,“下半场”肯定到了。以前发一个模型,大家只能拿行业里面的标准评测集去评分。现在大家主要关心大模型如何赋能实际业务,更关注成本、ROI,跟人比效能是不是更高。越到后面,大家越会用产品说话,所以从应用层面来讲,这个过程在稳定持续的发生,但是不会一蹴而就。

面壁智能联合创始人&CEO 李大海
黄伟:如果提“下半场”,好像有点隐含的意思是说“上半场”的事已经做得差不多,条件具备了所以开始“下半场”,这好像拿到毕业文凭才能找工作。我的观点是需要“勤工俭学”,一边读书一边工作。我认为,所谓的“下半场”,其实是2023年就已经开始,在某些场景里,有些公司已经开始尝试用一定的模型能力去解决问题。
如果没有做严格的区分,所谓的“上下半场”可能会同时存在。一方面基础模型在不断迭代升级,可能也会出现做了一些数据调优工作之后,发现一个新的大模型比调优之后做得还要好,但并不意味着这件事不重要。如果人工智能始终在做研发没有落地,可能就是泡沫。
但还有些问题更重要:定义的AI能力是什么,定义AI要解决什么问题。
其实,不同人对AGI(通用人工智能)的定义也是不一样的,有的人可能会把AGI想得无比强大,同时要具备20个博士学位,甚至在很多领域达到院士的水平。但其实AGI可能也就是普通人,比如自动驾驶领域,难道开车需要博士学位吗?所以我们要定义一下,在什么场景需要什么能力,这可能是“下半场”比较重要的话题。

云知声创始人&CEO 黄伟
方汉:我个人看法是,实现AGI之后才会有“下半场”。但是这样的话,今天就没法讨论了。
如果按照一甲之前引用的观点,我可以从宏观层面下个判断:当AI产品不以技术、算法作为护城河,而更多的是以产品创新或者用户黏性作为护城河,“AI下半场”就到来了。
在微观上,我认为,就像之前互联网和移动互联网时代一样,当一个公司的产品总监的薪资跟算法总监的薪资看齐的时候,我认为“下半场”就真的到来了。

昆仑万维董事长兼CEO 方汉
陈亦伦:我之前仔细阅读了姚顺雨博士的那篇Blog,他提到“上半场”跟“下半场”,我理解是一个大型AI系统发展的节奏,我想用另外一种方式来诠释我对这种节奏的观察。
在行业里其实有三个Scaling Law:
1.对于数据的Scaling Law;
2.对于算力的Scaling Law;
3.对于环境或者推理时运行时间的Scaling Law。
这三个Scaling Law,它是有先后顺序的。你必须先打穿第一个环节——数据墙,才有资格进入到第二个环节——算力墙,当你打穿算力墙的时候,才有资格进入到交互态,进一步提升能力。
这三个发展的阶段决定了不同行业的发展节奏。以我在上一个十年全身心参与过的自动驾驶行业为例,2019年到2021年,自动驾驶行业最头部的公司率先打破了数据墙,这个时候大家已经能看到自动驾驶具备很好的能力了。2022年到2025年是算力跟数据丰收的红利期,大家可以看到路上其实自动驾驶系统已经很多了,它是不是做得足够好了?没有。这些问题集中体现在自动驾驶车辆怎么跟其他的社会车辆互相交互、避让,那么就需要一个训练环境。环境就是第三层次Scaling Law,也就是驾驶级的世界模型。
我觉得这件事情基本上跟大语言模型的发展过程等同,我认为大语言模型是一个被祝福的领域,因为它没有数据墙这种说法,它从出生的第一天,互联网数据就是极其充沛的,所以它直接跳过了第一个阶段,进入到了第二个阶段。你会发现一开始,大家就在疯狂地比拼算力。不过,我认为第二个阶段的红利已经在慢慢降低了,大家就到了第三个阶段。第三个阶段是我们怎么样清晰定义任务,赋予它的交互模型,然后再上类似强化学习的方法,这样就有希望能够在单点或者是多点任务上彻底解决这个领域。

它石智航创始人兼CEO 陈亦伦
张一甲:接下来我想分别问各位嘉宾一些问题。大海总,我们知道面壁智能一直在强调模型能力与场景融合,比如你们已经将VLA多模态大模型部署于汽车智能座舱端侧。在这个过程中,谁来定义“AI该做什么”?是你们自己还是来自场景或客户?
李大海:这肯定双向奔赴。作为AI公司,面壁智能更擅长的持续提升模型智能能力并提高模型应用的性价比,模型擅长做什么事情。但是模型能做的事情太多了,哪些事情真正有价值,这个价值锚点是由客户来提供。
就拿智能座舱举例,我们的MiniCPM端侧模型部署到汽车的智能座舱中,能够准确识别不同的用户、理解用户的指令,感受用户的情绪和舱内舱外的环境。但这个能力最后在哪些场景里面有价值?很多时候是需要我们与客户、主机厂一起来共创、定义的。
比如说AI发现后座上有小朋友,会主动开启儿童锁,用户会觉得这个功能很有用。在吉利的银河M9这款车上,超过90%的用户都会主动打开端侧大模型的功能,我们觉得这是一个很好的正面反馈。
张一甲:黄伟总,首先恭喜云知声以“港股AGI第一股”的身份完成上市。云知声已经成立十多年了,在这个过程当中你们面临了无数的分岔路口,身边的人也是来来往往。云知声长期深耕语音、多模态和产业场景,尤其是医疗场景。前段时间我们对话时你跟我说“云知声不做特别大的平台型大模型,那种模型评测可以,但落地很难”。这一路走来,你们是怎么定义问题的?
黄伟:我觉得每一个做实业的创始人都要回答:公司定位是什么,竞争优势是什么。
我们做医疗并不是因为今天有了大模型,大家看好“AI+医疗”。恰恰相反,我们在十几年前就开始做医疗,而且我们是在很多人不看好,十多年前很多医院没有信息化,数据还没有数字化的情况下,我们就已经决定做了。
那么,为什么我们选择做医疗,有两个方面原因。
第一,这个事业的天花板足够高。人类有两个H很重要,一个是Happy,一个是Health;第二,医疗在国内其实它并不是一个巨头可以统一的领域,就算是今天BAT过来做,依然很难做。它是一个非常分散的市场,相对来说,它对创业者来讲会起到某种保护隔离作用。
当然,很多时候选择就意味着痛苦和坚持,因为在那个时间点做医疗的话是很难的事情,面临的是“先有鸡还是先有蛋”的问题。你凭什么让医院用你的产品?难道我能跟院长说“你把数据给我,我就能做好”?
To B和To C是完全不同的决策机制。To C的话你只需要80%的人说你OK就可以了,很多人你用各种营销手段是可以影响的。To B是关键人决策,就是90%的人说你好,没用,一定要关键决策者或者是流程机制认可你。
所以你的决定能不能落实,就是你的心理、定力、耐力、毅力各方面的综合考验。在这个过程中,我们坚持下来了。
今天来看,第一,我觉得“AI+医疗”是大家比较认可的一个方向;第二,我们确实做得比较早,有先发优势,我们覆盖了几百家医院。这些都是我们今天医疗大模型在医院内部能够更顺利落地的一个重要前提。
张一甲:方汉总,我是你们的用户。昆仑万维今年推出了多款AI模型,天工大模型4.0、空间智能大模型Matrix-Zero、视频生成大模型SkyReels等。你们推出了这么多的模型,这期间有没有收到一些反馈,从而让你们觉得要做什么、不做什么?
方汉:其实我觉得所有做AI业务的决策人都会遇到一个问题,就是B端跟C端的反馈是完全不一样的,我认为B端对于效率更敏感,C端对成本更敏感。
在B端,现在最好的商业模式是编程,编程基本上就是增效。在B端,你一定要说服客户,我们能够帮你大幅提高生产效率。比如,我们做的天工超级智能体(Skywork Super Agents),可以给B端提供deep research的功能,不用人干预就能快速生成一篇很详细的分析文档,一些B端的用户反馈,这至少帮他省了几十个实习生的工作量。
在C端,情感供给是刚需。但是如果由真人来供给情感,成本是绝大多数人没法接受的。如果用AI来供给情感,就可以把成本打到真人的几十分之一,这种商业模式在C端就会迅速爆发。所以,我们选择了AI社交这个赛道。
简而言之,一个AI产品到底该做不该做,其实就看在B端增加多少效率,在C端降低多少成本,凭着这两点去分析应用场景,基本上我觉得就可以get到用户最关键的需求。
张一甲:亦伦总,它石智航的英文简称是TARS,这让我想到了电影《星际穿越》中的机器人TARS,它石的TARS代表的是“Trusted AI and Robotics Solution”(可信赖的AI和机器人解决方案),我们应该如何理解Trusted AI?你们是一家非常年轻的公司,某种程度上说,你们处于后发身位,你们是如何选择要做什么?
陈亦伦:我们公司起名字确实是参考了TARS,因为我们公司的创始团队都是《星际穿越》的忠实粉丝,电影里面我们最喜欢的机器人就是TARS,它真诚、幽默、可信赖,所以我们希望我们做的机器人也是可信赖的。
我一直在做物理世界AI,我觉得AI在物理世界的可信赖最基本一条是能力可信赖。
比如说对于一个自动驾驶系统,我可以放心地把方向盘交给它,这件事情背后是因为它的能力在我之上,或者按照L4的标准,它的能力应该是人类驾驶10倍以上为技术保证。
再比如说我在参加一个重要的国际活动,用一个语言模型做翻译的时候,我可以非常信赖它的翻译是对的。
对于机器人来说这一点就尤为重要,所以说我们希望打造在能力上非常优秀的,让这个机器人非常可靠、可信赖、可以对生产生活产生价值。
我们选择落地场景有三个原则:第一,必须是真实需求,真需求往往来自行业最迫切的痛点;第二,要有足够的市场颗粒度,解决这个问题后能覆盖一个足够大的市场;第三,要有技术难度,真需求、大市场往往伴随着极高的技术门槛,这也是我们的核心竞争力所在。
2.多维度对AI价值进行评估
张一甲:那我们就就来聊聊第二个关键词——“评估真实价值”。AI模型存在一个根本性矛盾:它们在高难度、设计良好的benchmark(基准)上表现得很惊艳,但当应用到真实世界,落地到产业中,面对复杂多变的场景时,往往会出现一些问题。如果让你们设计一套评测体系来评估AI模型的真实价值,你们会如何设计?

甲子光年创始人&CEO 张一甲
陈亦伦:首先我也非常认同现在很多AI模型打榜结果非常惊艳,但是在实际部署过程中,它可能会出现一些不符合期望的现象。
按照一个更加工程化的视角来看,AI模型其实就是在逼近数据分布。你训练时候的分布,跟你实际应用时候的分布,这两个分布如果越接近,它的性能就会越好。为什么说打榜的AI不太容易泛化呢?恰恰因为它过度聚焦于打榜,所以它会让整个的数据分布越来越远离,这会出现问题。
如何消除这种问题?各个领域都有自己的一套方法,我可以提供一套之前行之有效的方法论,就是自动驾驶影子模式。自动驾驶影子模式是一个典型的、部署的数据跟训练的数据在任何角落、任何时刻都能够对齐的一种方式。即便你人在开一辆车的时候,它背后也有一个像影子一样的自动驾驶模式随时在跑,它会随时判断AI输出的结果跟人输出的结果是不是一致,发现异常数据都会被收集并加入到训练。这样就可以每时每刻都在做评测,收集出来的数据都能够动态的反馈到系统,让它变得越来越好。
我观察到,不仅是自动驾驶领域,我觉得很多AI相关领域都有这样的影子模式,机器人也是一样,所以说我觉得它背后的关键还是怎么把训练的数据跟实际使用的数据尽可能拉齐。
方汉:现在为了刷benchmark,很多的大模型要么背题,要么背答案,要么背过程,现在更多是在背过程,最大的问题就是这些题目是固定的。
这个情况其实跟我们平时在招聘的时候遇到的问题是一样的,招聘的时候我们可以通过两个方面判断:
第一,看这个人是哪个学校毕业的,学历如何,这个就是好像现在的benchmark;
第二,看这个人做过什么项目,在项目中解决了什么问题,这个就是实际的应用场景。
我认为,现在的benchmark还是有非常大的作用,因为它有非常统一的标准,但是现在所有的benchmark都在拼命的换题。与其这样,我觉得不如把现实世界的工单作为一个评测标准。比如说我们在Github上,把Github上每时每刻提交的新的issue(问题),让所有参加测试的大模型同时去解决,看谁的完成率更高,我认为这种是相对比较公正的。
第三,把真实世界的工作流引入评测体系,比如要看AI产品的用户真实数据,比如用户留存率。把流量分给不同AI产品,最后看哪个AI产品的用户留存率最高,这是非常干的数据。
黄伟:我基本认同方总的观点,我也分享几个方面的想法。
第一,我们模型优化的方向是不是现实世界里面迫切需要解决的问题。
第二,我们有没有必要让物理学博士一定要把川菜做得很好吃,因为毕竟我们现在很多所谓的评测榜单都是有模拟题,通过刷题你是可以刷到比较好的,但是未必代表一个真实水平。
所以我觉得非常重要的一点,就是我们要了解在真实世界里需要解决什么问题。当然To C和To B的问题是不太一样的。To C这一块可能要解决80%、90%人的80%、90%的需求。但是To B这一块你可能要解决这个场景里面这个客户当下的痛点是什么,如果你定位很准确的话,我们是有足够多的手段来解决好这个问题的。
3.产业生态正在底层发生重构
张一甲:最后,我们来聊聊“重构产业生态”。你们用AI改变了哪些产业的生态?可以讲讲最新的进展和实例。
李大海:我们看到了一些变化。
一是大模型的应用在向端云协同的方向演进。比如我们已经把端侧大模型部署到汽车、手机等终端上,用户也开始在手机上利用端侧大模型执行复杂的任务。在我们看来,端云协同最大的优势在于模型响应快、数据不出本地确保隐私安全。
在云端,大家用AI解决一些复杂的问题时,模型深度思考10秒没有任何问题,甚至做一份Deep Reaserch,半个小时后再给一份完整的答案也可以接受。但是我们在跟机器人、智能座舱和手机设备互动的时候,希望它可以立刻响应,这背后的速度以及功耗也都是大模型规模化应用需要考虑的关键因素。
二是有些企业从直接为用户提供服务,转向为Agent提供服务。从App转向Agent这个过程中,服务用户和服务Agent慢慢会产生新的迁移,这背后有很多的机会。
黄伟:我们现在做的事情更多是延续,但是我感觉到这个行业在更底层方面在发生重构。比如豆包手机助手,五年后回头看,也许就是里程碑式的事情。
我们主要是To B的模式,以前给客户提供的是基于Bert模型的产品,现在开始给客户提供基于GPT模型的产品,当然性能和能力相比过去都有显著提升。现在我们在门诊环节,可以给医院提供基于大模型的门诊病历生成系统,这背后就是数字医生,从这个角度来讲,我们既是延续也是重构。
另一方面,我们在一些新的场景,或者根据一些新的需求,做微观层面的重构。包括企业组织结构,原来是人人协同,接下来可能是人与Agent协同。以前我们通过网站操作并执行任务,后来通过APP,而现在的AI Agent可能就没有界面,用户告知意图,它可以帮我完成所有的任务。这是接下来所有人必须要重点关注的,这里面也是蕴藏着巨大的商机。
方汉:我举个例子,我们发布的音乐生成大模型Mureka。大家可能以为传统的歌手对我们的音乐生成大模型是深恶痛绝,但实际他们是最愿意拥抱音乐生成大模型的群体。因为歌手在做歌的时候,有一个工序是做小样,做一个小样可能成本要几万元,一个月的时间能做2-3个小样。现在他们用Mureka,可以在一天之内做出十几个小样,拿这个小样可以直接到抖音上投流看用户反馈,找专家评审,这使得所有歌手做新歌的速度比原来快很多,这是我们观察到的第一个对产业的影响。
第二个例子是Skywork Super Agents。因为我们做行研的速度非常快,导致很多券商原来要请大学生写行研报告,现在这个工种几乎已被AI取代。我跟很多券商的朋友交流过,他们都使用我们的Skywork Super Agents做快速的行研报告,每次股市上一个新的事件出来之后,可以很迅速的在几分钟之内把行研报告写出来,他们再根据行研报告做决策,这对于二级市场的影响非常深刻。
张一甲:我家人在炒股,就是在付费用你们的Agents做行研报告。我想补充问一下,因为你们有大量的C端用户,在大量真实的场景中,有没有什么数据或用户反馈让你觉得非常有意思,或者和之前想得不一样?
方汉:其实我们做AI聊天的时候做过大量用户访谈,一开始认为大家AI聊天都是要满足生活中满足不能不了的幻想,结果用户调研之后发现根本不是,用户跟AI聊天主要两个原因:第一,用户认为和AI聊天没有社交门槛和心理障碍;第二,用户觉得跟AI聊天是特别安全的事情,因为AI不会“电诈”你,跟真人聊天很有可能遭遇“电诈”。这是用户反馈跟我们想象有很大差别的地方。
张一甲:请亦伦总分享一下你观察到的AI给产业带来了什么样的改变?
陈亦伦:我们在做机器人,它是软硬结合的领域。我观察到,这一代机器人的企业有一个非常明显的特点是,会主动在硬件设计中考量AI,我们的机器人硬件设计标准也是“designed for AI”,这样的好处是能尽可能缩小digital-to-physical gap。
举两个例子:第一,现在的机器狗、机器人,关节都走向了直驱或准直驱。为什么要做这样的选择?因为这种最容易被AI建模、最容易被AI驱动,Sim2Real的gap会比较小;第二,在设计整个硬件系统的时候,我们和生态合作伙伴,首先讨论的问题已经不是机械怎么安装,而是在考虑计算流怎么走,算力是怎么分配的,通信怎么走,延时怎么卡。这其实就是AI在驱动硬件的趋势。
张一甲:每年甲子引力年终盛典其实都是产业交流和资源对接平台,会有各行各业的决策者来到现场。各位嘉宾也都来自产业,站在岁末的时间点上,展望新的一年,你们有什么期待?
陈亦伦:回到我最开始提到的AI发展的三个阶段:数据、算力、环境。三个阶段要三把钥匙解锁,我们目前接近于拿到了第一把钥匙,希望明年可以跟大家汇报,具身智能Scaling Law的这几把钥匙都是长成什么样子的。
方汉:我的期待比较明确,希望看到基于AI的全新产品模式出现。如果只是一味迭代算法,现在并没有没有太多aha moment(顿悟时刻),但我相信产品的aha moment会大量涌现。
黄伟:对过去两年AI技术演进,自己感到非常意外和惊喜,期待明年世界模型有更加超出预期的表现,这样会进一步加速AGI。
李大海:我比较期待明年大模型在自主学习上进一步突破,且能够跟端侧应用有机结合,期待有更多的硬件能够进入到各位的组织里学习、进化,成为大家的硅基同事。
张一甲:可以感受到,这场巅峰对话与上一场巅峰对话的画风非常不一样。
黄伟总刚才提到一个词叫“勤工俭学”,各位做的事情就是一边工、一边学,在研究的时候做好商业,从商业反哺我们的研究,我们也会看到越来越多的真实世界实践,这恰恰是对于技术迭代本身的一个很好的校准和反哺。
非常期待四位嘉宾在做AI和做公司两件事情上取得更好的进展,谢谢大家!
(封面图及文中配图来源:2025甲子引力年终盛典)
END.

