特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型

3D视觉工坊 2025-12-25 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:具身纪元

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图1

12月2日,在NeurIPS 的 Expo Talk 环节,特斯拉的Daniel Kurek带来了一篇公开演讲"Building Foundational Models for Robotics at Tesla" 。


01

总结速览


  • 端到端是什么:用一个巨大的单体神经网络从多模态传感(摄像头、地图、惯性、轮速等)直接输出驾驶动作,“从像素到车轮”,中间不再拆分感知/规划/控制的多层接口。


  • 为什么端到端


    • 传统分模块接口多、易脆弱、难调出类人且安全的行为(场景稍变就要换策略,接口协同易出怪异)。

    • 单体模型让架构更简单、可扩展,最大化利用海量真实车队数据。

    • 风险/挑战:输入空间超高维,数据量巨大,通过合理触发模式解决。

  • 生成式世界模型:在基础模型上扩展的“神经仿真”,能接受当前状态与动作,生成下一帧世界(视频、3D结构、地图、其他参与者状态、甚至音频),相当于一个可闭环的虚拟环境。


  • 作用


    • 评估:把任何真实片段变成可回放、可编辑、可条件化的测试用例;支持人类在仿真中驾驶。


    • 训练/鲁棒性:闭环学习可注入约束、扰动、覆盖真实车辆标定分布,优化多目标(安全、舒适、速度、对冲风险)。 生成式3D重建:高速输出高斯点云,含动态物体与语义,提升解释性与安全。


  • 未来规划:继续扩展Robotaxi城市与车队,推出更低成本的Cyber专用平台;生成式能力拓展到机器人操作(行走、开抽屉、搬运、操控柔性物体);保持在工厂与车队的规模化自动驾驶落地。


02

演讲原文


一段舒适、平顺、自动的旅程把你送到目的地,真的很棒。值得注意的是,这项技术今天在部分地区已经可用,很快会在更多地方落地。


这里展示的是第一辆完全无人驾驶的交付案例,车辆从工厂开出,通过城市道路、居民区、高速行驶多英里,把车送到奥斯汀的客户手中,车里没有任何人。


同样的路线,同样的场景,你再看一遍,车里依然没人。高速上是正常的轻度车流,我觉得这太疯狂了,表现已经相当成熟。


此外在美国的每家工厂,车辆下线后会自主唤醒,自己行驶两英里,最高可达一百英里,通过厂区道路和车流,大幅提升工厂效率我们已经在多个维度大规模部署自动驾驶。


特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图2

1. 为什么选择端到端架构


今天要讲端到端的自动驾驶架构是什么、为什么这样做、开发中的挑战,以及为实现它所用的技术;还会讲模型创新与整体思路。


特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图3


这张示意图展示了驱动车辆的策略模型,它就是一个巨大的单体神经网络


所谓“从像素到车轮”,就是直接从高分辨率摄像头画面获取输入,同时接收地图数据和惯性、轮速等高频传感器输入。这些被压缩成低维动作预测,包含转向、加减速、健康状态,基本就是驾驶所需的一切。 输入空间维度很高,这是真正的挑战。我们最终希望把它打造成基础模型,我觉得能做到。


特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图4


(1)模块化接口的脆弱性


为什么要这样?过去很多公司(包括我们)尝试“感知—规划—控制”堆叠:感知检测、分割世界,打包成稀疏表示,再给规划器驱动。看起来是好主意,但一旦落地,很难调出既安全又像人类的行为,达到社会可接受的驾驶表现。


特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图5


接口越多,越容易触发奇怪行为。比如前方有大水坑,在居民区或积雪坑洼的路上,用户期待一个类人的体验,但决策边界非常敏感。旁边如果有停着的车,或者区域更拥挤,决策就要变化,“正确”是让乘客觉得舒适、合理。有人接近时可能减速、可能加速,或直接通过,必须平衡乘客体验。


特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图6


规划与感知、规划内部模块之间的接口也很脆弱。


有个例子:马路上有鸡过路,我们必须理解那是鸡,它往哪走,意图是什么,并处理不确定性。设计本体时也许没把鸟类当作关键对象,但它们确实影响驾驶类似地,一群不动的鹅,也要理解位置和不确定性,参数得准。还可能遇到车库门突然打开,需要减速绕行,因为可能有车或自行车冲出来。


手工设计这些系统,表示层很容易出错,复杂情形无法穷举。


再看技术例子:你可能把导航和短期轨迹分成两个模块一个给全局路线,一个给几秒内的具体轨迹。但要像人类开车,这两个模块往往需要互相沟通。


原计划左转,但前方有施工和三辆车,本地轨迹规划必须意识到无法按原路线行驶,及时通知导航重新规划,还得不阻塞周围交通。因此状态必须共享,与其多模块传递意图,不如用统一的“黑盒”网络。


(2)可扩展


除了避开接口难题,还有巨大优势:可扩展。我们有海量数据,这是最直接利用数据的方式。


特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图7


另一个好处是系统更简单。如果规划、感知分离,会有复杂多线程、状态消息、延迟和内存建模,系统负担大;但有一个静态、边界明确的计算图,扩展更容易。


2. 端到端的挑战


我们全力投入端到端,带来了很棒的结果。当然也有挑战:高维度、如何解释模型、如何评估等。挑战之一是问题空间巨大,输入流维度极高,甚至到数十亿。


特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图8

特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图9


因为有七八个摄像头的高分辨率视频、高帧率输入,地图、惯性等高频数据,甚至音频。麦克风能听到紧急车辆警报,也要理解。需要每帧都处理,还要有历史窗口才能成功,可能需要10、20甚至30秒上下文,规模迅速膨胀,最后要压缩成少量动作。


我们的优势是数据量巨大,但大多数原始数据其实很无聊:直路巡航,方向盘几乎不动。


特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图10

特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图11

特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图12


如何充分利用?我们用触发条件


开发者要解决某类场景或关注在线风险,可以动态下发条件,客户车辆检测到后自动采集上传。条件可以是运动信息(急加减速)、规划与实际人类操作的差异、人工接管等,也可以更复杂的视觉特征,如寻找特定路牌、红绿灯、校车等。


识别到就抓取片段上传。海量数据加触发器后得到的数据集很极端,全部是人工驾驶,涵盖各种极端天气和高难度场景。用数据驱动的端到端方法,我们得到出色泛化。


还有主动安全


放一段视频:一辆皮卡撞上护栏,自动驾驶测试车察觉异常立即减速。减速不是普通的,而是每秒平方-4米,正常驾驶不会出现。


模型隐含理解到有点不对劲,车失控旋转,可能有二次或三次碰撞风险,最好先减速。这不是手写规则,而是网络自然学到的类人直觉行为。


3.基础和世界模型


现在泛化不错,也利用好了数据,接下来是解释结果、保证安全、说服自己能上公路。这里开始像“基础模型”:输入多模态,输出也多模态。


除了控制动作(转向、加减速),还预测几何信息(自由空间、稀疏定位点)、其他物体状态(位置、速度、加速度:车辆、行人、骑行者)。还预测交通控制(信号灯及状态、标志、路界、车道线)、潜在交互概率,甚至用语言解释场景和决策。


除了下一步动作,还有各种输出。酷的是可以把这些输出(自由空间、语言等)再反馈回来,帮助模型做得更好,且可以选择性启用。


需要强调:这不是重复早期手工建模,而是额外输出,用来确保模型安全可靠。


(1)生成式3D重建


例如3D结构,假如我们预测成高斯点云,会出现一些问题。现成的高斯点云优化在开始时还不错,但一旦绕行换视角,质量迅速下降,出现不确定性;车道线高度线性,视角单一,难以获得新约束。


我们不做这种优化,而是训练生成式模型,让基础模型输出高质量点云,利用海量数据显著提升基线效果。


还有其他好处:传统优化耗时,而生成式方法只需几十毫秒,无需初始化或关键点,直接给相机帧就输出点云;动态物体也能捕捉,坐标空间更合理,还能获得语义标签,找到具体物体和车辆,用于驾驶。


再看静态物体例子:流式生成高斯点云,车辆行驶时实时生成。


镜头转动可以看到,随着移动获得新视角,模型理解大多数路边停着的车门是关闭的,所以当有人突然开门进入自由空间时也能识别;还理解文字等细节。


我们还能用文字对话:在奇怪路况下,比如前方有路障,可以问“能不能过去?为什么不能?该怎么做?行人在哪里?还要检查什么?如何绕行?”并得到标注好的回答。


还可以指向视频中的具体位置,辅助解释。


(2)评估困境与闭环仿真


我们对这个模型有信心,想要上线。但必须大规模评估。 测试集损失只是现实表现的代理,尤其是实时机器人。


特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图13

特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图14

特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图15

特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图16

特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图17

只看单帧评估输出,只能说“灯变了我们开始减速”,无法判断是否在红灯前真正停下。


必须闭环看行为才能评估,需要规模化。还有延迟问题:工程师主观认为“最好减速”,但可能还有其他可行方法避免风险。


若策略做了不同动作,评估可能判定失败,得分不佳,但未必错误。我们必须在高信噪的评估集上小心。


基础模型输出了丰富的世界状态,再加一点工作,就能把它当作世界模型


它能接收输入和当前状态,接收一个动作,生成下一个世界:新的相机序列、更新的3D重建、更新的地图、其他交通参与者状态,甚至音频。


这样就得到一个“神经仿真”:闭环虚拟环境。这里是闭环仿真的例子,生成高层视频并能逐帧查看细节,也能分解。


我们可以用它做评估和迭代。


假设某策略在某段视频里离行人太近,很不舒服,需要人工接管。我们想知道改进后的模型是否还失败,如果没有闭环仿真,就无法在现实复刻同样情境。现在可以,用改进模型闭环回放,发现这次更早避让、绕过去,乘客更舒适。


任何来自客户车队的片段,只要有趣,都能立刻进入评测套件,对未来的任何模型做回归测试,无需再去实地采集标注数据。闭环还能条件化,探索未来变体。


例如左边是原始片段,右边强制让对向出现多辆车穿行,模型无需再采集数据,就能处理这种条件化情况。


我们可以在闭环仿真中调整天气、交通密度、道路状态、标志、信号灯等;如果接受小幅推理开销,甚至可以把策略替换成人类驾驶者。


有个演示:世界模型实时流式生成高分辨率视频,不是策略在开,而是一个人手动驾驶虚拟车辆,感觉接近真实。


你会看到过路肩、过弯时的运动和物理很真实。会议现场的展位也可以试。


下面总结几种评估方式:单帧重放可重复、易规模化,但无法反映时间序列行为。


显式仿真可编辑、准确度还行,照片级真实感一般,其他智能体可能怪异,且不易大规模,需要专家生成场景,速度跟不上;真实道路最好,但成本高。


生成式闭环仿真兼具高真实感、准确度、可编辑性、可扩展性,是理想评测方式。


(3)系统鲁棒性与闭环学习


如何用基础模型和仿真提升驱动策略,或让它更稳健?我们可以把仿真用于闭环学习


  • 原因一:观察并约束闭环动力学,考虑车辆物理、延迟,甚至未知信息。


  • 原因二:如果想强制某些行为但数据集中缺少样本,可以在闭环中加入约束。


  • 原因三:可以在特定片段上做扰动,探索多种情景。


例子:有些强化学习策略会出现不必要的过度制动,原因可能是不知道车辆物理与延迟,或数据分布导致学到固定减速时间,现实中人们常常不会完全停下,数据偏差会渗透进策略。我们可以在闭环中强制正确行为,让策略别在该停就不停。


还有其他例子:从偏移车道开始训练,早期模型会跑偏,中期至少保持车道,后期则能很好回到车道中心。看似无聊,但其实很强大,因为它捕捉了真实车辆的“标定分布。


特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图18

特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图19

特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图20

特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图21


比如这辆车方向盘有2度偏差,要保持直行需打2度方向,这也包括车辆质量分布、胎磨损、相机标定、是否拖车等。


真实标定通常位于低维子空间,而经典仿真往往均匀采样所有可能,学习效率低;在真实片段上条件化的视频生成可以继承真实标定,让学习更高效。


世界模型较重,所以评估或学习时要采样高效,尽量复用算力、自动化流水线。


可以定义多种优化目标,不仅避免碰撞,还可优化舒适性、速度保持等;长时序仿真还能学到“对冲”行为,减少未来风险。


03

未来展望


综合来看,我们用大量数据应对巨大的问题空间,用世界模型生成模型构建基础模型(3D结构、行为交互等),用角色模型评估并通过闭环学习提升策略,形成数据—模型—仿真—学习的闭环。


结果是:在道路上使用特斯拉监督版自动驾驶的车辆安全性很高,重大碰撞概率比平均水平低约7倍,覆盖所有道路类型。


即便不用自动驾驶,只用主动安全功能(如自动紧急制动),事故率也显著下降,低于人类驾驶的一半水平。


这里的数字展示了全自动驾驶在实际使用中的碰撞率与人类驾驶相比的优势。这个比率在多种维度上都成立,已经在客户车队行驶的数十亿英里数据中得到验证,接近百亿英里规模。


特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图22

特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图23


接下来要做的,是扩展我们的robotaxi:从目前运行的两座城市扩展到更多城市,增加道路上的车辆数量,并推出Cyber专用平台,优化乘坐舒适、安全和成本(包括算力效率等)以实现更低成本的出行,追求极致效率。


除了软件,我们也在做机器人


你可以看到我们的平台在行走、平衡等方面表现出色,能够完成很多动作,样机每天都在进步。


视频展示的是从第一人称视角生成的行走画面,细节丰富,纹理准确,倒影等也很真实。


我们能在条件化前提下生成:让它直走、左转、右移,都保持一致性。成式能力不仅用于商业,也能扩展到操作任务,比如开抽屉、搬运、操控纸巾等可变形物体或动态物体,全部由生成策略完成。


总之,我们正在开发的技术非常酷,还在不断扩展;未来还有大量有趣又有挑战的问题要解决。


团队十分兴奋,正在寻找世界级工程师加入。非常推荐有兴趣的人来聊聊,看看园区里停车场的机器人,未来也欢迎更多人参与。谢谢。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉1V1论文辅导来啦!

特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图24

3D视觉学习圈子

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图25

3D视觉全栈学习课程:www.3dcver.com

特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图26

3D视觉交流群成立啦!

特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型图27
扫码添加微信,备注:姓名+方向+公司或高校名称,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IP 机器人 特斯拉
more
商汤、它石智航等具身智能新品亮相;银河通用、千诀科技等完成融资;智身科技获智元机器人超4098.3万元订单
技术分享|瑞萨在机器人领域的方案
规划能力远超GPT-4近30个基点!港科广等团队解锁 AI 物理智能新路径,机器人操控再升级
中国人形机器人登陆日本
特斯拉Daniel Kurek NeurIPS演讲:汽车、机器人与世界模型
1万台光伏清洁机器人!这家广东机器人成功中标
走向真实世界的机器人,离真正的「智能」又近了一步
猛料,雷军下一站或将是机器人
2025年中国水平多关节机器人市场规模、竞争格局及前景展望:国产化进程加速突破,推动SCARA机器人规模增至28.3亿元[图]
大晓机器人发布开悟3.0,国产世界模型让机器人拥有“超级大脑”’
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号