2025百度云智大会·AI+机器人专题论坛圆满收官

近日，2025百度云智大会在北京成功举办。百度智能云全新升级百度百舸AI计算平台5.0和千帆企业级AI开发平台4.0，让企业以更低成本、更高效率部署和开发AI产品。

会上，百度集团执行副总裁、百度智能云事业群总裁沈抖分享了百度智能云新一代AI云基础设施最新进展和落地实践。

其中百度百舸AI计算平台为具身智能 “大脑” 迭代提供支持，已全面适配主流开源具身VLA模型，将视觉语言模型强化学习训练速度提超1倍、单轮迭代时间缩超50%。

该平台已支持包括北京、上海、浙江、广东创新中心在内的具身智能“国家队”，并已服务产业链超20家重点企业，加速技术成果落地；同时，提供高效云端开发工具，实现研发两倍提效。

作为本届大会的重要环节，“AI+机器人”专场论坛吸引了全网超过数十万网友的在线观看。

来自北京人形机器人创新中心、国地共建人形机器人创新中心、智源研究院、维他动力、千寻智能、简智新创、智平方、北京大学、英伟达等具身智能行业技术先锋、企业代表齐聚，围绕具身模型、数据、人机交互、落地应用、产品出海等关键话题，共探泛化落地最优解。

▍具身智能关键期百度智能云打造AI基础设施推动产业规模化落地

百度智能云副总裁、泛科技业务部总经理张玮在致辞中表示，当前具身智能处于关键窗口期，虽有较大发展空间，但仍面临技术研发与应用落地的挑战。

百度智能云副总裁、泛科技业务部总经理张玮

百度智能云明确了在具身智能行业的核心工作为 “技术赋能” 与 “场景链接”：

技术层面，持续推进训推AI算力、数据采标、大模型、语音交互等方向的合作，助力具身企业的技术和产品研发，其中百度百舸AI计算平台最新升级的5.0版本中的部分新功能，便是顺应具身企业的模型开发专属需求而来。

场景层面，依托在各行业的AI落地经验，链接资源推动企业与场景方双向奔赴，共创可规模化的价值场景。

张玮认为，具身机器人融入场景时的“无违和感”，是行业进入下一阶段的标志，百度智能云将持续打造领先AI基础设施，携手伙伴推动具身智能从技术突破走向规模化应用。

▍具身智能基础模型多技术路线快速迭代落地场景应用可期

现场，北京大学计算机学院助理教授、智源具身多模态大模型中心负责人仉尚航详细介绍了具身智能多模态大模型演进趋势。

北京大学计算机学院助理教授、智源具身多模态大模型中心负责人仉尚航

仉尚航认为，构建具身快慢系统是具身智能从 “单一任务/本体” 迈向 “通用泛化” 的关键路径。技术路线上，一方面是以 “大脑 (推理)+ 小脑 (控制)” 的分层快慢系统，大脑模型负责任务拆解、规划，给小脑模型提示，小脑模型执行原子任务，该分层结构还具备底层系统支持，可跨越不同本体与场景应用。

另一方面则是VLA端到端快慢系统，通过将末端执行器的Pose预测重构为语言建模问题，快系统依据初始状态生成Action和Pose，慢系统利用结束状态进行失败检测与专家反馈纠错，同时具备持续性策略更新机制，将慢系统知识迁移至快系统，实现模型进化。

此外，仉尚航团队还提出Robo4D方法，通过构建4D空间提升机器人操作泛化性，利用先验引导算法基于单一视角视频片段生成四维世界空间，当视频质量欠佳时，能通过世界空间映射多轮优化视频质量。

▍百度智能云：加速具身智能技术及产品研发，助力场景应用多样化落地

百度智能云泛科技行业具身智能赛道负责人张龙君表示，百度智能云自 2023 年下半年专项投入具身智能赛道，核心价值是通过技术赋能与场景链接，助力企业突破技术研发与商业化落地难题。

百度智能云泛科技行业具身智能赛道负责人张龙君

在技术赋能上，百度智能云聚焦具身大脑、小脑、数据、本体四大方向，加速具身企业关键技术突破，助力产品持续升级。

在AI基础设施方面，支持包括北京人形、国地中心、千寻智能等企业的具身模型研发工作。目前，百舸平台已适配 RDT、π0、GROOT N1.5 等主流VLA模型，同时在WM世界模型和VLM模型上，全面实现了提效。

在数据方面，重点支持北京人形、国地中心、智源研究院等企业的具身数据采标工作，同时已与NVIDIA推进云上仿真平台等产品服务合作。

在人机交互方面，将百度多年在语音交互上的技术和产品化积累，迁移至具身智能领域，助力维他动力、云深处等企业打造“更懂人”的具身智能产品。

在安全方面，全力支持智元机器人多个量产型号产品的安全能力建设，为具身智能产品规模化量产保驾护航。

在场景链接上，依托百度智能云在千行百业的AI落地服务经验，联动教科研、康养、制造物流等领域资源，推动企业与场景方双向奔赴。针对商业化落地中操作成功率不足等问题，迁移自动驾驶业务“云代驾”超低延时遥操方案，为具身企业商业化落地提供保障，驱动真实场景数据飞轮，助力模型迭代。

▍聚焦国内具身头部梯队人形机器人已站在量产化前夕

北京人形机器人创新中心CTO唐剑指出，当前人形机器人商业化落地的难点在于非结构化场景下泛化能力不够。为此北京人形机器人创新中心围绕本体、模型、系统三个方面进行技术攻关。

北京人形机器人创新中心CTO唐剑

在平台研发上，北京人形机器人创新中心推出全球首个一脑多能、一脑多机的通用具身智能平台 “慧思开物”。该平台由具身 “大脑” 和具身 “小脑” 构成，“大脑” 具备自然交互、空间感知等能力，负责任务规划；“小脑” 实现全身控制、双臂协作等任务，执行具体动作，该平台能让机器人实现从任务理解到执行的全流程智能化，还可适应多构型本体与多样化应用场景。

模型构建方面，北京人形机器人创新中心发布具身世界模型体系，其中72B具身多模态大模型拥有物理时空理解与推理能力，具身智能世界基座模型实现神经网络驱动世界模拟器，打通认知与预判；跨本体VLA模型XR-1，实现同一模型跨本体运行、多场景适配与多技能调用，为技术通用性和能力扩展提供支撑。

在机器人系统优化方面，北京人形机器人创新中心自研人形机器人全身控制自主导航系统，具备点对点导航、动态障碍感知和自主避障能力，拓展自主与语义导航应用空间，解决移动与操作协同执行瓶颈。此外，北京人形机器人创新中心还构建全国首个通用具身智能数据集 RoboMIND，在数据标注、失败学习机制、虚实协同训练等方面实现技术创新。

国地共建人形机器人创新中心副总经理刘宇飞围绕聚焦具身智能落地与技术研发进行分享，刘宇飞表示，在场景实践方面，团队探索全尺寸人形机器人移动作业，在汽车产线完成多工位上下料、喷涂等全身操作；同时对标行业做长程任务自主分拣，此前已在WRC展示青龙双臂机器人的自主识别与操作能力；此外团队还基于小平台测试商超取物等民生场景，验证人形机器人在多领域的应用潜力。

国地共建人形机器人创新中心副总经理刘宇飞

技术研发方面，国地共建人形机器人创新中心已构建全国多省市虚实结合训练场，在河南、江苏等地落地垂类场景训练，河南场新增触觉数据采集，江苏场聚焦纺织与汽车产业，已采集约30万条数据。此外，国地共建人形机器人创新中心发布3B参数的VLA具身操作模型，可适配多品牌机器人完成分拣任务，团队开发 “格物致知” 平台，支持本体选配、技能训练与仿真应用开发，还适配鸿蒙等系统，实现机器人自主对话，降低开发门槛。

智源研究院具身数据负责人姚国才提出具身智能行业存在“模型缺数据、数据缺本体、本体缺应用”的循环悖论，这个问题需要全行业协同突破，而非依赖单一主体。姚国才认为具身智能落地关键痛点，存在成本高、质量差、数据孤岛三大问题：遥操作与标注成本高，硬件维护和管理耗时；遥操作数据易出现动作重复或无效操作，质量难控；不同组织数据格式、采集方案差异大，甚至企业内部数据也难互通。

智源研究院具身数据负责人姚国才

针对这些问题，姚国才团队提出新的解决方案：以“三分管理、七分工具”降低数据成本，用AI预标注将标注时间大幅缩短；构建“本体 - 数据 - 模型”三维评测体系，提前判断数据质量，同时团队开发统一数据格式工具链，打造“多本体、全流程、AI inside” 的一站式数采平台，打通采集、标注、训练全流程，目前该体系已接入多种机器人本体，助力打破数据孤岛，为具身智能模型提供高质量数据支撑。

维他动力联合创始人赵哲伦，分享了消费级具身智能机器人的研发思路与落地规划。赵哲伦认为，消费级机器人需平衡“全地形能力”与“友善设计”：外观上遵循黄金分割比与迪士尼12动画法则，用柔滑圆角、高级材质降低人与机器的距离感；同时通过灵巧头部设计，将双目横向FOV扩展至 230°、纵向FOV提升至125°，实现仅靠双目就能覆盖移动所需的视觉范围。

维他动力联合创始人赵哲伦

架构设计上，赵哲伦提出“端侧AI大脑+小脑”方案：智能本体集成超100TOPS算力芯片，负责机器人本体控制与感知决策规划；头部单元以低功耗模式处理激光雷达、双目相机、四阵列麦克风等传感器数据；搭配高功率密度关节电机（0.4公斤重量可达450瓦峰值功率）与600-700瓦时电池组，助力机器人实现5小时以上续航，还联合伙伴开发机器人专用激光雷达，以应对复杂生活场景中的障碍。

交互层面，赵哲伦主张突破传统 “确定性操作” 模式，构建 “多模态输入（视觉、听觉、触觉）—Agent模型—全维度输出（表情、动作、语音）” 框架：端侧部署1B参数的VOA模型，负责环境感知与本体控制；云端联动百度智能云处理自然语言，可拆解 “去奥森找WC”这类复杂任务，指引机器人分步执行。

此外，赵哲伦提到团队计划年底量产机器人，目前已迭代 20 余版模型，后续将通过全国测试（生产 50 台工程样机）、连续试制 300 台测试机、招募 3 万私域种子用户，再联合百度智能云、京东等伙伴推进量产，最终打造 “智能伴随” 体验，覆盖帮人拿物、家庭跟拍、老人小孩看护、远程替身等家庭场景。

NVIDIA中国区机器人业务负责人李雨倩，分享了NVIDIA三大计算平台对具身智能端到端开发落地的支撑方案。李雨倩指出，NVIDIA 以 DGX（训练）、Omniverse/Cosmos（仿真与合成数据）、AGX（推理）三大平台，覆盖具身智能开发全流程。其中，Isaac Sim 仿真平台提供数字孪生环境，支持机器人强化学习、VLA 模型训练测试，兼容 ROS 等生态，物理描述精准，能实现 Sim to real 高效衔接；Isaac Lab 强化学习平台可调用抓取等模块化模型，支持多 GPU 多节点训练，宇树四足机器人、天工人形机器人等均借助其优化运动能力。

NVIDIA中国区机器人业务负责人李雨倩

李雨倩提到，NVIDIA开源VLA 模型GROOT N1.5，结合仿真数据生成与R训练，还推出GROOT Dreams架构，能通过10秒真实数据生成百万条训练数据；新发布的Jetson Thor机器人大脑，算力达 2000+TOPS（FP4），显存128GB，支持端侧大模型部署，且体积与上一代相当，具备工业级安全标准，可提升传感器处理与多模态交互能力。此外，Isaac平台已与百度智能云打通，方便企业开箱即用仿真与训练服务。

千寻智能具身智能部负责人解浚源指出，当前具身智能赛道虽热度高涨，但行业仍处于早期阶段，整体规模与估值相较于大模型公司明显更低。他强调，制约该领域发展的关键并非算力或资本，而是硬件迭代的客观周期 —— 无论是量产稳定可靠的机器人，还是管理大规模数据采集工厂，都需要耗费大量时间推进。

千寻智能具身智能部负责人解浚源

技术路线方面，解浚源认为行业已收敛至 VLA 路线，核心方向为端到端训练。他以自动驾驶领域为例，说明通过端到端训练让机器人模仿人类行为，能有效推动其技术快速进步，并预测未来 1-3 年，机器人在操作简单物体的流畅度的提升，以及可执行任务数量的增加，都将呈现显著变化。

数据采集是当前机器人技术的核心难点。解浚源提到，与过往 AI 数据标注不同，机器人数据采集需关联物理世界，要统筹管理整个供应链中的机器人与数采员，以此保障数据采集的高效性与多样性 —— 因为单一重复的标准动作，对机器人学习几乎没有实际意义。

场景落地层面，解浚源给出明确判断：短期内，工厂场景将率先实现机器人应用；中期来看，物流、商场货架上货、酒店服务等服务业领域，将蕴含更大的落地机会；长期愿景则是让机器人走进家庭，协助人们完成日常事务。同时，他对仿真技术在机器人领域的应用持保留态度，认为真机数据采集与训练更具效率和经济性，而中国强大的供应链基础与熟练工人资源，为这一模式提供了有力支撑。

简智新创机器人联合创始人李兴龙，围绕具身智能海外高价值场景进行分享。李兴龙提出，具身智能要实现商业化落地，需满足四大核心条件，分别是技术可靠性、经济可行性、场景适配性与生态协同性。

简智新创机器人联合创始人李兴龙

李兴龙强调，国内企业在工程化能力、研发实力及生产效率上具备明显优势，如果能做好海外市场认证、进出口技术处理等准备工作，具身智能产品出海的市场潜力十分巨大。

同时他提到，简智新创自身以数据驱动为核心，不仅打造了手持式数据采集仪，还构建了 “混合模型系统、物理 AI 研究平台、端侧推理平台、本体平台” 的研发体系，将从数据采集、数据治理到场景落地全环节持续发力，助力具身智能行业发展。

▍圆桌论坛大咖共探：“造人”还是“造生产力”？

圆桌论坛环节由硅星人创始人&CEO骆轶航主持，BV百度风投投资副总裁崔轲迪、智平方合伙人&副总裁张鹏、阿米奥机器人联合创始人&技术负责人冯骞、BeingBeyond合伙人&大模型负责人郑思鹏、一星机器人联合创始人&技术副总裁丁琰、灵初智能联合创始人柴晓杰共同参与，围绕具身智能 “造人还是造生产力”、模型与数据关系及产业投资现状等问题展开深度交流。

在“通用与场景的关系”这一议题上，各位嘉宾结合自身实践分享观点。丁琰表示，一星机器人聚焦轮式双臂领域，认为直接以通用为目标难度极高，且具身智能的泛化难度远超大语言模型，国内现有资源难以支撑，因此主张从具体场景切入，“先找‘钉子’，再找‘锤子’”，先在专用场景或大行业内做出成果。

一星机器人联合创始人&技术副总裁丁琰

张鹏提出，通用智能的核心在于智能化，而非固定形态，形态可随环境变化；通用能力需依托场景逐步积累，选场景时要满足技术可达、任务有延续性与闭环性、商业和数据能形成闭环三大条件，让机器人在场景中持续迭代学习。

阿米奥机器人联合创始人&技术负责人冯骞

冯骞认同智能泛化性的重要性，指出工厂场景中的光照变化、来料变化等需求，对机器人短期单场景泛化能力有要求，而这与长期实现跨本体、跨场景泛化属于同一路线，二者并不矛盾。

灵初智能联合创始人柴晓杰

柴晓杰提到，灵初智能坚持采用类人五指灵巧手技术路线，即便短期与部分场景需求存在矛盾，也不愿为适配场景使用专用夹具，因为只有这样才能积累具有通用性的数据，避免陷入传统自动化的局限，且灵初智能是行业内少有的不在展会上使用平行夹爪的企业。

BV百度风投投资副总裁崔轲迪

崔轲迪则从投资视角出发，表明百度风投相信通用的价值，投资逻辑是 “tokenize robots”，认为人形机器人与具身智能分属不同领域，当前行业发展方向已较为明确，后续关键在于执行力。

谈及 “模型与数据的关系”。崔轲迪强调，具身智能本质是 AI 行业，数据与模型缺一不可，当前行业内不少企业已找到各自的数据解决方案，早期投资就是要支持企业攻克数据难题。

柴晓杰认为，模型与数据的重要性分阶段体现，此前行业数据匮乏，如今数据量增多后，单纯依赖 Open VLA 路线在精度、质量提升上不及预期，二者需相互迭代推进。

智平方合伙人&副总裁张鹏

张鹏提出 “场景定义数据、数据定义模型” 的逻辑，模型未收敛时，数据用于验证模型稳定性；模型收敛后，依托数据实现 Scaling Law，数采中心的核心作用就是引入场景，加速模型稳定。

丁琰表示，一星机器人秉持 “数据为先” 理念，聚焦真机数据，认为其具有不可替代性；目前正筹建国内外多个数据采集场，满负荷运转时月采数据可达 500 万条以上，还通过可穿戴设备实现工厂场景零成本采集高精度数据，同时提到客户对数据的需求分为开源研究与定制化两类。

冯骞指出，阿米奥机器人重视通过场景落地实现数据回流，即便机器人初始落地时成功率并非完美，也会先投入场景执行任务，同步采集工厂实景数据与视频数据，尽早积累数据壁垒。

BeingBeyond合伙人&大模型负责人郑思鹏

郑思鹏则认为，通用模型难以从单一场景中诞生，模型初始化阶段若预训练场景有限，会限制通用技能获取；数据分布更像 “食谱”，互联网数据、仿真数据、真机数据等各有重要性，不同企业会根据需求确定数据侧重方向。

针对 VLA 技术路线，嘉宾们也表达了各自看法。郑思鹏认为，VLA 因 Scaling Law 带来明确的投资回报预期，为实现具身智能的 “GPT 时刻” 提供了可行路径。

丁琰表示，VLA 适用于短程任务，面对 2 分钟左右的长程遥操作数据时，现有 VLA 模型难以应对，仍需改进。

张鹏称，VLA 是当前机器人领域在端到端模式上的共识，能保障从感知、决策、规划到控制的全链路模型迭代由数据驱动，支撑产品持续演进。

冯骞指出，在模型中加入语言模块并扩大规模后，VLA 对泛化性的提升效果显著，有助于推动更多任务落地。

在产业投资判断方面，崔轲迪明确表示，具身智能领域当前投资并非过热，而是过冷。该行业需要大量资本投入，目前仍存在诸多争议话题，待争议逐步收敛，会有更多资金涌入。且与发展十年的自动驾驶领域相比，具身智能当前投资额差距明显，未来增长空间广阔。

如需咨询企业合作事宜，欢迎联系机器人大讲堂-客服(19560423866，手机与微信同号)进行对接。

----------------END-------------------

工业机器人企业

服务与特种机器人企业

医疗机器人企业

人形机器人企业

具身智能企业

核心零部件企业

教育机器人企业

硅步机器人 | 史河科教机器人 | 大然机器人

加入社群

欢迎加入【机器人大讲堂】读者讨论群， 共同探讨机器人相关领域话题，共享前沿科技及产业动态，添加微信“robospeak2018”入群！

看累了吗？戳一下“在看”支持我们吧