

智能机器人最常见的“竞争对手”不是其他的机器人,而是人工和专用设备。
具身智能赛道的热度空前。然而,如何将技术热度转化为商业价值,仍是所有从业者面临的难题。
具身智能的落地并非“魔法”,当技术演示的惊艳感褪去,所有企业都必须面对从0到1、从1到N的严酷挑战。这条路上布满了陷阱,稍有不慎便可能因“过早扩张”而耗尽资源,这也是行业普遍面临的困境。
在2025年8月21日中国科技产业智库「甲子光年」举办的「渡口——甲子引力X2025科技产业投资大会」上,梅卡曼德机器人创始人兼CEO邵天兰带来的题为《具身智能的技术进步、实用落地与可规模化的商业模式》的分享。
演讲中,他探讨了具身智能从技术突破到商业落地的全过程,并回应了行业内广泛关注的几个核心问题:
智能机器人的进化路线图是什么?
最大的陷阱在哪里?
智能机器人的真正生态位何在?
如何找到破局的思路,实现技术与商业的结合?
以下是梅卡曼德机器人创始人兼CEO邵天兰演讲实录,经「甲子光年」编辑,有删改。
大家好,非常荣幸今天有机会和大家分享一下我们在具身智能,特别是在商业落地方面的一些思考。
先放一下前阵子7月26日至29日在上海世界人工智能大会上的现场展示。我们的展台参观人数超过5万人,现场一直人很多,在网上也能找到很多相关视频。
第一个视频展示的是我们的大模型在控制机器人自主完成叠衣服的任务,这是典型的柔性物体的长程操作。过去大家普遍认为柔性物体非常难处理,但随着大模型的进步,现在也能够实现非常好的操作效果。
第二个视频展示的是“海量物体”任务。我们现场准备了几百种物体,机器人通过互联网数据、仿真数据和真实机器训练,共同训练得到的大模型,能够完成物体的识别、抓取和分类。
第三个视频是我们在WAIC现场的展示,也是当时唯一一家进行此类展示的企业:机器人能够通过语言执行多样化的指令,完成复杂任务,现场有很多人在测试。最后,我们还结合人形机器人展示了Manipulation的能力。
对于机器人来说,目前大家最关注的几个方向主要有两个:一是Navigation(导航),这一方向相对比较成熟;二是Locomotion(运动),在前几天的机器人运动会上,大家也看到了跑、跳、在不平衡路面行走,甚至打拳、跳舞等,这些都是典型的Locomotion,也就是机器人的运动能力。
随着像PPU以及仿真等整个技术栈逐渐成熟,现在能够实现机器人跳舞等功能的公司也越来越多。而自公司成立以来,我们一直专注于机器人操作。
刚才大家看到的例子,包括处理海量物体、多维物体、透明物体、快递包裹、柔性线材等,尤其是在面对未知环境、大量物体随意堆叠、柔性物体等复杂场景时,这正是我们所专注的方向。
目前,我们已经进入了规模化和全球化阶段。我们现在服务了超过110家《财富》500强客户,今年销售量预计过万台。根据多家第三方市场研究数据,我们在中国已经连续五年市场占有率第一。
去年在中国市场的占有率达到近40%,是第二名的数倍。在全球范围内,我们同样排名第一,领先优势非常明显,并且在日本、美国、韩国、欧洲、东南亚等主要区域都位居前列,这就是我们目前的市场份额情况。
最后总结一下,梅卡曼德机器人的Manipulation技术,背后是“眼-脑-手”协同能力,已经可以应用在非常多的行业。大家主要看到的还是制造业和物流业,但现在也在逐步进入服务业。
1.从L0到L10:机器人进化与陷阱

这里想和大家分享我们在生产制造、物流等领域的一些严肃应用实践,以及其中的“打怪升级”路线。过程中有一些关键点,也存在一些Trap,这些往往是最容易导致失败的环节,也是我们这些年观察到的现象。
我们现在的主力产品在L9到L10阶段,因为去年我们的业务大部分在L10,小部分在L9。我们也有新的产品,比如说百亿以上参数的大模型,目前在L3.5。L0为什么我不叫它L1?因为有时候L0其实什么都没有。它可能是仿真、渲染、AI生成的,或者摆拍、多次拼接的结果。

L1可以一镜到底,多拍机器人能够有多次运动。
L2大家在WAIC和WRC上看到非常多的展示,就是它可以在短时间内演示,比如跑个一两次,但做不到长时间高频率的运行。
L3是长时间的连续演示。但因为是个封闭场景,所以仍然可以设计、单独调整。比如说针对一台机器和一个环境,我们的核心研发团队可能会铺三个月,用无数数据去适配。但它确实可以做到连续演示。
到L4时,我们能够在个别客户现场展示,但往往需要核心研发人员参与。
到L5时,在个别现场的设备能真正使用起来,但这里要特别强调:核心人员仍然需要长时间参与。
到L6时,核心研发人员就不需要驻场了。
L7时,在研发人员参与的情况下,可以扩展到更多客户,但仍离不开研发人员。
L8时不需要研发人员参与,产品就可以直接销售。
L9时,公司会通过渠道等支持来推动销售。
L10就是我们现在大部分业务的状态,合作伙伴可以自主完成销售。这里面绿色标注的是重大Milestone,红色标注的是Trap。
根据这些年我们在国内外的观察,包括中国、日本、美国、欧洲等市场,我们发现绝大部分公司都死在红色标注的阶段。这就是典型的Premature Scaling(过早扩张)。
当你还没达到相应成熟度时,强行去做成熟阶段的事,就会发现资源被过快稀释。
而资源过快稀释是非常恐怖的,没有任何公司,哪怕是谷歌这样万亿级公司,也扛不住3次方速度的资源消耗。
我先讲一下L2到L3的Trap。L2的Trap在于,很多人看到设备能跑一两次,就会想当然地认为它是L3,觉得它能真正落地。于是就会要求开始接触客户。
我们见过非常多公司死在这里。因为短时间的演示对模块稳定性、成熟度的要求没那么高,但如果没到L3就直接拿去客户现场展示,就会带来极不合理的时间预期。
此时很多研发人员应该会有共鸣:在公司内部做短时间演示压力不大,可以把模块和产品好好打磨。但一旦进入L3,开始接触客户,就会有巨大的时间压力。前线会告诉你客户在等着,要求你一个月能不能出成果,下个月能不能交付,研发就会陷入非常不合理的节奏。
L5也是典型的Trap。原因在于L5虽然产品能在现场使用,但研发人员还没真正脱手。
这时候一定不要急。如果业务前线像L6一样大规模拓展,就会导致后续2次方甚至3次方的消耗增长,取决于你的扩张速度。核心研发能力会被迅速稀释。意味着每开拓一个客户,就会损失一部分研发力量。如果要保持研发力量不变,就需要指数级的增长,没有任何公司能承受。
L5是非常典型的Trap。很多公司在个别客户那里耗费了巨大精力,勉强跑起来一两台设备,但还没到L6,就盲目扩张到L7、L8,结果资源被快速稀释。
这就是为什么红色阶段很危险。如果没有真正坚持到绿色Milestone,就会迅速消耗资源。
梅卡曼德现在处在L9到L10之间,已经全面经历过这些阶段。经验是,当处在红色阶段时,一定要有耐心,坚持到绿色阶段,再去做扩张。
再分享一下机器人的智能程度分级。很多机器人,包括现在的人形机器人,其实智能程度还停留在L0或L1。比如机器人打鼓、炒爆米花、穿串,这些动作几乎都是预设,属于L0或L1。

到L2的主要标志是动作要自主,虽然任务可以固定,但动作必须自主完成。到L3时,任务要能够动态下发。随着智能程度的提升,应用场景会随着环境的可控性、任务的复杂性、客户的专业度要求以及市场规模的提升而不断拓展。

我们认为,机器人智能的关键在于能否应对复杂和变化的环境,而不在于是不是人形。
如果是人形但只做固定动作,比如打鼓,那并没有智能。而即使是机械臂形态,只要能处理复杂的任务,比如货品操作,那才是真正的智能,也是关键能力所在。
梅卡曼德目前在L2的智能上,已能针对特定任务通过统一灵巧手进入试用阶段,单年出货量预计过万台,其中一半在海外,全球范围都取得领先。L3阶段,我们认为初步应用应该能以月为单位推进。这就是我们现在正在做的事情,目前我们已经实现了通用化、标准化和全球化。
2.智能机器人的生态位

智能机器人的真正客户,不会因为“智能机器人”这五个字就买单。无论是“具身智能”,还是“通用大模型”,客户并不会单纯因为概念而购买。
智能机器人最常见的“竞争对手”不是其他的机器人,而是人工和专用设备。

人工的竞争力非常强。首先,人工具备高度多样化的能力。比如大家去星巴克,会发现店员的能力非常综合,什么都能做。同时,人工的灵活性也很高,服务能力也很强。比如咖啡师,除了能做咖啡,还能促进销量,主动推销杯子等。他们能处理很多任务。
另一个显著优势是应对突发和长尾需求,这在服务业里非常常见。只要去过餐馆稍加观察,就能发现突发长尾需求非常多,便利店也是如此。人工的单次成本其实很低,比如短时间内家里需要清洁或收拾,短期雇佣人工的成本并不高,而且可以快速、动态地调配。像“618”这样的电商大促,快递爆单时可以临时多雇人,平时则减少雇佣,这是人力的强大之处。
但人工也有问题,比如稳定性、一致性不足,长期综合成本较高,包括质量、食宿、培训、管理等。同时一些特定技能(如焊接)以及安全性,也对人有较高要求。
另一类强大竞争对手是专用设备。我们每个人家里都有,比如洗衣机、洗碗机,现在发展很快的割草机、采摘机等。比如说如果拿人形机器人去玉米地里掰玉米棒,很显然是不合理的方案,收割机才是更高效的方式。
专用设备完成特定任务的效率极高,如果能饱和使用,效果更好。比如家里有大面积玉米地,每天都要收割,那收割机的效能就非常高。
但如果只种十根玉米,就完全不值当去买收割机。再比如饺子机,一般家庭不会用到买饺子机的程度。但如果是饺子馆,买饺子机显然比买人形机器人包饺子要靠谱得多。
那么机器人包饺子有没有用?当然有。比如家里有一个人形机器人,它也能包饺子。虽然包的不是一天一万个,只是几十个够家里吃,这种场景就会有价值。
但整体来看,机器人会受到人工和专用设备的双重挤压。因此智能机器人必须找到自己的生态位。
我们对智能机器人的期待是:它要能够填补专用设备难以应对的复杂、多变和长尾的场景。同时,它要像人工一样灵活,能够快速部署、快速调整——客户想让它干什么就能干什么,并且比人工更稳定。
机器人领域存在非常典型的难点。我这里讲一点:市场极度碎片化。

原因是,不碎片化的市场基本都被专用设备覆盖了。比如包饺子,饺子机的效率远远高于人形机器人。普通家庭包饺子不值得买饺子机,但饺子馆买饺子机显然更划算。所以机器人在这种场景中只能发挥有限作用。
机器人注定要面对一个庞大但碎片化的市场,应用场景复杂。
因此,我们的选择是:要做“眼-脑-手”通用组件,实现真正的通用性,而不是用“看似通用”的形态去做某一个专业任务。
我们的商业模式是坚持“标准化产品+合作伙伴”,而不是自己做所有事情的解决方案。通过商业闭环和数据飞轮来实现健康发展。我们选择这样的形态,正是为了应对这些挑战。

我们的核心技术,像人工智能的视觉、机器人等被我们沉淀为标准化产品。“眼-脑-手”可以结合各种形态的机器人,进入不同行业,满足各种需求。
我们的核心技术变成标准化产品,再结合各种设备进入场景。我们自己不做各种形态的机器人,但能够适配。现在已经适配了四十多个品牌、一千多个型号,并且有大量实际落地案例。我们覆盖的行业主要是制造和物流,应用场景非常广泛。

最后我再简单解释一下“眼-脑-手”。眼睛是高精度3D成像,高精度相机在0.2秒内就能完成物体的精细扫描。我们做的是具身智能,不是魔法,我们没有突破数学和物理定律。我建议大家也不要尝试。数学家很少告诉你能做什么,但总会告诉你不能做什么,不听的下场通常不太好。我们也一样。
如果原始信号中的信息量不足,就不可能通过任何方法达到可靠性,这是数学决定的。

但这有一个好处:三维扫描交给算法工程师时,没有人会说“我识别不了”或“做不了”,大家都觉得可以。这也解决了一些内部扯皮的问题。可以看到,我们的成像质量非常高,这是“眼”的部分。
“脑”和“手”的部分,我们已经进入规模化部署。我们有大量真实数据,因为我们处理过10万种货品。

“手”的部分今天时间有限,视频就不展示了。“手”本质上是个软件产品,因为机械部分相对容易,真正的核心还是软件。
除此之外,我们也形成了非常高效的运营体系。整个机器人行业链条很长。除了核心技术,比如多模态大模型、眼睛、手等基本功外,培训、渠道、质量、生产等基本功也很重要。我见过很多案例,最终死于基本功没做好。我们在这方面投入了很多努力,现在大客户和渠道能力也已经发展得很好。

我们作为“具身智能眼-脑-手”的基础组件提供方,能够适配各种形态的设备,进入各种行业和应用场景。我们现在实现了高度的标准化和通用化。同一款软件、同一系列相机,可以结合四十多个品牌、一千多个型号,年销量超过万台。同时,我们有一半业务来自海外,在主流发达国家市场都拿到第一。
目前我们大部分业务已经不需要自己派技术人员,更不需要派研发人员,完全通过渠道生态就能实现落地,并进入多个行业,市场占有率也在快速提升。

今天,希望以我们自身为例,和大家分享具身智能所面临的真实挑战:比如专用设备的竞争、人力的替代、市场的碎片化,以及我们的应对思考。更多信息,欢迎大家通过微信或我们的网站搜索我们的名字——梅卡曼德,谢谢大家。
(封面图来源:「渡口——甲子引力X2025科技产业投资大会」;文中其他配图来源:梅卡曼德机器人)
END.


