起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”

3万台首批备货被一抢而空、在二手市场价格翻番的当红炸子鸡“豆包手机”，更多技术详情得到证实。

事实证明，豆包手机助手技术预览版背后，是字节在“系统级GUI Agent”赛道上布局了近两年的大棋。

在官方演示中，搭载在工程样机nubia M153上的它，能代替用户操作手机，跨应用自动化执行任务。

比如一次性下达多个指令，让它一口气完成在飞书上代为请假、提交差旅申请、预订出差高铁票等复杂任务：

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图2

而据量子位最新打听到的消息，这套图形界面操作能力，正是建立在字节自研的UI-TARS模型基础之上。

开发者对此系列模型应该并不陌生。初代一经开源便引发热议，被评价性能优于当时曝光的OpenAI Operator（UI-TARS在Operator正式发布前就已发布）。

“豆包手机”使用的则是UI-TARS闭源版本，不仅性能优于其开源版本，还针对Mobile Use进行了大量优化。

换言之，豆包手机助手的核心技术探索方向，实际上早就开源了。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图3

PS：关键后来正式发布的Operator，还要开200美元一个月的Pro会员才能用……

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图4

UI-TARS模型的持续进化与应用

早在今年1月，字节Seed团队与清华联手开源初代UI-TARS，为系统级AI Agent奠定基础。此后，团队便沿着这条路线持续深耕，不断迭代打磨能力。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图5

团队指出，原生Agent需具备感知、动作、推理、记忆四大核心能力。

因此，初代UI-TARS围绕这些能力进行了四大关键创新。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图6

1）通过大规模GUI截图数据集和五大感知任务（元素描述、标记区域感知等）增强GUI感知精度。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图7

2）设计跨平台统一动作空间，整合标注轨迹与开源数据提升动作定位准确性。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图8

3）融入600万高质量GUI教程和多种推理模式（任务分解、反思等），注入System-2深思型推理能力。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图9

4）借助数百台虚拟机自动收集交互轨迹，通过多阶段过滤、反思调优和直接偏好优化（DPO）解决数据瓶颈，实现模型迭代优化。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图10

在GUI Agent基准测试中，初代UI-TARS已有突破性表现，一举拿下多个SOTA。

仅过短短3个月，团队又推出了全新的开源版本UI-TARS-1.5。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图11

在延续前代基础架构的前提下，UI-TARS-1.5新增强化学习驱动的推理机制，让模型在执行动作前能通过思考过程进行推理，显著提升了性能与推理阶段的扩展性。

在多项标准基准测试中，UI-TARS-1.5相比前代模型实现了显著进步。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图12

在GUI定位任务上，刷新SOTA：

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图13

同时，在测试中，团队引入新玩法——让UI-TARS-1.5玩游戏。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图14

团队指出，与数学或编程等领域不同，游戏往往要求直觉式、常识性的推理以及策略性的前瞻思考，非常适合作为基准任务。

他们从poki.com挑选14款游戏进行测试，通过标准化评分，UI-TARS-1.5在与OpenAI CUA、Claude 3.7的对决中胜出。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图15

今年9月，UI-TARS-2的发布将智能体能力推向新高度，也为豆包手机助手提供了关键技术支撑。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图16

UI-TARS-2瞄准的是让智能体真正实现图形界面的自主交互。

它进一步解决了前代模型及现有GUI Agent面临的数据可扩展性、多轮强化学习（RL）稳定性、纯GUI操作局限与环境稳定性四大问题。

UI-TARS-2以多轮强化学习为核心，通过四大核心技术实现突破：

首先，团队设计了可扩展的数据飞轮（Data Flywheel），通过“持续预训练-监督微调-拒绝采样-多轮RL”的循环迭代，让模型与训练数据协同进化。高质量轨迹流入监督微调数据集，低质量轨迹补充至持续预训练数据集，形成自增强闭环。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图17

其次，团队设计了在长时序设定中稳定优化的训练框架，凭借有状态异步rollout、流式更新与增强型PPO，解决长周期任务优化难题。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图18

另外，打破纯GUI操作的边界，UI-TARS-2构建了一个混合GUI中心环境（Hybrid GUI-centered Environment）。

通过SDK把文件系统、终端命令以及外部工具都接入进来，让图形界面操作可以和系统级资源打通，不再局限于“模拟鼠标键盘点来点去”。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图19

最后，团队还开发了统一的沙盒平台，以标准化API管理云端VM、浏览器游戏沙盒等异构环境，支撑数百万次交互的大规模训练与评估。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图20

采用532M参数视觉编码器与23B激活参数的MoE LLM架构，UI-TARS-2在多场景表现全面提升。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图21

15款游戏集合的平均标准化得分为59.77，更趋近人类水平，在LMGame-Bench中与OpenAI o3等前沿模型竞争力相当。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图22

综上，几经迭代，UI-TARS研究成果现已成为最受欢迎的开源多模态智能体之一。

在GitHub，该项目也已狂揽8.3k Star。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图23

而根据我们了解，豆包手机助手正是在这一成熟技术基础上，进一步针对手机端做了深度定制与优化，最终形成可实际落地的产品形态。

官方回应权限争议，网友拆解工程设计

豆包手机助手技术预览版发布后迅速爆火，同时也难免引发了一些争议性讨论。

比如豆包手机助手的“应用权限”清单中，列举了INJECT_EVENTS系统级权限用于操作手机。于是，有关AI获取高权限是否会造成安全风险的讨论蔓延开来。

针对此关注，官方很快作出回应。

总结而言，用户需要主动授权才能调用该权限使用操作手机功能，而且目前行业的AI助手都要使用类似该权限才能提供操作手机服务。比如现在很多手机可以用语音助手定闹钟，就是通过INJECT_EVENTS权限实现的。

同时，豆包手机助手在遇到敏感授权，如支付、身份验证等，会暂停任务交由人工接管完成操作。

最近，也有网友从工程角度对豆包手机进行了深入拆解与分析。

例如小红书博主@宵逝(27fall 找直博版)，他在测试完豆包手机助手后，写了一篇长达2385字的分析。

△图注：引用内容已获本人授权

在隐私方面，@宵逝(27fall 找直博版)实测发现其“视觉管道是Filtered的”。比如你开着B站画中画或是视频通话悬浮窗，让它操作主屏幕，它“看”不到悬浮窗，截屏只包含目标应用界面。

基于此，他推测豆包手机助手“获取的Screenshot并不是读取Display Buffer（物理屏幕输出流），而是基于Activity Hierarchy抓取Targeted Activity，这意味着它在物理层面上就无法监控你的视频通话画面”。

另外，他还观察到，当Agent在后台执行长链任务时，前台打入电话或者切换App，Agent仍在后台持续运行而不会被挂起。

这可能意味着豆包手机助手在OS层做了“并行运行”的虚拟化设计：后台有一个独立的Virtual Display（影子屏幕）供Agent执行任务，从而不与用户的前台界面互相干扰。

博主直言，这种OS级魔改，让他很多时候感觉“字节还得是字节”。

此外值得一提的是，在他看来，“最有意思的设计”是豆包手机助手把Agent拆成了标准模式和Pro模式两套技术栈，“这不仅仅是模型大小的区别，而是完全不同的两套Pipeline”。

他注意到标准模式走的是Naive Simulation，主要依赖浅层视觉（VLM），响应极快，prompt小、通过压低IO token获得速度优势。

在测试时缺陷是，在遇到“相册里的截图（包含伪造的搜索按钮）”这种视觉陷阱时，它会傻乎乎地去点击图片里的按钮。

他表示，这是典型的System 1直觉反应（也可能是上下文没传当前系统状态等detail信息）。

而Pro模式则走的是Deep Reasoning+Tool Use。在同样的“截图陷阱”测试中，它会明显出现Pause&Think的过程，随后拒绝点击并建议切换浏览器。

博主推测Pro所使用的模型，可能用的是thinking模式下的Agent，亦或是做了更多post-train的升级版，框架上做了上下文工程。

该博主还做了更深入的分析，感兴趣的童鞋可以去原帖冲一波。

综合观察分析下来，他表示“认可它的代码逻辑是安全的：它有隔离、有熔断、有本地化处理”。但也理解大家的质疑，代码是干净的，但掌握代码的人呢？这就是一个技术之外的社会学问题了。

不过，他也表达了自己的态度：

如果它能帮我处理掉80%的琐事，我愿意让渡一部分经过脱敏的、非核心隐私的数据。

比起被无良App偷偷传通讯录，后台悄咪咪利用漏洞查我信息，我更愿意把数据交给一个有着严格RAG机制和系统级隔离的Agent。

有意思的是，一边有人讨论隐私，一边也有人的关注点在于“能帮我打游戏、刷分吗？”

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图25

笑死，网友前脚刚问，后脚官方就最新发布了基于行业发展主动限制其部分能力的声明——

包括限制刷分、刷激励的使用场景以及限制部分游戏类使用场景，也将暂时下线操作银行、互联网支付等金融类APP的能力。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图27

“全球第一款真正AI手机”

买到“豆包手机”的网友，真实上手实测后还说了些什么？体验到底咋样？

在华创业者Taylor Ogan拿到了手机后，就在𝕏上连发帖子，给出的评价那是相当的高（发出宋丹丹的声音），称其为“又一次DeepSeek时刻，这是全球第一部真正的AI智能手机”。

他发视频展示用英语简单下达一个关于找人帮代排队的任务，只见豆包手机助手自主选定了应用、完成任务相关设置，最后直接给他呈现了一个确认界面。

换作平时，我自己都不知道该怎么操作，而这部手机短短几秒就搞定了。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图28

他还展示了告诉豆包手机助手从其当前所在位置打辆无人车去某公园，只见它会获取其GPS位置，知道哪些无人车运营商覆盖其所在区域和目的地，并完成路线规划，接着打开打车软件逐步点击应用界面，询问其具体要去公园的哪个位置，并根据最近的上车点完成叫车。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图29

有人看他的手机界面，问他“为啥不先把语言设置改成英语”，Taylor Ogan回应“甚至都不需要”。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图30

Hugging Face亚太区生态负责人Tiezhen Wang也转发评价：

它已经证明：手机操作可以成为一种操作系统级的原生能力，这将定义下一代AI原生手机。

很显而易见的一点是，未来出行会变得轻松许多。你可以直接用英语交流，而AI Agent会自动在所有中文App中完成你需要的操作。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图31

另外，老罗在“豆包手机”发布后，也点赞表示“技术革命是谁都拦不住的”，还和网友在评论区观点交锋了一下（虽然这款手机也被发现了罗永浩“锤子手机”代码）……

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图32

当然，目前“豆包手机”搭载的豆包手机助手还只是技术预览版，距离成熟产品尚有空间，也远谈不上完美。

官方也在反复强调，软件方面尚无法保证成熟手机产品的功能完善度。

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”图33

但不可否认的是，它已经展现出下一代手机的可能：手机不再是被动操作的工具，而是能主动理解意图、独立完成任务的伙伴。

从这个意义上说，“全球第一款真正的AI手机”称号，它确实配得上。