字节跳动UI-TARS登顶GitHub热榜,纯视觉GUI Agent引领AI交互新范式

科技区角 2026-02-08 20:32

【科技纵览】2026年2月,字节跳动旗下开源项目UI-TARS强势登顶GitHub热榜,其Star数已突破26,000,超越OpenAI官方Skills,成为当前最受关注的GUI Agent项目。该项目作为豆包手机的核心技术支撑,标志着多模态智能体在人机交互领域迈入新阶段。

UI-TARS本质上是一个纯视觉驱动的多模态AI智能体,用户仅需通过自然语言指令,即可让其自动完成点击、键盘输入、滚动、翻页等复杂操作,覆盖浏览器及各类本地软件环境。该系统由Agent TARS与UI-TARS-desktop两个子项目构成:前者提供命令行接口(CLI),支持有界面Web环境或无界面服务器部署;后者则为桌面应用,专注于本地计算机与浏览器的自动化控制。

与传统RPA工具依赖网页源码解析和控件ID不同,UI-TARS摒弃了对内部结构的依赖,转而采用视觉大模型直接“观看”屏幕——如同人类用眼睛识别按钮与菜单位置。无论目标软件是否开放API、界面是否频繁变更,只要人眼可见、可操作,AI即可同步执行相应动作,极大提升了跨平台兼容性与鲁棒性。

部署流程亦被大幅简化。用户首先需确保系统已安装Node.js(版本≥22)及Chrome浏览器;随后通过npm全局安装Agent TARS CLI工具;最后配置所选大模型的API密钥,当前支持火山引擎的Seed1.5-VL、Anthropic的Claude 3.7 Sonnet及OpenAI的GPT-4o。完成配置后,系统将启动Web界面,用户即可通过自然语言下达操作指令。

值得注意的是,UI-TARS的技术布局始于2025年初。当年1月,字节跳动联合清华大学开源该项目,成为国产纯视觉GUI Agent中首个在权威基准测试中对标并超越GPT-4o的系统。初代版本依托600万高质量GUI教程数据,注入System-2式深度推理能力,并构建跨平台统一动作空间,在多项SOTA指标上取得突破。仅三个月后,UI-TARS-1.5引入推理时扩展(Inference-time Scaling)机制,显著提升任务规划与定位精度。至2025年9月,UI-TARS-2进一步打通文件系统与沙盒环境,整合浏览器、命令行及外部工具调用,形成端到端的智能执行闭环,最终成为豆包手机的底层引擎。

这一技术浪潮正引发行业共振。理想汽车CEO李想近期指出,2025年三大现象级产品——Claude Code、豆包手机与Manus,以及2026年初涌现的OpenClaw、MoltBook、Chrome Gemini,均围绕Agent展开,其中至少三款为纯视觉GUI Agent。它们共同采用“走前门”策略:以屏幕像素为唯一输入,模拟人类操作行为,绕过封闭生态限制。相较之下,Manus聚焦云端API驱动的全自主任务闭环,MoltBook则探索无物理操作的Agent社交行为。

从技术演进路径看,GUI Agent的崛起不仅解决了跨平台自动化难题,更重新定义了AI“动手能力”的边界。其核心价值在于将AI从被动问答者转变为可主动执行的数字劳动力,而纯视觉方案因其普适性与低侵入性,正成为连接人类意图与数字世界操作的关键桥梁。正如李想所言,此类工具非但未缩小个体能力差距,反而可能将其放大数十乃至上百倍——掌握高效人机协作范式者,或将率先赢得AI时代的新竞争优势。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI AR 字节
more
Seedance 2.0火爆全网,黑神话之父冯骥:地表最强没有之一/最便宜MacBook有望配备非刘海屏/OpenAI辟谣:被泄露的AI硬件是假的
Seedance2.0引创作者警觉:AI视频模型被指未经许可使用训练数据
众筹百万美金的AI手机进入中国,小屏幕能否撕开内卷缺口?
夸克AI眼镜S1推1.5.1版本升级,强化第一视角交互与影像能力
微软市盈率十年来首度低于IBM,AI重资产转型引发估值重估
Seedance2.0灰度测试引爆影视与资本双市场,多模态AI视频能力引行业震动
我用 AI 看了一个月新闻,63% 回答有问题,一堆 404 和瞎扯
5亿买一个域名,这个币圈狠人,想让你60秒拥有自己的AI贾维斯
T-glass供应告急,全球AI芯片与消费电子遭遇“玻璃布”瓶颈
前飞书表格技术负责人创业:用AI表格嵌入一切,“喂养”AI丨涌现新项目
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号