字节跳动UI-TARS登顶GitHub热榜,纯视觉GUI Agent引领AI交互新范式

科技区角 2026-02-08 20:32

【科技纵览】2026年2月,字节跳动旗下开源项目UI-TARS强势登顶GitHub热榜,其Star数已突破26,000,超越OpenAI官方Skills,成为当前最受关注的GUI Agent项目。该项目作为豆包手机的核心技术支撑,标志着多模态智能体在人机交互领域迈入新阶段。

UI-TARS本质上是一个纯视觉驱动的多模态AI智能体,用户仅需通过自然语言指令,即可让其自动完成点击、键盘输入、滚动、翻页等复杂操作,覆盖浏览器及各类本地软件环境。该系统由Agent TARS与UI-TARS-desktop两个子项目构成:前者提供命令行接口(CLI),支持有界面Web环境或无界面服务器部署;后者则为桌面应用,专注于本地计算机与浏览器的自动化控制。

与传统RPA工具依赖网页源码解析和控件ID不同,UI-TARS摒弃了对内部结构的依赖,转而采用视觉大模型直接“观看”屏幕——如同人类用眼睛识别按钮与菜单位置。无论目标软件是否开放API、界面是否频繁变更,只要人眼可见、可操作,AI即可同步执行相应动作,极大提升了跨平台兼容性与鲁棒性。

部署流程亦被大幅简化。用户首先需确保系统已安装Node.js(版本≥22)及Chrome浏览器;随后通过npm全局安装Agent TARS CLI工具;最后配置所选大模型的API密钥,当前支持火山引擎的Seed1.5-VL、Anthropic的Claude 3.7 Sonnet及OpenAI的GPT-4o。完成配置后,系统将启动Web界面,用户即可通过自然语言下达操作指令。

值得注意的是,UI-TARS的技术布局始于2025年初。当年1月,字节跳动联合清华大学开源该项目,成为国产纯视觉GUI Agent中首个在权威基准测试中对标并超越GPT-4o的系统。初代版本依托600万高质量GUI教程数据,注入System-2式深度推理能力,并构建跨平台统一动作空间,在多项SOTA指标上取得突破。仅三个月后,UI-TARS-1.5引入推理时扩展(Inference-time Scaling)机制,显著提升任务规划与定位精度。至2025年9月,UI-TARS-2进一步打通文件系统与沙盒环境,整合浏览器、命令行及外部工具调用,形成端到端的智能执行闭环,最终成为豆包手机的底层引擎。

这一技术浪潮正引发行业共振。理想汽车CEO李想近期指出,2025年三大现象级产品——Claude Code、豆包手机与Manus,以及2026年初涌现的OpenClaw、MoltBook、Chrome Gemini,均围绕Agent展开,其中至少三款为纯视觉GUI Agent。它们共同采用“走前门”策略:以屏幕像素为唯一输入,模拟人类操作行为,绕过封闭生态限制。相较之下,Manus聚焦云端API驱动的全自主任务闭环,MoltBook则探索无物理操作的Agent社交行为。

从技术演进路径看,GUI Agent的崛起不仅解决了跨平台自动化难题,更重新定义了AI“动手能力”的边界。其核心价值在于将AI从被动问答者转变为可主动执行的数字劳动力,而纯视觉方案因其普适性与低侵入性,正成为连接人类意图与数字世界操作的关键桥梁。正如李想所言,此类工具非但未缩小个体能力差距,反而可能将其放大数十乃至上百倍——掌握高效人机协作范式者,或将率先赢得AI时代的新竞争优势。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI AR 字节
more
企业级 AI 增长决策系统 Lanbow 宣布将千万美金广告投放经验开源
xAI再失核心创始成员,联合创始人克罗斯离职致创始团队仅剩两人
中国AI算力,开启「共同富裕」之路!
开放 Siri,苹果决定打开万亿「AI 生态」
老年人到底需要什么样的AI课?
Mistral AI发布开源语音合成模型Voxtral TTS,支持九语种实时生成拟人化语音
谷歌AI内存压缩技术引发市场误读 存储芯片股遭重挫
联手多家电力巨头,英伟达新一代AI工厂年底落地
阿里喊出AI云五年干1000亿美元:底气还是画饼?
AI写CUDA算子准确率92%,到国产芯片只剩4%?上交方法直线拉升,DeepSeek也适用
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号