谷歌把电脑操作能力塞进Gemini 3.5 Flash!自己看屏幕狂点70轮

量子位 2026-06-25 15:50
梦瑶 发自 凹非寺
量子位 | 公众号 QbitAI

好好好,起大早赶晚集的谷歌,这次又拿出了新东西——

Computer use,就是那个电脑操作能力,这回直接被内置进Gemini 3.5 Flash

谷歌把电脑操作能力塞进Gemini 3.5 Flash!自己看屏幕狂点70轮图1

在能力上,AI通过截图看屏幕,就能认出页面上的按钮、输入框这些UI元素,然后直接上手操作。

比如,像点击、打字、滚动、切标签页这些小动作都能干,循环70多次也不在话下,be like:

谷歌把电脑操作能力塞进Gemini 3.5 Flash!自己看屏幕狂点70轮图2

划重点!

和市面上具备自主操作能力的主流Agent不太一样的是,这套能力覆盖的不只是浏览器——

网页、桌面软件、移动端也都在它的可操作范围里,而且,几十步以上循环执行任务都能梭哈~

Gemini 3.5 Flash:喜提外挂!我看这下谁还敢说俺们Flash不好使!

谷歌:虽迟但到! 晚起的鸟儿照样有虫吃!

Flash用户:加量不加价?但…不会把我电脑信息搞没了吧…(doge)

电脑操作能力被塞进了Gemini Flash

u1s1,Computer Use不算是新东西。

之前它主要是专门给Gemini 2.5版本用的,但这次不一样的是人家直接集成到了主Gemini Flash模型里。

谷歌把电脑操作能力塞进Gemini 3.5 Flash!自己看屏幕狂点70轮图3

具体能做的事情呢,也比较简单粗暴。

那就是让模型像人一样看屏幕,然后操作鼠!标!键!盘!

比如,它可以看屏幕,像截图、UI结构信息这些都能读取。

它还能够理解任务,例如看到界面后,模型也能当前处于哪一步,下一步应该点哪里。

当然,最核心的环节是执行,像点击、输入、滚动、切换、跳转标签这些操作Computer Use都可以做~

比如下面这个官方demo。

这是Gemini 3.5 Flash基于Computer Use,在真实界面环境中对Gemini自身应用进行的一次自主分析。

整个过程不是静态评测,而是一个持续的交互循环。

AI可以像一个真实用户一样进入应用,在屏幕上不断进行操作、试探与判断:

可以看到,在73个操作回合里,它逐步探索了整个应用的功能结构

从主界面进入不同模块,在各个功能入口之间来回切换,持续拆解这个产品的实际能力边界。

最后呢,模型把所有被触达的功能重新组织,抽象为5类能力体系~

我们再来看下面这个demo。

这一次呢,模型进入的是一个移动端网页环境,在62个操作回合中对整体体验进行了连续评估:

看来出来,整个过程依然是典型的Computer Use agent循环。

读取屏幕状态→选择操作→点击不同功能入口→在页面模块之间不断切换与验证。

在完成完整探索之后,它还进一步将所有与可访问性相关的问题与观察结果,归纳为4个核心改进方向~

估计这会儿有朋友该问了:

让AI自己操作电脑这儿,多少有点危!险!吧!

谷歌当然也想到了这个问题,于是他们在Gemini 3.5 Flash的执行链路里也加入了一层专门的安全约束机制:

谷歌把电脑操作能力塞进Gemini 3.5 Flash!自己看屏幕狂点70轮图4

具体来说,在模型真正开始执行操作之前,模型并不是完全放飞状态,而是会持续接受系统级的行为校验

比如在涉及敏感操作、或者存在不可逆后果的步骤时,系统会主动打断流程,要求用户进行二次确认,再决定是否继续执行。

除此之外呢,针对更隐蔽的风险——

比如通过页面内容或输入信息进行「间接」的攻击方式时,模型也会进行自主识别!!!

不仅如此,市面上主流的具备自主操作能力的Agent不太一样的是——

Gemini 3.5 Flash的电脑操作能力覆盖的不只是浏览器,还包括桌面移动端界面。

emm…

按这个意思大概就是只要是人能操作的界面,理论上都可以进入这个执行链路里??(我猜)

谷歌把电脑操作能力塞进Gemini 3.5 Flash!自己看屏幕狂点70轮图5

当然了,效果好看是一回事,问题是这玩意儿对Gemini 3.5 Flash的使用性能有啥影响呢?

然后,官方现身说法了。

在官方基准测试里,加入Computer Use之后的Gemini 3.5 Flash,在不少基准任务中的表现已经可以对齐前沿模型的能力水平。

而且像一些复杂、长周期的浏览器任务,也开始变得可以被稳定接管,并且以更低成本、更高质量的方式完成~

谷歌把电脑操作能力塞进Gemini 3.5 Flash!自己看屏幕狂点70轮图6

(真的吗)

起大早赶晚集的谷歌,这次把干活能力补上了

事实上,浏览器操作、电脑代操这事儿,不是Google头一个整的。

最早把它摆上台面的是Anthropic,2024年10月,还一上来就直接给了开发者当零件用。

没过多久OpenAI的Operator也来了,能在浏览器里替你点、替你填、替你订。

所以相比之下,一向在AI节奏上慢半拍的谷歌,这次的动作也谈不上踩在最热的风口节点上…

谷歌把电脑操作能力塞进Gemini 3.5 Flash!自己看屏幕狂点70轮图7

好,那问题来了:谷歌到底图个啥捏?

人家也不傻。(doge)

这次谷歌没把Computer Use塞进最聪明的Pro,而是放在了最便宜、最轻量的Flash里,背后肯定是算过账的…

咱都知道电脑代操是个循环,看一眼屏幕、想一下、出个动作,再看再想再动,一个稍微长点的任务能转几十上百遍。

这要是跑在Pro上,成本烧不起;只有Flash这种又快又便宜的档位扛得住…

当然,对Flash来说它也需要这件事儿,毕竟能力和模型,是互相找上门的——

Computer Use这一层能力塞进去之后,人家Flash也摇身一变成持续执行任务的角色了,顺道再冲一波销量!

任务循环离不开Flash的单价和速度,Flash也借着这件事,从打杂的升成了真干活的。

谷歌把电脑操作能力塞进Gemini 3.5 Flash!自己看屏幕狂点70轮图8

不管咋说,对于咱用户来说当然是好事儿。

像日常工作里做运营、产品测试的友友,日常确实也短不了再一堆网页、后台、表格之间来回切。

而像数据和信息整理这类场景也蛮刚需,比如让AI去多个网站抓取信息,再统一整理成结构化内容,本身就是一条典型的跨界面工作流。

所以Computer Use更适合替我们完成在电脑上频繁点击、切换、操作、费时间的活儿!!!

多了个能操控电脑的AI外挂,多少有种加量不加价的实在……

参考链接:

[1]https://deepmind.google/blog/introducing-computer-use-in-gemini-3-5-flash/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
EMI 电脑
more
2026年semicon:成都迈科&三叠纪展示了AI算力芯片TGV Glass Core 、CPO Interposer等产品
谷歌Gemini个人智能功能接入Nano Banana图像生成,支持基于用户上下文的个性化创作
谷歌地图推Gemini驱动“Ask Maps”与沉浸式导航新体验
CoWoS仍紧,EMIB与美国封装扩产提速
华为SpaceMind登顶空间智能权威榜:纯RGB视觉语言模型拿下70.6分,刷新李飞飞榜单记录
谷歌Gemini杀入科学界!一日两登Nature,AlphaFold只是开胃菜
谷歌Chrome觉醒!Gemini 3全面接管,38亿用户一夜进入Agent时代
诺奖得主刚走,Gemini两大核心叛逃Anthropic!
突发!谷歌Gemini联席负责人,被OpenAI挖了
都是局部硅-台积电CoWoS-L和英特尔EMIB有什么不同
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号