




DeepMind 总结了 4 条核心原则:
-
第 1 条是“保持工作流”,即 AI 能力应覆盖各类应用场景,例如指向 PDF 后要求生成要点摘要并粘贴进邮件,悬停统计表格后要求生成饼图,选中菜谱后要求把全部配料翻倍。
-
第 2 条是“边指边说”,通过捕捉指针周围的视觉与语义信息,让系统知道用户究竟想处理哪个词、哪段文字、哪块图片或哪段代码。
-
第 3 条强调“这个”“那个”的自然表达方式。人与人交流时,本就依赖手势和共享语境,不必每次都说完整长句。若 AI 能同时理解上下文、指向动作和语音,用户只需说“改一下这个”或“把那个移到这里”,也能发出复杂请求。
-
第 4 条原则则是把像素转化为可操作实体,比如地点、日期、物体等,从而让一张潦草便签变成交互式待办清单,让旅行视频中的餐厅画面直接对应预订链接。
谷歌还在 AI Studio 上线的演示视频,可以更加清晰的展示 AI 辅助下的神器操作!