苹果传统强项再发力,视觉领域三种模态终于统一

机器之心 2025-09-22 18:23
机器之心报道

编辑:冷猫


苹果新品发售的热度还没消退,大家都在讨论新手机的硬件进化。


而在 AI 功能方面,苹果仍然没有拿出什么颠覆性的应用,Apple Intelligence 在国内仍然遥遥无期。


再叠加上近期苹果 AI 团队和硬件团队的人才流失,这一切似乎对苹果而言都不是太乐观。


虽说苹果在大模型领域上总是吃瘪,但说一个不冷不热的知识:苹果在计算机视觉领域的智能研究是其传统强项。


在构建和视觉相关的大模型时,有一个非常显著的痛点。视觉模态包含图像、视频和三维这三种,这些视觉模态具备不同是数据维度和表征方式,在研究中几乎不可避免的需要分开处理,使得视觉模型被拆分为三个相不互通的研究领域,难以实现视觉领域的统一泛化。


但大语言模型却已经通过统一的分词方案展现出了强大的泛化能力。


然而,视觉 AI 仍然呈现出割裂状,不同任务与模态依赖专门化的模型:图像、视频和三维资产通常需要独立的分词器,这些分词器往往只在 高保真重建 或 语义理解 其中之一上进行优化,而极少兼顾二者。


为此,Apple 研究团队提出了 ATOKEN(A Unified Tokenizer for Vision) ,针对这一核心局限,提出了首个能够在所有主要视觉模态上进行统一处理的视觉分词器,并同时兼顾重建质量与语义理解。


这一成果标志着朝着创建具备 通用性与泛化能力的视觉表征 迈出了重要一步。


资讯配图



AToken 是首个在图像、视频和三维资产上同时实现高保真重建与语义理解的统一视觉分词器。与现有仅针对单一模态、专注于重建或理解的分词器不同,AToken 将多样化的视觉输入编码到共享的 四维潜在空间 中,在单一框架下统一了任务与模态。


具体而言,研究团队引入了 纯 Transformer 架构,并采用 四维旋转位置嵌入 来处理任意分辨率与时长的视觉输入。为确保训练稳定性,研究团队提出了一种 无对抗的训练目标,结合感知损失与 Gram 矩阵损失,实现了最先进的重建质量。同时,通过 渐进式训练,AToken 从单张图像逐步扩展到视频和三维资产,并支持 连续与离散潜在 token。


资讯配图

ATOKEN 在图像、视频和三维资产上实现了统一分词,通过共享的四维表示同时支持 高保真重建 与 语义理解任务。


核心创新:统一四维表示


ATOKEN 的核心创新在于提出了一个共享的稀疏 4D 潜在空间,将所有视觉模态表示为 特征–坐标对集合:


资讯配图


在这种表示下:



这种稀疏表示能够优雅地处理 任意分辨率与时序长度,并在单一架构下实现对多样化视觉格式的原生处理。基于这一统一潜在表示,系统分别导出两个投影:用于 重建任务的 z_r 和用于 语义理解的 z_s,并可选用 有限标量量化(FSQ) 以支持离散分词。


Transformer 架构


资讯配图

ATOKEN 架构采用稀疏 Transformer 编码器 - 解码器,具有 4D RoPE 定位、无对抗训练和用于重建与理解的双目标优化。


ATOKEN 采用纯 Transformer 架构,超越了传统的卷积方法。该系统利用:



渐进式训练


资讯配图

四阶段的渐进式训练课程逐步构建模型能力,并证明多模态学习不仅不会削弱单一模态性能,反而能够增强。


ATOKEN 采用了精心设计的 四阶段训练课程:



这一渐进式训练方法揭示了一个关键结论:多模态训练会增强而非削弱单一模态性能,这与传统上关于多目标学习中 「任务干扰」 的普遍认知相反。


实验结果与性能


ATOKEN 在各类评测指标上均表现出 业界领先或高度竞争力:


图像分词(Image Tokenization)



资讯配图

ATOKEN 在大幅压缩比下仍能保持高质量图像重建,保留了精细的纹理、细节与文字清晰度。


视频处理(Video Processing)



资讯配图

视频重建保持了与专用方法相当的时间一致性与运动流畅性,同时支持任意长度的视频序列。


三维资产处理(3D Asset Handling)



资讯配图


图 7:3D 重建在颜色一致性上优于专用方法,这得益于 ATOKEN 在图像与视频训练中学到的跨模态颜色理解能力。


在下游应用中,AToken 同时支持生成任务(如基于连续与离散 token 的图像生成、文本生成视频、图像生成三维)和理解任务(如多模态大语言模型),并在各类基准上取得了有竞争力的性能。


这些结果表明,基于统一视觉分词的下一代多模态 AI 系统正逐渐成为现实。


更多细节,请参阅原论文。


资讯配图


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
苹果
more
OpenAI最新硬件2026年底亮相!狂挖苹果20+老将,首款神秘设备或将颠覆iPhone
卢伟冰回应小米17争议:绝非简单跟随苹果,多项性能已超苹果Pro;刘强东「10年1元年薪」之约到期;巴菲特清仓比亚迪,涨超38倍
小米17系列手机9月25日发布;iPhone 17标准款需求超预期,苹果已增产;罗永浩:个人债务五年前就还完了|极客早知道
体验iPhone 17后,我想说苹果终于要回击国产机了。
新车:全新蔚来ES8上市;小米汽车与苹果深度合作;问界M9「银境紫」官图发布;2026 款莲花EMEYA上市
OpenAI 做硬件动真格了:狂挖苹果员工,还签下代工商立讯、歌尔
标准版干翻上代Pro,小米用苹果思维做安卓平板?
【苹果】七代iPhoneProMax合影 有你用过的吗?
雷军年度演讲官宣,小米17将发布/苹果提升iPhone 17产量,Air有望10月发售合约机/OpenAI将发布新产品
OpenAI从苹果挖了20多人搞硬件,知情人士:苹果创新缓慢、官僚主义令人厌倦
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号