Meta 开源 Sapiens2：人体视觉模型进入 5B 参数时代

Meta / FAIR 新开源的 Sapiens2，表面上看是一组人体姿态、分割、抠图模型；但更准确地说，它是在把「人体视觉」做成一块基础设施。

它不是通用看图模型，而是专门围绕人来训练：身体、衣服、姿态、轮廓、遮挡、表面几何、前景 alpha，都是它要学的核心结构。

完整研报已上架 A站：

https://www.ai-insight.org/reports/sapiens2-human-vision-2026

这次最值得看的三件事

第一，Sapiens2 是高分辨率路线。

主模型原生 1024×768，另有 4096×3072 的 4K 预训练变体。对人体任务来说，这很关键：手指、头发、衣服边界、肢体遮挡，都不是低分辨率 token 能轻松解决的问题。

第二，模型规模已经进入 foundation backbone 区间。

官方发布了 0.1B、0.4B、0.8B、1B、1B-4K、5B 六档模型。最大 5B 不是给普通移动端实时跑的，更像研究和高质量离线处理上限；真正可能进入产品主链路的，大概率是 0.4B 到 1B 档。

第三，它不是单任务模型。

Sapiens2 覆盖姿态估计、身体部位分割、表面法线、3D pointmap、人像 matting 等任务。换句话说，它提供的是一套人体生产管线的中间层。

现在的视频生成模型已经能生成很流畅的人，但最容易翻车的仍然是人体结构：

Sapiens2 的价值，是给这些问题提供更强的人体解析层。

它不一定直接面对终端用户，但很可能进入生成/编辑管线的中间环节：给视频生成模型提供 pose、part map、normal 条件；给人像编辑模型提供 mask 和 alpha；给虚拟试衣提供身体部位和几何约束。

未来的人像生成产品，拼的不只是 diffusion 或 video model 本身，还包括背后有没有足够强的人体理解模型做约束和后处理。

Sapiens2 的代码和权重开放了，但 license 不是 Apache/MIT。

官方许可明确限制监控、生物识别处理、重识别、deepfake、敏感属性推断等用途。涉及人脸、人像、身份、监控、安防、医疗、招聘、保险、金融、门禁等场景，都不能只看「GitHub 开源」四个字就直接接入。

这类人体模型天然接近隐私和身份风险。商业团队真正要做的顺序是：先 license review，再 benchmark，再决定是否产品化。

Sapiens2 短期不会像 LLM 那样变成聊天入口，但会悄悄影响人像生成、视频编辑、虚拟试衣、Avatar 和机器人感知这些高价值链路。

它最适合被当作「人体理解中间层」：上层 Agent 或应用调用它产出 pose map、part mask、normal map、matting mask，再交给生成模型或编辑模型处理。

完整研报看这里：

https://www.ai-insight.org/reports/sapiens2-human-vision-2026