Meta 开源 Sapiens2:人体视觉模型进入 5B 参数时代
Meta / FAIR 新开源的 Sapiens2,表面上看是一组人体姿态、分割、抠图模型;但更准确地说,它是在把「人体视觉」做成一块基础设施。

它不是通用看图模型,而是专门围绕人来训练:身体、衣服、姿态、轮廓、遮挡、表面几何、前景 alpha,都是它要学的核心结构。
完整研报已上架 A站:
https://www.ai-insight.org/reports/sapiens2-human-vision-2026
这次最值得看的三件事
第一,Sapiens2 是高分辨率路线。
主模型原生 1024×768,另有 4096×3072 的 4K 预训练变体。对人体任务来说,这很关键:手指、头发、衣服边界、肢体遮挡,都不是低分辨率 token 能轻松解决的问题。
第二,模型规模已经进入 foundation backbone 区间。
官方发布了 0.1B、0.4B、0.8B、1B、1B-4K、5B 六档模型。最大 5B 不是给普通移动端实时跑的,更像研究和高质量离线处理上限;真正可能进入产品主链路的,大概率是 0.4B 到 1B 档。
第三,它不是单任务模型。
Sapiens2 覆盖姿态估计、身体部位分割、表面法线、3D pointmap、人像 matting 等任务。换句话说,它提供的是一套人体生产管线的中间层。
为什么它对生成式视频重要
现在的视频生成模型已经能生成很流畅的人,但最容易翻车的仍然是人体结构:
手指数量和关节关系漂移; 肢体遮挡后恢复错误; 衣服边界和身体边界粘连; 人物转身后 3D 几何不一致; 抠图、换装、重光照时边缘破碎; 多帧 pose / segmentation 不稳定导致闪烁。
Sapiens2 的价值,是给这些问题提供更强的人体解析层。

它不一定直接面对终端用户,但很可能进入生成/编辑管线的中间环节:给视频生成模型提供 pose、part map、normal 条件;给人像编辑模型提供 mask 和 alpha;给虚拟试衣提供身体部位和几何约束。
未来的人像生成产品,拼的不只是 diffusion 或 video model 本身,还包括背后有没有足够强的人体理解模型做约束和后处理。
但它不能直接当「免费商用模型」
Sapiens2 的代码和权重开放了,但 license 不是 Apache/MIT。
官方许可明确限制监控、生物识别处理、重识别、deepfake、敏感属性推断等用途。涉及人脸、人像、身份、监控、安防、医疗、招聘、保险、金融、门禁等场景,都不能只看「GitHub 开源」四个字就直接接入。
这类人体模型天然接近隐私和身份风险。商业团队真正要做的顺序是:先 license review,再 benchmark,再决定是否产品化。
A站判断
Sapiens2 短期不会像 LLM 那样变成聊天入口,但会悄悄影响人像生成、视频编辑、虚拟试衣、Avatar 和机器人感知这些高价值链路。
它最适合被当作「人体理解中间层」:上层 Agent 或应用调用它产出 pose map、part mask、normal map、matting mask,再交给生成模型或编辑模型处理。
完整研报看这里:
https://www.ai-insight.org/reports/sapiens2-human-vision-2026