Meta 开源 Sapiens2:人体视觉模型进入 5B 参数时代

机智流 2026-05-19 10:07

Meta 开源 Sapiens2:人体视觉模型进入 5B 参数时代

Meta / FAIR 新开源的 Sapiens2,表面上看是一组人体姿态、分割、抠图模型;但更准确地说,它是在把「人体视觉」做成一块基础设施。

Meta 开源 Sapiens2:人体视觉模型进入 5B 参数时代图1

它不是通用看图模型,而是专门围绕人来训练:身体、衣服、姿态、轮廓、遮挡、表面几何、前景 alpha,都是它要学的核心结构。

完整研报已上架 A站:

https://www.ai-insight.org/reports/sapiens2-human-vision-2026

这次最值得看的三件事

第一,Sapiens2 是高分辨率路线。

主模型原生 1024×768,另有 4096×3072 的 4K 预训练变体。对人体任务来说,这很关键:手指、头发、衣服边界、肢体遮挡,都不是低分辨率 token 能轻松解决的问题。

第二,模型规模已经进入 foundation backbone 区间。

官方发布了 0.1B、0.4B、0.8B、1B、1B-4K、5B 六档模型。最大 5B 不是给普通移动端实时跑的,更像研究和高质量离线处理上限;真正可能进入产品主链路的,大概率是 0.4B 到 1B 档。

第三,它不是单任务模型。

Sapiens2 覆盖姿态估计、身体部位分割、表面法线、3D pointmap、人像 matting 等任务。换句话说,它提供的是一套人体生产管线的中间层。

为什么它对生成式视频重要

现在的视频生成模型已经能生成很流畅的人,但最容易翻车的仍然是人体结构:


  • 手指数量和关节关系漂移;

  • 肢体遮挡后恢复错误;

  • 衣服边界和身体边界粘连;

  • 人物转身后 3D 几何不一致;

  • 抠图、换装、重光照时边缘破碎;

  • 多帧 pose / segmentation 不稳定导致闪烁。

Sapiens2 的价值,是给这些问题提供更强的人体解析层。

Meta 开源 Sapiens2:人体视觉模型进入 5B 参数时代图2

它不一定直接面对终端用户,但很可能进入生成/编辑管线的中间环节:给视频生成模型提供 pose、part map、normal 条件;给人像编辑模型提供 mask 和 alpha;给虚拟试衣提供身体部位和几何约束。

未来的人像生成产品,拼的不只是 diffusion 或 video model 本身,还包括背后有没有足够强的人体理解模型做约束和后处理。

但它不能直接当「免费商用模型」

Sapiens2 的代码和权重开放了,但 license 不是 Apache/MIT。

官方许可明确限制监控、生物识别处理、重识别、deepfake、敏感属性推断等用途。涉及人脸、人像、身份、监控、安防、医疗、招聘、保险、金融、门禁等场景,都不能只看「GitHub 开源」四个字就直接接入。

这类人体模型天然接近隐私和身份风险。商业团队真正要做的顺序是:先 license review,再 benchmark,再决定是否产品化。

A站判断

Sapiens2 短期不会像 LLM 那样变成聊天入口,但会悄悄影响人像生成、视频编辑、虚拟试衣、Avatar 和机器人感知这些高价值链路。

它最适合被当作「人体理解中间层」:上层 Agent 或应用调用它产出 pose map、part mask、normal map、matting mask,再交给生成模型或编辑模型处理。

完整研报看这里:

https://www.ai-insight.org/reports/sapiens2-human-vision-2026

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
全球首个开源RISC-V架构符合性测试工具发布,亦测ACT引领生态高质量发展
英伟达力荐,小团队两个月开源一款「光速级」智能体推理引擎
DAG革新时间序列预测,代码、数据、排行榜全开源 | ICML'26
LeCun点赞:国产开源模型占领硅谷,性价比超10倍
腾讯混元Hy3 preview开源:295B参数重塑AI实战性价比
2B开源模型手机养虾!谷歌Gemini 3技术下放:支持语音视频多模态,全免费可商用
从“卷模型”到“拼数据”,昂贵数采下的15个开源项目
美团开源“语音克隆”模型,1B/3.5B双选,超自然复刻你的声音
谷歌开源Gemma 4,干掉了13倍体量的Qwen3.5
浙大开源ClawGUI,打通GUI智能体训练、评估与部署全链路
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号