又一国产模型黑马出世，追平Gemini 2.5 Pro，空间编辑反超视频模型？

又一国产模型黑马出世，追平Gemini 2.5 Pro，空间编辑反超视频模型？图1

京东发力“空间智能”图像模型，一手开源、一手卷落地。

作者 | 江宇

编辑 | 漠影

大厂AI战局升温，转型几乎成为共识。模型在进化，Agent在落地，但成本高、落地难、数据不够，行业还在补课。

而京东在AI上的布局已然聚焦清晰：围绕供应链优势，推进具身智能，让AI真正进入物理世界。此次推出的一体化图像模型——JoyAI-Image-Edit，高度适用于生成电商、具身智能训练图片。

近日，京东开源图像模型JoyAI-Image-Edit，将空间智能纳入图像理解与编辑，让AI开始处理真实世界中的空间关系，让模型真正“理解空间，编辑空间”。

简单解释，这是一个以空间智能为核心的图像生成与编辑模型，让 AI 真正“看懂”三维空间，从而让生成更合理、编辑更精准。

又一国产模型黑马出世，追平Gemini 2.5 Pro，空间编辑反超视频模型？图3

从公开评测来看，JoyAI-Image-Edit各项指标显著领先，迈进了国际第一梯队：空间理解刷新同量级开源模型SOTA，达到世界一流水平，大部分指标媲美或超越闭源模型 Gemini 2.5 Pro。长文本生成中英文双语领先，图像编辑能力全面覆盖，空间编辑精度甚至超过部分视频世界模型。

又一国产模型黑马出世，追平Gemini 2.5 Pro，空间编辑反超视频模型？图4

智东西也实测了一番，在物体位置调整这类场景中，模型能够稳定保持结构一致性。

值得注意的是，此番调整的物体在画幅中仅占据很小比例，且原物体并非形状规则，为毛绒材质，并带有手部细节。即便如此，模型在移动或旋转时仍能有效减少透视错乱与遮挡问题，画面整体保持自然。

又一国产模型黑马出世，追平Gemini 2.5 Pro，空间编辑反超视频模型？图5

▲输入图与指令（左）、输出图（右）

进一步看，这类能力的主要落点，在电商内容生产与具身智能训练这两类场景尤为适配，进而也能延展到建筑设计、游戏开发和影视制作等场景。电商和具身，恰好与京东现有的AI布局形成了直接呼应。

01.

把“空间智能”写进模型：

从“会改图”到“会动空间”

图像编辑能力开始分层

传统图像编辑模型的短板集中在空间层。语义能跟上，但空间关系容易崩，例如替换物体、修改姿态时，常出现比例失真、遮挡错误、光影不一致等问题，本质是缺乏几何层面的理解能力。

JoyAI-Image-Edit则把“空间编辑”单独拉出来做能力核心。模型在支持15类通用编辑任务之外，进一步支持物体移动、旋转、视角变换等空间级操作，并可理解“移动0.3米”“旋转45度”等具备明确几何参数的指令，让编辑过程具备“可控性”。

又一国产模型黑马出世，追平Gemini 2.5 Pro，空间编辑反超视频模型？图6

在能力结构上，模型还采用MLLM+VAE+扩散模型（MMDiT）的统一架构。

又一国产模型黑马出世，追平Gemini 2.5 Pro，空间编辑反超视频模型？图7

具体来说，MLLM负责空间理解与语义建模，扩散模型执行生成与编辑，空间信息直接参与生成过程，形成“理解—生成—再理解”的循环。

空间能力是怎么提升起来的？答案在于数据体系的重构——包括300万规模的OpenSpatial-3M数据集、多视角生成数据，以及可记录精确位姿参数的空间编辑数据。这些数据引导模型在训练阶段学习真实几何关系。

又一国产模型黑马出世，追平Gemini 2.5 Pro，空间编辑反超视频模型？图8

得益于这种设计，在2D语义感知、3D空间理解、4D时空推理三个层级共13项Benchmark上，JoyAI-Image-Edit在9项空间理解Benchmark上均取得显著提升，平均分达到64.4，追平闭源的Gemini 2.5 Pro。

又一国产模型黑马出世，追平Gemini 2.5 Pro，空间编辑反超视频模型？图9

在SpatialEdit-Bench上，JoyAI-Image-Edit的空间编辑能力表现尤为突出：Object Overall Score为0.649、Camera Overall Score为0.571，大幅领先所有图像编辑模型，空间编辑精度超越Veo3.1、ViduQ2-Turbo和Kling等视频世界模型。

与此同时，在业界权威的榜单GEdit（偏向中文指令评测和真实用户需求）和ImgEdit（偏向全面覆盖的能力评测，强调推理和精细化编辑能力）上，JoyAI-Image-Edit得分分别为8.27和4.57，刷新开源图像编辑模型SOTA。