告别“乱码”时代：ChatGPT Images 2.0上线，AI绘图终于能写对字了

【科技24时区】曾几何时，分辨一张图片是出自人类之手还是AI生成，简直易如反掌。只需看那菜单上是否凭空捏造出诸如“enchuita”、“churiros”或是拼写错误的“burrto”和“margartas”等令人啼笑皆非的菜品名，便可知晓端倪。那是两年前的事了，彼时的图像模型在处理文字时，往往显得力不从心，甚至可以说是“胡言乱语”。

然而，风向变了。当我向最新发布的ChatGPT Images 2.0模型索要一份墨西哥餐厅菜单时，它生成的成品几乎可以直接投入商用，顾客恐怕难以察觉任何异样——尽管那份标价13.5美元的酸橘汁腌鱼（ceviche）可能会让我对鱼肉的新鲜度打个问号，但这已是细节层面的挑剔，而非技术上的硬伤。

这种跨越式的进步，背后折射出的是底层技术逻辑的深刻变迁。长期以来，AI图像生成器在拼写问题上屡遭诟病，其根源在于广泛采用的扩散模型（Diffusion Models）。正如Lesan AI创始人兼CEO Asmelash Teka Hadgu在2024年接受TechCrunch采访时所言，扩散模型通过从噪声中重构图像来工作，“我们可以假设图像上的文字只占极小的一部分像素，因此图像生成器学习到的模式主要覆盖那些占据更多像素的区域。”换言之，文字被视为“噪音”或次要特征，被算法有意无意地忽略了。

为了突破这一瓶颈，研究人员开始探索自回归模型（Autoregressive Models）等其他机制。这类模型更像大型语言模型（LLM），通过对图像外观进行预测来生成内容，从而在逻辑连贯性和文本准确性上具备先天优势。值得注意的是，OpenAI在本周的媒体简报会上，对于驱动ChatGPT Images 2.0的具体模型架构讳莫如深，拒绝透露其究竟是基于扩散模型、自回归模型，还是某种混合架构。这种沉默本身，或许就暗示了技术路线竞争的白热化与复杂性。

虽然核心架构成谜，但OpenAI并未完全封锁信息。公司明确表示，新模型引入了“思考能力”（thinking capabilities）。这并非营销辞令，而是指模型具备了联网搜索、基于单一提示词生成多张图像以及自我校验创作结果的能力。正是这种“反思”机制，使得Images 2.0能够胜任制作不同尺寸的营销素材，乃至绘制多格漫画等复杂任务。此外，该模型在非拉丁字符的渲染上也取得了显著突破，对日语、韩语、印地语和孟加拉语的支持更为精准。不过，受限于截至2025年12月的知识截止点，涉及近期新闻事件的提示词生成效果可能会受到一定影响。

在官方新闻稿中，OpenAI毫不吝啬地赞美了这一成果：“Images 2.0为图像创作带来了前所未有的特异性和保真度。它不仅能构思更复杂的图像，更能有效地将愿景变为现实，遵循指令，保留请求的细节，并渲染那些通常会让图像模型‘崩溃’的细粒度元素：小字体、图标、UI元素、密集构图以及微妙的风格约束，所有这一切均以高达2K的分辨率呈现。”

当然，能力的提升必然伴随着计算成本的增加。这意味着图像生成的速度不再像向ChatGPT提问那样即时响应，但即便生成如多格漫画这般复杂的内容，也仅需几分钟时间。对于用户而言，这一变化既是福音也是挑战：更高的质量意味着更长的等待，但也换来了真正可用的生产力工具。

从本周二起，所有ChatGPT和Codex用户均可访问Images 2.0，付费用户将获得更高级的输出权限。与此同时，gpt-image-2 API也将同步开放，其定价策略将与输出质量和分辨率挂钩。这标志着AI图像生成正从“娱乐玩具”正式迈向“专业基础设施”，而那个曾经连菜单都写不对的AI时代，已彻底成为历史。