
【科技24时区】曾几何时,分辨一张图片是出自人类之手还是AI生成,简直易如反掌。只需看那菜单上是否凭空捏造出诸如“enchuita”、“churiros”或是拼写错误的“burrto”和“margartas”等令人啼笑皆非的菜品名,便可知晓端倪。那是两年前的事了,彼时的图像模型在处理文字时,往往显得力不从心,甚至可以说是“胡言乱语”。
然而,风向变了。当我向最新发布的ChatGPT Images 2.0模型索要一份墨西哥餐厅菜单时,它生成的成品几乎可以直接投入商用,顾客恐怕难以察觉任何异样——尽管那份标价13.5美元的酸橘汁腌鱼(ceviche)可能会让我对鱼肉的新鲜度打个问号,但这已是细节层面的挑剔,而非技术上的硬伤。
这种跨越式的进步,背后折射出的是底层技术逻辑的深刻变迁。长期以来,AI图像生成器在拼写问题上屡遭诟病,其根源在于广泛采用的扩散模型(Diffusion Models)。正如Lesan AI创始人兼CEO Asmelash Teka Hadgu在2024年接受TechCrunch采访时所言,扩散模型通过从噪声中重构图像来工作,“我们可以假设图像上的文字只占极小的一部分像素,因此图像生成器学习到的模式主要覆盖那些占据更多像素的区域。”换言之,文字被视为“噪音”或次要特征,被算法有意无意地忽略了。

为了突破这一瓶颈,研究人员开始探索自回归模型(Autoregressive Models)等其他机制。这类模型更像大型语言模型(LLM),通过对图像外观进行预测来生成内容,从而在逻辑连贯性和文本准确性上具备先天优势。值得注意的是,OpenAI在本周的媒体简报会上,对于驱动ChatGPT Images 2.0的具体模型架构讳莫如深,拒绝透露其究竟是基于扩散模型、自回归模型,还是某种混合架构。这种沉默本身,或许就暗示了技术路线竞争的白热化与复杂性。
虽然核心架构成谜,但OpenAI并未完全封锁信息。公司明确表示,新模型引入了“思考能力”(thinking capabilities)。这并非营销辞令,而是指模型具备了联网搜索、基于单一提示词生成多张图像以及自我校验创作结果的能力。正是这种“反思”机制,使得Images 2.0能够胜任制作不同尺寸的营销素材,乃至绘制多格漫画等复杂任务。此外,该模型在非拉丁字符的渲染上也取得了显著突破,对日语、韩语、印地语和孟加拉语的支持更为精准。不过,受限于截至2025年12月的知识截止点,涉及近期新闻事件的提示词生成效果可能会受到一定影响。
在官方新闻稿中,OpenAI毫不吝啬地赞美了这一成果:“Images 2.0为图像创作带来了前所未有的特异性和保真度。它不仅能构思更复杂的图像,更能有效地将愿景变为现实,遵循指令,保留请求的细节,并渲染那些通常会让图像模型‘崩溃’的细粒度元素:小字体、图标、UI元素、密集构图以及微妙的风格约束,所有这一切均以高达2K的分辨率呈现。”
当然,能力的提升必然伴随着计算成本的增加。这意味着图像生成的速度不再像向ChatGPT提问那样即时响应,但即便生成如多格漫画这般复杂的内容,也仅需几分钟时间。对于用户而言,这一变化既是福音也是挑战:更高的质量意味着更长的等待,但也换来了真正可用的生产力工具。
从本周二起,所有ChatGPT和Codex用户均可访问Images 2.0,付费用户将获得更高级的输出权限。与此同时,gpt-image-2 API也将同步开放,其定价策略将与输出质量和分辨率挂钩。这标志着AI图像生成正从“娱乐玩具”正式迈向“专业基础设施”,而那个曾经连菜单都写不对的AI时代,已彻底成为历史。