资讯配图

作者：洛

现在的时代，借助 AI IDE，开发者们可以通过一条指令快速生成一个前端界面。具体方法可参考我们此前的文章AWS AI IDE「Kiro」深度体验：免费解锁最强编程模型。

但是，现有很多方法仅依赖自然语言提示，而实际工作中的 UI 开发通常始于视觉草图或原型，是多模态的。

为填补这一差距，香港中文大学 MMLab 实验室提出了 ScreenCoder 大模型，一个用于 UI 到前端代码生成的模块化多智能体。

在多种UI设计上的实验结果表明，该模型在视觉保真度、结构对齐和代码正确性方面达到了SOTA。

代码已开源至 GitHub（地址见文末）。

从UI到代码生成的模块化多智能体框架

ScreenCoder 多智能体框架将任务分解为三个连续的智能体：定位智能体、规划智能体和生成智能体，每个智能体处理一个特定的子问题。

上图为该模型从 UI 到代码的流程示例，展示了定位分区、布局规划以及前端代码生成过程。

该模型框架还能生成训练数据，进一步用到后续的训练，以增强 VLM 在 UI 到代码生成方面的能力。

双阶段后训练增强 VLM

ScreenCoder 通过两阶段训练流程：冷启动监督微调（SFT）和结合视觉-语义奖励的强化学习（RL）。

冷启动监督微调：研究者们利用该模型框架自动生成由UI设计图像与HTML/CSS代码配对组成数据集，接着将这个数据集应用于Qwen-VL-2.5进行冷启动微调。
结合视觉-语义奖励的强化学习：为了改进模型与布局结构和视觉保真度的对齐，采用GRPO强化学习方法，定义了一个复合奖励（块匹配奖励、文本相似性奖励、位置对齐奖励），最终引导语法有效且视觉逼真的HTML/CSS输出。