
新智元报道
新智元报道
【新智元导读】清华大学最新提出的建筑专业知识驱动的平面图自动生成方案FloorPlan-LLaMa,解决传统模型「指标优秀但实际不可用」 痛点,让AI生成贴合建筑师设计偏好的可行方案。
建筑平面图是AEC(建筑、工程、施工)领域的核心 「语言」,贯穿设计思想草绘、方案交流与落地执行全流程。而住宅作为人们日常生活的基本空间载体,其平面图更是在建筑设计早期发挥着核心作用。
然而,传统平面图设计流程高度依赖建筑师个人经验,存在效率低、反馈慢、缺乏智能辅助等问题。
针对这一挑战,平面图自动生成模型(如GAN、扩散模型)不断涌现,但现有研究忽略了一个关键矛盾:
传统评估依赖FID、PSNR、GED等统计指标,仅衡量图像质量或结构相似性,完全未融入建筑专业知识——即便模型在这些指标上表现优异,生成的平面图仍可能存在 「功能分区混乱、流线低效、空间比例失衡」 等致命问题,难以应用于实际设计。
此外,已有研究方案还存在三重局限:
1. 数据集缺乏建筑师专业反馈,无法为模型提供 「何为合理设计」 的指导;
2. 是评估标准与建筑实际需求脱节,无法筛选出真正可行的方案;
3. 是生成模型未整合人类反馈优化,难以对齐建筑师的设计偏好。
针对上述痛点,清华大学深圳国际研究生院副教授吕帅团队提出FloorPlan-LLaMa模型,采用自回归生成架构,并创新性地引入「基于人类反馈的强化学习(RLHF)」机制,使模型在自动生成建筑平面图时,能够有效实现住宅功能区域分布的合理性与空间布局的清晰性,同时具备良好的房间轮廓表达与形式美感。

论文地址:https://aclanthology.org/2025.acl-long.331/
模型不仅学习建筑师在功能分区与空间流线组织方面的专业偏好,还能够把握整体构图的协调性与设计逻辑。
该方法实现设计生成与专家判断之间的深度协同,提升了生成式平面图在实际使用场景中的设计质量与实用价值。

FloorPlan-LLaMa模型的优势
该论文近日被自然语言处理与人工智能领域的国际顶级学术会议ACL录用,并获得领域主席奖。
ACL大会是自然语言处理与人工智能领域的国际顶级学术会议。
本届大会共收到超过8000篇投稿,243篇论文被遴选为口头报告,47篇论文获得高级领域主席推荐奖(SAC Highlights)。
FP-LLaMa模型的成功入选,充分体现了该研究在跨学科创新和应用实践方面的领先性和影响力。
第一作者为清华大学博士生殷俊,共同第一作者为清华大学博士生曾鹏宇,通讯作者为该校副教授吕帅,团队其它成员还包括孙浩源,张淼,戴语琴,郑涵,张亚超。

FloorPlan-LLaMa 模型围绕「让 AI 理解建筑专业需求」的理念设计,其包含数据集、评分模型和生成模型三大核心组件:
研究人员提出了ArchiMetricsNet数据集,这是第一个包含三个专业评估维度(功能性、流线和整体评估)以及详细文本分析的平面图数据集。

ArchiMetricsNet数据集内容示意
研究人员使用ArchiMetricsNet数据集,训练了一个专为平面图多维度评估设计的模型FloorPlan-MPS(多维度偏好分数),将该模型生成的分数称为ARS(建筑合理性分数)。
研究人员开发了FP-LLaMa生成模型,一个基于自回归框架的平面图生成模型。
为了整合建筑师的专业知识和偏好,FloorPlan-MPS在RLHF过程中被用作奖励模型,使FP-LLaMa的输出与社区需求保持一致。
该方法采用了自回归生成机制,巧妙地消除了RLHF阶段反向扩散过程中对噪声预测的需要。
具体来说,使用FloorPlan Tokenizer将平面图转换为离散的词元序列,并使用Next-Token Prediction顺序生成平面图。
此外,为了提高效率,研究人员还结合了类条件机制和无分类器指导。

FP-LLaMa的三大阶段框架
FloorPlan Tokenizer:采用与VQGAN类似的编码器-量化器-解码器框架,可将连续的楼层平面图数据转换为离散标记,且训练时会同时采用重建损失、基于LPIPS的感知损失及来自PatchGAN判别器的对抗损失:

Next-Token Prediction:在推理时,FP-LLaMa使用自回归框架按顺序生成词元。对于楼层平面图词元序列带有自回归预测的Next-Token。
当For到达推理层时,计划词元FP-LLaMa序列生成,下一个词元的概率由下式给出:

作为一个融合了建筑学专业知识的模型,该方法实现设计生成与专家判断之间的深度协同,提升了生成式平面图在实际使用场景中的设计质量与实用价值。

研究人员在提出的建筑指标网络(ArchiMetricsNet)数据集上进行实验,采用四个关键评估指标:
FID(弗雷歇初始距离)、SSIM(结构相似性指数测量)、PSNR(峰值信噪比)以及新提出的ARS(建筑合理性得分,FloorPlan - MPS模型的评估结果)。
研究人员测试了两种不同的生成任务:类别条件生成和文本条件生成。
对比时选择了以下基线方法:HouseGAN 、HouseGAN++、HouseDiffusion 、FloorPlanDiffusion 、Tell2Design、Obj-GAN、Qwen2.5-7B-Instruct、ChatGLM4V。

生成中HouseGAN 等现有先进模型或基于图形、或用输入房间块生成布局,为公平比较,每种方法均采样500张图像并选建筑合理性得分中位数示例,按FloorPlanDiffusion颜色配置展示。

不同方法在Text-Conditional task上生成的平面图的定性结果

ClassConditional任务上的平均人工评估分数

ClassConditional任务上的人工评估胜率
受Tell2Design启发,研究人员将大语言模型用于 「隔壁房间序列预测」任务,以 Llama-3.2-11B-Vision-Instruct 为主干,对比 ChatGLM4V 等模型;
现有方法虽能生成高质量图像,但建筑师视角下次优,而带RLHF的FP-LLaMa布局更实用。
为公平比较,研究人员计算不同方法生成平面图的度量时采用FloorPlanDiffusion配色方案,下表展现传统指标性能。

不同方法间类条件生成结果

不同方法在文本条件生成中的结果

下表则使用建筑合理性得分(ARS)评估;

不同方法在类条件生成中的建筑合理些得分(ARS)

不同方法在文本条件生成中的建筑合理些得分(ARS)
结果表现为FP-LLaMa传统指标最佳,加RLHF后传统指标略降,但ARS比次优方法高8.54%且贴合建筑师偏好,未加RLHF的FP-LLaMa评分近传统方法,这说明清晰度和与真实值相似性不代表设计合理,因原始数据集含不合理布局且有偏差。

研究人员试图通过引入ArchiMetricsNet(一个具有人类反馈的数据集)来解决现有建筑平面图生成和评估方法的局限性;
FP-LLaMa,一个微调的自回归模型,与专业建筑师保持一致。
这项工作推进了人类专业知识在建筑平面图生成技术中的整合,并展示了大型自回归生成模型在「建筑、工程与施工」领域的潜力。

