设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

新智元 2025-09-06 13:51

资讯配图



  新智元报道  

编辑:LRST
【新智元导读】清华大学最新提出的建筑专业知识驱动的平面图自动生成方案FloorPlan-LLaMa,解决传统模型「指标优秀但实际不可用」 痛点,让AI生成贴合建筑师设计偏好的可行方案。

建筑平面图是AEC(建筑、工程、施工)领域的核心 「语言」,贯穿设计思想草绘、方案交流与落地执行全流程。而住宅作为人们日常生活的基本空间载体,其平面图更是在建筑设计早期发挥着核心作用。

然而,传统平面图设计流程高度依赖建筑师个人经验,存在效率低、反馈慢、缺乏智能辅助等问题。

针对这一挑战,平面图自动生成模型(如GAN、扩散模型)不断涌现,但现有研究忽略了一个关键矛盾:

传统评估依赖FID、PSNR、GED等统计指标,仅衡量图像质量或结构相似性,完全未融入建筑专业知识——即便模型在这些指标上表现优异,生成的平面图仍可能存在 「功能分区混乱、流线低效、空间比例失衡」 等致命问题,难以应用于实际设计。

此外,已有研究方案还存在三重局限:

1. 数据集缺乏建筑师专业反馈,无法为模型提供 「何为合理设计」 的指导;

2. 是评估标准与建筑实际需求脱节,无法筛选出真正可行的方案;

3. 是生成模型未整合人类反馈优化,难以对齐建筑师的设计偏好。

针对上述痛点,清华大学深圳国际研究生院副教授吕帅团队提出FloorPlan-LLaMa模型,采用自回归生成架构,并创新性地引入「基于人类反馈的强化学习(RLHF)」机制,使模型在自动生成建筑平面图时,能够有效实现住宅功能区域分布的合理性与空间布局的清晰性,同时具备良好的房间轮廓表达与形式美感。

资讯配图

论文地址:https://aclanthology.org/2025.acl-long.331/

模型不仅学习建筑师在功能分区与空间流线组织方面的专业偏好,还能够把握整体构图的协调性与设计逻辑。

该方法实现设计生成与专家判断之间的深度协同,提升了生成式平面图在实际使用场景中的设计质量与实用价值。

资讯配图

FloorPlan-LLaMa模型的优势

该论文近日被自然语言处理与人工智能领域的国际顶级学术会议ACL录用,并获得领域主席奖。

ACL大会是自然语言处理与人工智能领域的国际顶级学术会议。

本届大会共收到超过8000篇投稿,243篇论文被遴选为口头报告,47篇论文获得高级领域主席推荐奖(SAC Highlights)。

FP-LLaMa模型的成功入选,充分体现了该研究在跨学科创新和应用实践方面的领先性和影响力。

第一作者为清华大学博士生殷俊,共同第一作者为清华大学博士生曾鹏宇,通讯作者为该校副教授吕帅,团队其它成员还包括孙浩源,张淼,戴语琴,郑涵,张亚超。


资讯配图
技术核心


FloorPlan-LLaMa 模型围绕「让 AI 理解建筑专业需求」的理念设计,其包含数据集、评分模型和生成模型三大核心组件:

研究人员提出了ArchiMetricsNet数据集,这是第一个包含三个专业评估维度(功能性、流线和整体评估)以及详细文本分析的平面图数据集。

资讯配图

ArchiMetricsNet数据集内容示意

研究人员使用ArchiMetricsNet数据集,训练了一个专为平面图多维度评估设计的模型FloorPlan-MPS(多维度偏好分数),将该模型生成的分数称为ARS(建筑合理性分数)。

研究人员开发了FP-LLaMa生成模型,一个基于自回归框架的平面图生成模型。

为了整合建筑师的专业知识和偏好,FloorPlan-MPS在RLHF过程中被用作奖励模型,使FP-LLaMa的输出与社区需求保持一致。

该方法采用了自回归生成机制,巧妙地消除了RLHF阶段反向扩散过程中对噪声预测的需要。

具体来说,使用FloorPlan Tokenizer将平面图转换为离散的词元序列,并使用Next-Token Prediction顺序生成平面图。

此外,为了提高效率,研究人员还结合了类条件机制和无分类器指导。

资讯配图

FP-LLaMa的三大阶段框架

FloorPlan Tokenizer:采用与VQGAN类似的编码器-量化器-解码器框架,可将连续的楼层平面图数据转换为离散标记,且训练时会同时采用重建损失、基于LPIPS的感知损失及来自PatchGAN判别器的对抗损失:

资讯配图

Next-Token Prediction:在推理时,FP-LLaMa使用自回归框架按顺序生成词元。对于楼层平面图词元序列带有自回归预测的Next-Token。

当For到达推理层时,计划词元FP-LLaMa序列生成资讯配图,下一个词元的概率由下式给出:

资讯配图

作为一个融合了建筑学专业知识的模型,该方法实现设计生成与专家判断之间的深度协同,提升了生成式平面图在实际使用场景中的设计质量与实用价值。


资讯配图
实验结果


研究人员在提出的建筑指标网络(ArchiMetricsNet)数据集上进行实验,采用四个关键评估指标:

FID(弗雷歇初始距离)、SSIM(结构相似性指数测量)、PSNR(峰值信噪比)以及新提出的ARS(建筑合理性得分,FloorPlan - MPS模型的评估结果)。

研究人员测试了两种不同的生成任务:类别条件生成和文本条件生成。

对比时选择了以下基线方法:HouseGAN 、HouseGAN++、HouseDiffusion 、FloorPlanDiffusion 、Tell2Design、Obj-GAN、Qwen2.5-7B-Instruct、ChatGLM4V。


资讯配图
定性实验


资讯配图

类条件生成

生成中HouseGAN 等现有先进模型或基于图形、或用输入房间块生成布局,为公平比较,每种方法均采样500张图像并选建筑合理性得分中位数示例,按FloorPlanDiffusion颜色配置展示。

资讯配图

不同方法在Text-Conditional task上生成的平面图的定性结果

资讯配图

ClassConditional任务上的平均人工评估分数

资讯配图

ClassConditional任务上的人工评估胜率

资讯配图

文本条件生成

受Tell2Design启发,研究人员将大语言模型用于 「隔壁房间序列预测」任务,以 Llama-3.2-11B-Vision-Instruct 为主干,对比 ChatGLM4V 等模型;

现有方法虽能生成高质量图像,但建筑师视角下次优,而带RLHF的FP-LLaMa布局更实用。

资讯配图

定量实验


为公平比较,研究人员计算不同方法生成平面图的度量时采用FloorPlanDiffusion配色方案,下表展现传统指标性能。

资讯配图

不同方法间类条件生成结果

资讯配图

不同方法在文本条件生成中的结果

资讯配图

下表则使用建筑合理性得分(ARS)评估;

资讯配图

不同方法在类条件生成中的建筑合理些得分(ARS)

资讯配图

不同方法在文本条件生成中的建筑合理些得分(ARS)

结果表现为FP-LLaMa传统指标最佳,加RLHF后传统指标略降,但ARS比次优方法高8.54%且贴合建筑师偏好,未加RLHF的FP-LLaMa评分近传统方法,这说明清晰度和与真实值相似性不代表设计合理,因原始数据集含不合理布局且有偏差。


资讯配图
总结

研究人员试图通过引入ArchiMetricsNet(一个具有人类反馈的数据集)来解决现有建筑平面图生成和评估方法的局限性;

FP-LLaMa,一个微调的自回归模型,与专业建筑师保持一致。

这项工作推进了人类专业知识在建筑平面图生成技术中的整合,并展示了大型自回归生成模型在「建筑、工程与施工」领域的潜力。

参考资料:
https://aclanthology.org/2025.acl-long.331/

资讯配图

资讯配图

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号