top of page

短信至城市

利用潜在扩散模型实现可控的三维城市街区生成
  • 2023 年 6 月 - 2024 年 1 月

  • 作者:庄俊岭、李冠宏、徐航、徐金图、田润嘉

  • 引用:JL Zhuang、GH Li、H. Xu、JT XU、RJ Tian (2024)。文本到城市:使用潜在扩散模型的可控 3D 城市街区生成。在《ACCELEERATED DESIGN》中,亚洲计算机辅助建筑设计研究协会 (CAADRIA) 2024 年第 29 届国际会议论文集,第 2 卷,第 169-178 页。

抽象的

深度学习的兴起为城市街区设计带来了新的计算工具。许多研究人员已经使用基于规则或深度学习的方法探索了生成式城市街区设计。然而,这些方法往往无法充分捕捉形态特征和建筑密度等基本设计指标。潜在扩散模型,特别是在城市设计方面,提供了一种突破性的解决方案。这些模型可以直接从文本描述生成城市景观,并结合了广泛的设计指标。本文介绍了一种新颖的工作流程,利用最先进的潜在扩散模型稳定扩散来生成 3D 城市环境。该过程涉及从生成的深度图像重建 3D 城市街区模型,采用系统的深度到高度映射技术。此外,本文还探讨了各种城市形态特征之间的外推,旨在生成超越现有城市模型的新型城市形态。这种创新方法不仅有助于准确生成具有特定形态特征和设计指标(如建筑密度)的城市街区,而且还通过应用于三个不同的城市展示了其多功能性。该方法已在选定的城市进行测试,具有适用于更广泛的城市环境和更多设计指标的潜力,为未来的计算城市设计研究奠定了基础。

实验与应用
数据创建.jpg
该研究分析了柏林、汉堡和剑桥(美国),这三个城市的街道格局各有不同——柏林的街道呈线性,汉堡的街道呈封闭式,剑桥的街道呈网格状。数据集包含各种屋顶样式,并使用标准化的 140 米高度映射来获取深度图像。计算了建筑物密度指标,以确保每个城市内的分布均衡,最终形成了每个城市包含 100 幅图像的数据集。
文本数据格式.jpg
在我们的研究中,我们测试了八种图文配对字幕格式,下图突出显示了前三种格式。格式 3(例如柏林的“巴洛克城镇纹理,Density_16,城市平面图”)是最有效的。它与 Dreambooth 的标识符策略一致,可确保准确的密度标签,并且与自然语言格式相比可减少歧义。
数据集展览.png
我们使用旋转和翻转变换将数据集扩大了 16 倍,为不同的城市创建了三个数据集。每个数据集包含 1660 对深度图和文本描述,总共 4800 个训练对。图 7 显示了这些对,突出显示了城市建筑密度的变化。
val 指标
在超参数优化过程中,我们测试了多种学习率和调度程序组合。最佳设置(No. 09)在 NVIDIA 4090 GPU 上,使用 3e-06 学习率和恒定调度程序,在 160 个周期内实现了 0.03557 的重构误差和 0.040 的密度损失。在 200 个周期内进行的大量测试表明,神经网络损失受学习率的影响大于受调度程序的影响。
密度评估.png
我们还以柏林为例测试了我们的顶级模型 No.9 的性能。该模型在训练的文本(输入)密度方面显然更准确。
应用程序.png
我们运行了灰度城市形态模式的批量推理生成,并使用我们的 Grasshopper 脚本将这些图像拉伸以重建 3D 城市模型。我们的模型允许用户使用 ControlNet 根据场地和道路条件控制输出,包括特定的城市形态,可以看出生成的结果符合文本输入并且可以很好地连接到周围的城市形态。
形态插值2.png
Deforum Diffusion 被用于根据不同的文本提示在关键帧之间进行插值,从而融合城市形态。这种方法产生了多种城市风格的混合。
关联
bottom of page