LLM 规划代理
探索大型语言模型代理在城市设计和规划中的潜力和挑战
2024 年 2 月 - 2024 年 11 月
作者:Eduardo-Rico Carranza、黄升阳、李冠宏
所属:建筑协会建筑学院
引文:Rico Carranza, E., Huang, S.-Y., & Li, GH. (2025). LLM 规划代理:探索大型语言模型代理在城市设计和规划中的潜力和挑战.caadria.2025(印刷中)
抽象的
将大型语言模型 (LLM) 作为规划代理整合到城市设计和规划中,代表了一种解决该领域固有复杂性的新方法。本研究探讨了它们的潜力和挑战,重点关注它们模拟决策过程、增强利益相关者参与度和提供分析支持的能力。该研究使用代理框架评估了 63 个城市发展提案,重点关注水管理,采用顺序和嵌套框架。对几个 LLM 进行了测试,以调查不同模型规模的性能差异。研究结果表明,虽然 LLM 代理表现出“常识”并遵循规划建议,但它们对可访问数据的依赖往往会导致过于通用的输出,这强调了对更好的数据检索机制的需求,例如检索增强生成 (RAG)。实验结果表明,嵌套框架在推理和决策方面优于顺序框架,但局限性仍然存在,包括偏见、有限的空间意识和偶尔的离题生成。应对这些挑战需要新颖的代理架构和及时的工程设计。较小的模型有时比较大的模型表现更好,这挑战了规模保证准确性的假设。尽管存在这些限制,但 LLM 在识别被忽视的细节和增强场景探索方面表现出了价值。这项研究还提倡改进空间推理、数据集成和框架设计。
方法和发现

我们在西萨塞克斯地区选择了七个地点。国家公园内的格拉夫汉姆和阿普沃尔瑟姆两地的规划提案应受到严格限制,因此其实际得分为 3,这意味着更难获得批准。而受保护湿地附近的奇德汉姆、博沙姆和帕格汉姆则应优先考虑自然。其余两地奇切斯特和伊斯特威特林的规划提案应获得宽松的批准,这使其实际得分分别降低 2 和 1.5。
在每个地点,我们都测试了三个项目,每个项目都用一段文字描述,概述了 200 个住房单元的开发情况和相应的水管理策略。
项目1纳入了全面的可持续水资源管理措施。项目2采用了部分措施,而项目3没有纳入此类规定。因此项目1最有可能获得批准,而项目3应该是最难的,因此得分为3。
我们测试了两个具有类似代理结构的框架:
顺序框架:
研究代理:收集约束或特定领域的信息,简明扼要,不超过 200 个字
工具:serper websearch:水和环境管理
规划代理:考虑提案以及研究代理提供的信息以做出最终决定(批准/拒绝)
嵌套框架:
研究代理人:同上
批评:质疑研究代理人,审查、改进和总结
策划代理:同上
对于 Planning 代理的响应,由于 llm 倾向于解释其答案,因此它几乎不会输出单词决策,如批准或拒绝。为了标准化比较,响应通过分类器 (scikit-learn) 进行传递,以分配数字分数(1-4)。

发现 1:较大的模型并不总是优于较小的模型。相对较小的 Llama 3.23B 模型在顺序测试中取得了最高分(2.2),而大多数模型的平均分集中在 2 分左右(0-4 分制)。除 Phi-3-mini 无法在嵌套配置中运行外,所有模型的分数都从顺序框架提高到嵌套框架。

发现 2:嵌套框架与基本事实的相关性更高,尤其是在将较低分数(绿色)与较容易批准的提案对齐,将较高分数(红色)与问题较多的提案对齐方面。然而,这种对齐并不完全,一些模型与预期结果存在很大偏差。
发现 3:模型往往比基本事实更为保守,大多数模型的平均得分更高。嵌套框架通过批准更多项目并避免过度谨慎,表现出更好的一致性。

发现 4:模型难以处理特定地点的限制。例如,Llama 3.23B 为 East Wittering 分配了过低的分数,而该地点预计开发限制较少。Llama和 Mistral 等较小的模型在不同项目中表现出与地面事实的一致性更高,为低质量项目分配较低的分数,为高质量项目分配较高的分数。
有关更多讨论和进一步步骤,请参阅链接。
关联
三月后发布。