Ishigaki-IDS-Bench：从BIM信息需求生成信息交付规范的基准测试

arXiv cs.CL 2026/05/22 04:00 论文

benchmark bim ids structured-generation large-language-models xml domain-standards

摘要

本文介绍Ishigaki-IDS-Bench，这是一个用于评估LLMs从BIM信息需求生成信息交付规范（IDS）XML能力的基准测试。对10个LLM的评估显示，最佳模型在内容一致性上达到65.6%的宏F1分数，但仅有27.7%的输出通过内容审核，表明模型在满足标准和词汇约束方面仍存在困难。

arXiv:2605.22079v1 公告类型：新摘要：大型语言模型（LLMs）被广泛用于生成结构化输出，如JSON、SQL和代码，但用于评估同时满足行业标准XML和领域词汇约束的生成的公开资源仍然有限。本文介绍了Ishigaki-IDS-Bench，这是一个用于评估从建筑信息模型（BIM）信息需求生成信息交付规范（IDS）XML能力的基准测试。该基准包含166个由BIM/IDS领域专家编写和验证的示例，这些示例是通过将83个实际场景扩展为日语和英语、相应的黄金IDS文件以及输入格式、语言、轮次设置、IFC版本和建筑领域的元数据创建的。其评估结合了基于IDSAuditTool的可处理性、结构和内容审核，以及与黄金IDS文件的内容一致性评估。在对10个LLM的零样本评估中，最佳模型在内容一致性上达到65.6%的宏F1分数，但仅有27.7%的输出通过内容审核。这些结果表明，当前LLM能够将部分信息需求表达为IDS，但在稳定生成满足IDS标准和IFC词汇约束的XML方面仍存在困难。Ishigaki-IDS-Bench支持比较评估、故障分析以及符合领域标准的约束结构化生成方法的发展。我们根据CC BY 4.0许可协议在GitHub和Hugging Face上发布评估脚本和基准数据。

查看原文

查看缓存全文

缓存时间: 2026/05/22 08:45

# Ishigaki-IDS-Bench：从BIM信息需求生成信息交付规范（IDS）的基准
来源：https://arxiv.org/html/2605.22079
,Koyo HidakaONESTRUCTION Inc\.TottoriJapan,Teppei MiyamotoONESTRUCTION Inc\.TottoriJapan,Takayuki KatoONESTRUCTION Inc\.TottoriJapan,Tomoki AndoONESTRUCTION Inc\.TottoriJapan,Chenguang WangAWS GenAI Innovation CenterTokyoJapan,Dayuan JiangAWS GenAI Innovation CenterTokyoJapan,Naofumi FujitaONESTRUCTION Inc\.TottoriJapan,Shuhei SaitohONESTRUCTION Inc\.TottoriJapan,Atomu KondoONESTRUCTION Inc\.TottoriJapan,Koki ArakawaONESTRUCTION Inc\.TottoriJapanandDaiho NishiokaONESTRUCTION Inc\.TottoriJapan

###### 摘要。

大型语言模型（LLM）被广泛用于生成结构化输出，如JSON、SQL和代码，但对于需要同时满足行业标准XML和领域词汇约束的生成任务，公开评估资源仍然有限。本文提出了Ishigaki-IDS-Bench，这是一个用于评估从建筑信息模型（BIM）信息需求生成信息交付规范（IDS）XML能力的基准。该基准包含166个由BIM/IDS专家编写并验证的示例，通过将83个实际场景扩展为日文和英文版本得来，并配有对应的黄金标准IDS文件，以及输入格式、语言、轮次设置、IFC版本和施工领域等元数据。其评估结合了基于IDSAuditTool的可处理性、结构和内容审计，以及针对黄金标准IDS文件的内容一致性评估。在对10个LLM进行的零样本评估中，最佳模型的内容一致性宏F1达到了65.6%，但仅有27.7%的输出通过了内容审计。这些结果表明，当前的LLM能够将部分信息需求表达为IDS，但在稳定生成符合IDS标准和IFC词汇约束的XML方面仍存在困难。Ishigaki-IDS-Bench支持对比评估、故障分析以及符合领域标准的约束式结构化生成方法的开发。我们已在GitHub333https://github.com/onestruction/Ishigaki-IDS-Bench.git和Hugging Face444https://huggingface.co/datasets/ONESTRUCTION/Ishigaki-IDS-Bench上以CC BY 4.0许可证发布了评估脚本和基准数据。

基准数据集，结构化生成，BIM，IDS，IFC，资源论文

††版权：无††会议：ACM国际信息与知识管理会议；投稿草稿；††ccs：计算方法 自然语言生成††ccs：信息系统 数据管理系统

## 1. 引言

大型语言模型（LLM）被广泛用于生成结构化输出，如JSON、SQL和代码(Willard and Louf,2023 (https://arxiv.org/html/2605.22079#bib.bib6); Beurer-Kellneret al.,2024 (https://arxiv.org/html/2605.22079#bib.bib7))。然而，在实际领域中，结构化输出仅仅语法有效是不够的。它们必须同时符合行业标准数据格式、领域特定词汇、版本约束以及外部验证工具的审计结果。对于这种领域标准结构化生成的评估，相比通用JSON或SQL生成的评估来说还不够成熟。本文通过信息交付规范（IDS）来研究这个问题，IDS是一种用于描述建筑、工程和施工领域信息需求的机器可读格式。

建筑信息模型（BIM）是一种信息基础，将建筑物和基础设施视为数字信息模型，不仅包含几何形状，还包括构件类型、材料、性能信息和管理信息(Eastmanet al.,2008 (https://arxiv.org/html/2605.22079#bib.bib1))。Industry Foundation Classes (IFC) 是一个国际标准数据格式，用于在不同软件系统之间共享BIM模型(International Organization for Standardization,2018 (https://arxiv.org/html/2605.22079#bib.bib2))。在IFC中，墙体、柱子、门、管道等建筑构件使用标准化的词汇表示，并且可以将名称、尺寸、材料、防火等级等信息附加到这些构件上。IDS是一种基于XML的标准规范，用于描述在IFC模型中的哪些构件在什么条件下应具有哪些信息(buildingSMART International,2024b (https://arxiv.org/html/2605.22079#bib.bib3))。换句话说，IFC为表示BIM模型提供了共享词汇，而IDS则以可检查的形式描述了这些模型应满足的信息需求。

IDS生成涉及超越普通语法约束生成的多个层次约束。例如，当从需求“所有墙体必须具有防火等级，且值必须是EI30、EI60或EI90之一”生成IDS时，模型不仅需要输出有效的XML结构。它还必须将“墙体”映射到适当的IFC标准类，将“防火等级”表示为适当的IFC信息项，并在IDS检查单元内描述允许值的约束。因此，IDS生成是一项受约束的结构化生成任务，同时涉及语法和类型约束、标准符合性、到专业词汇的映射、值约束的表达以及与输入文档的语义对应。

在实践中，信息需求并不总是事先准备为IDS。它们通常被编写为自然语言规范、表格清单、雇主信息需求或会议记录。从这些文档创建IDS既需要BIM、IFC和IDS方面的专业知识，也需要理解输入文档意图的解释能力。LLM可以支持这一转换过程并减轻专家工作量。同时，公开基准仍然不足以可比地评估LLM从实际文档生成IDS的准确程度，以及识别哪些输入类型或约束会导致失败。特别是，需要一个集成评估框架来处理生成IDS的形式有效性、符合IDS标准、与IFC词汇一致以及输入文档的内容一致性。

本文提出了Ishigaki-IDS-Bench，这是一个用于评估从实际文档生成IDS能力的基准。Ishigaki-IDS-Bench包含166个示例，这些示例通过将83个实际场景扩展为日文和英文得来。每个示例均由BIM/IDS专家编写并验证，并配有相应的黄金标准IDS。每个示例还标注了元数据，如输入格式、语言、轮次设置、目标IFC版本和施工领域。这不仅可以通过单个总分进行分析，还可以通过自然语言与表格输入、日文与英文、单轮与多轮设置、IFC版本以及施工领域之间的性能差异进行分析。

我们进一步为IDS生成设计了一个两阶段评估协议。在第一阶段，使用IDSAuditTool评估生成结果是否可作为可审计的IDS提取，是否符合IDS模式，以及是否满足IDS标准和IFC词汇约束。在第二阶段，评估生成结果与黄金标准IDS之间的内容一致性，捕获那些形式上有效但与输入文档内容不一致的失败情况。这种两阶段评估能够更详细地分析生成实际可用IDS的能力，而不仅仅是生成XML的能力。

在对10个LLM进行的零样本评估中，最佳模型的内容一致性宏F1达到了65.6%，但仅有27.7%的输出通过了内容审计。这一结果表明，当前的LLM能够将部分信息需求表达为IDS，但在稳定生成满足IDS标准和IFC词汇约束的输出方面仍面临重大挑战。Ishigaki-IDS-Bench以CC BY 4.0许可证发布。

本工作的贡献如下：

- • 我们基于实际用例构建了一个IDS生成基准。Ishigaki-IDS-Bench包含166个由专家编写并验证的示例、83个场景、相应的黄金标准IDS文件以及多方面的元数据。
- • 我们提供了一个两阶段评估协议，结合了使用IDSAuditTool的形式有效性评估以及针对黄金标准IDS文件的方面级内容一致性评估。
- • 我们报告了10个LLM的零样本基线，并分析了IDS生成中的成功案例和失败趋势。

## 2. 相关工作

模式约束和语法约束生成已被开发为改善LLM生成结构化输出形式有效性的方法。代表性方法包括将有限状态机或上下文无关语法融入解码过程(Willard and Louf,2023 (https://arxiv.org/html/2605.22079#bib.bib6); Genget al.,2023 (https://arxiv.org/html/2605.22079#bib.bib5))，如在XGrammar中协同设计推理和语法引擎(Donget al.,2025 (https://arxiv.org/html/2605.22079#bib.bib8))，通过语法对齐解码纠正由语法约束引起的分布失真(Parket al.,2024 (https://arxiv.org/html/2605.22079#bib.bib9))，以及使用语法掩码进行DSL生成(Netzet al.,2024 (https://arxiv.org/html/2605.22079#bib.bib15))。这些研究主要针对具有通用模式或显式语法约束的输出，如JSON、SQL、代码和DSL。相比之下，像IDS这样的领域特定XML标准不仅需要语法有效性，还需要与IFC词汇、外部标准、版本约束、属性集约定以及验证工具判断的一致性。因此，IDS XML生成应作为领域标准结构化生成来评估，而不仅仅是语法约束生成。

专业领域的LLM评估已通过针对需要专家知识的领域基准取得了进展，例如法律领域的LawBench和LeDQA(Feiet al.,2023 (https://arxiv.org/html/2605.22079#bib.bib10); Liuet al.,2024 (https://arxiv.org/html/2605.22079#bib.bib16))、金融领域的EDINET-BENCH(Sugiuraet al.,2025 (https://arxiv.org/html/2605.22079#bib.bib17))以及电商领域的ECKGBench(Liuet al.,2025 (https://arxiv.org/html/2605.22079#bib.bib18))。现有的CIKM资源类研究提供基于专家设计模式或知识图谱的问答或事实性评估，而本文针对的是可通过外部验证器和黄金标准IDS进行验证的领域标准XML生成。在建筑、工程和施工领域，也已提出了用于建筑规范解读(Fuchset al.,2024 (https://arxiv.org/html/2605.22079#bib.bib19))、BIM合规性检查(Chenet al.,2024 (https://arxiv.org/html/2605.22079#bib.bib20); Madireddyet al.,2025 (https://arxiv.org/html/2605.22079#bib.bib21))以及施工安全数据集(Ouet al.,2025 (https://arxiv.org/html/2605.22079#bib.bib22))的评估资源。然而，其中许多资源侧重于问答、检索、规范解读或合规性分类。直接生成符合国际标准的XML并评估其形式有效性和内容一致性的基准仍然有限。

连接BIM/IFC与LLM的研究也在扩展。例如，BIM-GPT用于将LLM应用于BIM信息检索(Zheng and Fischer,2023 (https://arxiv.org/html/2605.22079#bib.bib11))，Qwen-BIM专门用于BIM设计任务(Linet al.,2026 (https://arxiv.org/html/2605.22079#bib.bib23))，IFC-Agent用于基于模式的IFC多智能体推理(Gaoet al.,2026 (https://arxiv.org/html/2605.22079#bib.bib24))，以及MCP4IFC用于通过代码生成编辑IFC(Nithyananthamet al.,2025 (https://arxiv.org/html/2605.22079#bib.bib25))。这些研究主要涉及BIM信息检索、IFC模型理解、设计支持和模型编辑。其侧重点与从BIM信息需求生成可检查的IDS不同。

先前关于IDS和BIM信息需求的工作主要集中在标准化、描述方法和验证流程上，包括对信息需求描述方法的调查(Tomczaket al.,2022 (https://arxiv.org/html/2605.22079#bib.bib12))、将IDS应用于循环经济数据(Tomczaket al.,2024 (https://arxiv.org/html/2605.22079#bib.bib13))以及使用IDS和bSDD的自动化验证流程(Kładź and Borkowski,2025 (https://arxiv.org/html/2605.22079#bib.bib27))。关于自动生成mvdXML的工作也相关(Leeet al.,2020 (https://arxiv.org/html/2605.22079#bib.bib28); Sonet al.,2022 (https://arxiv.org/html/2605.22079#bib.bib14))。然而，在我们的调查范围内，公开基准并未充分涵盖基于LLM的IDS XML生成，未能以集成方式包括输入文档、黄金标准IDS、审计结果和方面级内容一致性。Ishigaki-IDS-Bench通过提供输入、黄金标准IDS、基于IDS审计工具的审计指标以及针对正在标准化中的信息需求描述格式的方面级内容一致性评估，补充了通用模式约束生成与BIM/IFC领域评估之间的交叉区域。

## 3. Ishigaki-IDS-Bench

### 3.1. 任务与范围

在实践中，BIM信息和检查项通常被编写为表格清单、雇主信息需求、设计规范或自然语言指令。Ishigaki-IDS-Bench针对的任务是从此类信息需求生成符合IDS 1.0的完整IDS XML。每个输入包括以CSV或自然语言编写的需求、输出文件名以及目标IFC版本。模型仅使用输入中明确陈述的需求输出相应的IDS XML。

IDS通过将需求适用的对象与目标必须满足的条件分开来描述信息需求。一个检查单元表示为`specification`；`applicability`描述被检查的目标，`requirements`描述该目标所需的信息。例如，在需求“所有墙体必须具有防火等级，且值必须是EI30、EI60或EI90之一”中，`applicability`指定“墙体”为目标，而`requirements`指定信息项“防火等级”及其允许的值。IDS将此类目标及信息内容表示为`facet`（面）。本文涵盖的面包括`entity`（表示IFC构件类型）、`attribute`（表示IFC模式中的基本字段）以及`property`（表示实践中使用的附加信息）。在`property`面中，`propertySet`表示信息项所属的组，`baseName`表示项名称，`value`表示所需的值条件。`dataType`表示值类型，`cardinality`表示信息项的需出现要求。因此，该任务不仅仅是简单地将输入句子格式化为XML。它是一个将实际信息需求映射到IDS的`specification`、`applicability`、`requirements`、面和值条件的结构化生成任务。由于本研究聚焦于实际信息需求的核心部分——目标定义和信息项定义，评估的面仅限于`entity`、`attribute`和`property`；`classification`、`material`和`partOf`不包括在评估目标中。

### 3.2. 分类与统计

Ishigaki-IDS-Bench包含166个示例。一个示例是一个输入-输出对，由一个输入上下文和一个对应的黄金标准IDS组成。对于多轮示例，th

Ishigaki-IDS-Bench：从BIM信息需求生成信息交付规范的基准测试

相似文章

UsefulBench：以决策有用信息为目标的信息检索

IndustryBench：探测大语言模型在工业知识领域的边界

DiagnosticIQ：基于符号规则评估大语言模型在工业维护行动推荐中表现的基准测试

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

WebRISE: MLLM生成网页工件的需求诱导状态评估

提交意见反馈