标签
本文介绍Ishigaki-IDS-Bench,这是一个用于评估LLMs从BIM信息需求生成信息交付规范(IDS)XML能力的基准测试。对10个LLM的评估显示,最佳模型在内容一致性上达到65.6%的宏F1分数,但仅有27.7%的输出通过内容审核,表明模型在满足标准和词汇约束方面仍存在困难。