标签
本文介绍了 MANTRA,这是一个从自然语言手册中自动综合生成经 SMT 验证的合规基准的框架,用于评估工具使用型 LLM 代理。研究表明,该方法能够实现对复杂程序规则遵循情况的可扩展且可靠的评估。