标签
PolitNuggets是一个多语言基准,用于评估大型推理模型在代理框架中发现和综合长尾政治事实的能力,通过为400位全球精英构建传记。该基准引入了如FactNet等评估协议,并揭示了当前系统在细粒度细节和效率方面存在困难。