标签
本文表明,在智能体AI控制评估中,允许攻击者策略性地选择攻击时机(攻击选择)会显著降低测量到的安全性,这意味着当前评估可能高估了对选择性攻击者的安全性。
讨论了通过难度、质量和多样性细化来演进AI评估基准的必要性,并引用MMLU-Pro、MMLU-Redux、BIG-Bench Extra Hard、RealMath、MathArena和DatBench等示例。
一位开发者寻求推荐用于追踪、评估和调试代理工作流的开源替代LangSmith方案,并指出其付费墙限制。
Arize Phoenix宣布在AI Engineer: Europe会议上举办免费的两小时评估工作坊,由开发者关系主管Laurie Voss主讲,内容包括手动数据检查以及内置与自定义评估。