evaluations

标签

Cards List
#evaluations

智能体AI控制评估中的攻击选择显著降低安全性

arXiv cs.AI · 2026-06-08 缓存

本文表明,在智能体AI控制评估中,允许攻击者策略性地选择攻击时机(攻击选择)会显著降低测量到的安全性,这意味着当前评估可能高估了对选择性攻击者的安全性。

0 人收藏 0 人点赞
#evaluations

@cwolferesearch: 评估不应该是静态的。我们需要随着时间的推移不断演变评估集/基准,使其保持相关性……

X AI KOLs Following · 2026-05-29

讨论了通过难度、质量和多样性细化来演进AI评估基准的必要性,并引用MMLU-Pro、MMLU-Redux、BIG-Bench Extra Hard、RealMath、MathArena和DatBench等示例。

0 人收藏 0 人点赞
#evaluations

目前有没有真正优秀的开源替代LangSmith的方案?

Reddit r/AI_Agents · 2026-05-15

一位开发者寻求推荐用于追踪、评估和调试代理工作流的开源替代LangSmith方案,并指出其付费墙限制。

0 人收藏 0 人点赞
#evaluations

@ArizePhoenix:免费的两个小时评估工作坊!在AI Engineer: Europe会议上,开发者关系主管Laurie Voss主持了这场工作坊…

X AI KOLs Following · 2026-05-14 缓存

Arize Phoenix宣布在AI Engineer: Europe会议上举办免费的两小时评估工作坊,由开发者关系主管Laurie Voss主讲,内容包括手动数据检查以及内置与自定义评估。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈