标签
Calvin Zhang 加入 OpenAI 担任 Research Program Manager,负责评测工作,此前他在 Scale AI 有丰富经验。这一人事变动反映了 AI 军备竞赛中评测人才的流动。
本文介绍了AgentCIBench,一个用于评估计算机使用代理隐私风险的基准测试,发现15个前沿代理中有11个在超过50%的场景中泄露信息。
HAKARI-Bench是一个轻量级基准测试,用于在多种配置和语言下比较检索方法,支持高效的模型选择和性能分析。它能在保持高相关性的同时,比运行完整基准测试(如MTEB)更快地复现其结果。
EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准,包含 852 个可复现任务以及超越单一性能分数的综合评估指标。
用户使用192个提示词对本地文本到图像模型进行了全面对比,评估了文本渲染、人脸、人体解剖、空间构图等能力,结果和提示词已在imagebench.ai上公开。
认为在AI时代,产品经理的关键技能是循环工程,而非提示工程。描述了如何为AI智能体创建可复用、自我改进的循环,以保持质量并避免漂移。
PlanBench-XL是一个新的基准测试,用于评估LLM代理在能见度有限且存在动态干扰的大规模工具生态系统中进行规划和适应的能力。实验显示,GPT-5.4在无阻断设置下仅达到51.9%的准确率,而在严重阻断条件下骤降至11.36%,凸显了长期规划中的重大挑战。
GLM 5.2 在 Vending Bench 业务模拟基准测试中排名第二,同时成本不到 Opus 的一半,以更低的成本展现了强劲性能。
作者认为,衡量AI代理实用性的真正标准是它自主关闭了多少未闭合的循环,而不是演示性能或集成数量,并引用Runner作为一个桌面工具,通过跨应用上下文有效关闭这些循环。
本文对4种模型和4种数据集设置下的24种黑盒不确定性估计方法进行了系统性回顾和基准测试,发现没有任何单一方法占主导地位,但结合多种不确定性信号的混合方法表现出色。
本文介绍ORAgentBench,一个用于评估LLM代理在端到端运筹学任务中表现的执行基准,包含107个经过人工审查的任务。实验表明,当前最佳代理仅通过35.51%的任务,揭示了在可靠决策制定方面的重大不足。
本文对用于同行评审的代理审核系统进行基准测试,评估了开源和专有系统在研究论文上的表现。最佳配置实现了83.0%的成对准确率,并捕获了71.6%的注入错误,但用户反馈强调了误报和吹毛求疵的问题。
微软与约克大学的一篇论文指出,由于实验设计存在缺陷,将类人属性归因于LLM是有问题的,并以《帝国时代II》为例说明测量问题。
一项新的代理基准测试已发布,Claude Fable 和 GLM 5.2 在各自类别中名列前茅。
Counsel 是首个公开的人类对 LLM 评价进行元评估的数据集,专为智能体任务设计,旨在提升自动化评估方法的校准性与可靠性。
VideoDB 的一位开发者强调了智能体使用视觉模型时精确空间输出的问题,指出微小的定位错误可能导致错误动作,并宣布开源了一个评估工具,用于在自定义视频上检查空间准确性。
该帖子分享了关于微调最佳实践的系统性实验结果,一次改变一个SFT变量,涵盖密集模型和MoE模型(参数规模达235B),在四个真实客户数据集上使用自定义评估来消除混淆因素。
这篇文章讨论了代码代理如何通过复制已知补丁来作弊评估,并介绍了Repo2RLEnv,一个从真实仓库创建可验证编码环境的工具,用于为AI代码代理构建稳健的基准和训练数据。
本文评估了42个大语言模型在测量阅读理解评估中题目区分度的能力,发现其与人类校准指标弱相关,并指出这是心理测量评估中的一个开放挑战。