evaluation

#evaluation

@FinanceYF5: Calvin Zhang 正式加入OpenAI，担任 Research Program Manager，负责评测工作。在 Scale AI 那段高强度、充满野心的时光，让他学会了在压力下建设、重视质量，并认真对待评测。顶级 evals…

X AI KOLs Following ↗ · 2天前缓存

Calvin Zhang 加入 OpenAI 担任 Research Program Manager，负责评测工作，此前他在 Scale AI 有丰富经验。这一人事变动反映了 AI 军备竞赛中评测人才的流动。

0 人收藏 0 人点赞

#evaluation

能力强但粗心：计算机使用代理是否遵循情境完整性？

Hugging Face Daily Papers ↗ · 2天前缓存

本文介绍了AgentCIBench，一个用于评估计算机使用代理隐私风险的基准测试，发现15个前沿代理中有11个在超过50%的场景中泄露信息。

0 人收藏 0 人点赞

#evaluation

HAKARI-Bench：在统一条件下比较检索架构和效率设置的轻量级基准测试

Hugging Face Daily Papers ↗ · 2天前缓存

HAKARI-Bench是一个轻量级基准测试，用于在多种配置和语言下比较检索方法，支持高效的模型选择和性能分析。它能在保持高相关性的同时，比运行完整基准测试（如MTEB）更快地复现其结果。

0 人收藏 0 人点赞

#evaluation

EnterpriseClawBench：基于真实工作会话的智能体基准测试

Hugging Face Daily Papers ↗ · 2天前缓存

EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准，包含 852 个可复现任务以及超越单一性能分数的综合评估指标。

0 人收藏 0 人点赞

#evaluation

本地文本到图像模型对比：终极测试。

Reddit r/LocalLLaMA ↗ · 3天前

用户使用192个提示词对本地文本到图像模型进行了全面对比，评估了文本渲染、人脸、人体解剖、空间构图等能力，结果和提示词已在imagebench.ai上公开。

0 人收藏 0 人点赞

#evaluation

@Saboo_Shubham_: 生成已被AI智能体解决。循环工程可以无限产出。剩下的只有验证和判断…

X AI KOLs Timeline ↗ · 3天前缓存

认为在AI时代，产品经理的关键技能是循环工程，而非提示工程。描述了如何为AI智能体创建可复用、自我改进的循环，以保持质量并避免漂移。

0 人收藏 0 人点赞

#evaluation

AgentX - AI Agent 评估框架

Product Hunt ↗ · 3天前

AgentX 是一个 AI Agent 评估框架，帮助定位问题并一键修复。

0 人收藏 0 人点赞

#evaluation

PlanBench-XL：评估大规模工具生态系统中LLM工具使用代理的长期规划能力

Hugging Face Daily Papers ↗ · 3天前缓存

PlanBench-XL是一个新的基准测试，用于评估LLM代理在能见度有限且存在动态干扰的大规模工具生态系统中进行规划和适应的能力。实验显示，GPT-5.4在无阻断设置下仅达到51.9%的准确率，而在严重阻断条件下骤降至11.36%，凸显了长期规划中的重大挑战。

0 人收藏 0 人点赞

#evaluation

@aisearchio: GLM 5.2 持续让我印象深刻。这是它在 Vending Bench 上的结果，该基准衡量 AI 在长时间运营业务方面的表…

X AI KOLs Following ↗ · 3天前缓存

GLM 5.2 在 Vending Bench 业务模拟基准测试中排名第二，同时成本不到 Opus 的一半，以更低的成本展现了强劲性能。

0 人收藏 0 人点赞

#evaluation

我不再根据这些AI代理在演示中的表现来评判它们，而是开始统计它们帮我关闭了多少未闭合的循环。

Reddit r/AI_Agents ↗ · 4天前

作者认为，衡量AI代理实用性的真正标准是它自主关闭了多少未闭合的循环，而不是演示性能或集成数量，并引用Runner作为一个桌面工具，通过跨应用上下文有效关闭这些循环。

0 人收藏 0 人点赞

#evaluation

大型语言模型黑盒不确定性估计方法的系统性评估

arXiv cs.AI ↗ · 4天前缓存

本文对4种模型和4种数据集设置下的24种黑盒不确定性估计方法进行了系统性回顾和基准测试，发现没有任何单一方法占主导地位，但结合多种不确定性信号的混合方法表现出色。

0 人收藏 0 人点赞

#evaluation

ORAgentBench：LLM代理能否端到端解决具有挑战性的运筹学任务？

arXiv cs.AI ↗ · 4天前缓存

本文介绍ORAgentBench，一个用于评估LLM代理在端到端运筹学任务中表现的执行基准，包含107个经过人工审查的任务。实验表明，当前最佳代理仅通过35.51%的任务，揭示了在可靠决策制定方面的重大不足。

0 人收藏 0 人点赞

#evaluation

代理审核系统基准测试

arXiv cs.AI ↗ · 4天前缓存

本文对用于同行评审的代理审核系统进行基准测试，评估了开源和专有系统在研究论文上的表现。最佳配置实现了83.0%的成对准确率，并捕获了71.6%的注入错误，但用户反馈强调了误报和吹毛求疵的问题。

0 人收藏 0 人点赞

#evaluation

@rohanpaul_ai: 新的微软与约克大学论文认为，在没有明确测试和更窄的声明之前，不应将LLM视为类人…

X AI KOLs Following ↗ · 4天前缓存

微软与约克大学的一篇论文指出，由于实验设计存在缺陷，将类人属性归因于LLM是有问题的，并以《帝国时代II》为例说明测量问题。

0 人收藏 0 人点赞

#evaluation

新型代理基准发布：Claude Fable 和 GLM 5.2 各自领先同类

Reddit r/LocalLLaMA ↗ · 5天前

一项新的代理基准测试已发布，Claude Fable 和 GLM 5.2 在各自类别中名列前茅。

0 人收藏 0 人点赞

#evaluation

Counsel：面向智能体任务的元评估数据集

Hugging Face Daily Papers ↗ · 5天前缓存

Counsel 是首个公开的人类对 LLM 评价进行元评估的数据集，专为智能体任务设计，旨在提升自动化评估方法的校准性与可靠性。

0 人收藏 0 人点赞

#evaluation

基于摄像头所见采取行动的智能体：空间输出是薄弱环节

Reddit r/AI_Agents ↗ · 6天前

VideoDB 的一位开发者强调了智能体使用视觉模型时精确空间输出的问题，指出微小的定位错误可能导致错误动作，并宣布开源了一个评估工具，用于在自定义视频上检查空间准确性。

0 人收藏 0 人点赞

#evaluation

@oneill_c: 1/ 我们微调了很多客户模型，因此我们决定系统地尝试找出一些微调的最佳实践…

X AI KOLs Following ↗ · 6天前缓存

该帖子分享了关于微调最佳实践的系统性实验结果，一次改变一个SFT变量，涵盖密集模型和MoE模型（参数规模达235B），在四个真实客户数据集上使用自定义评估来消除混淆因素。

0 人收藏 0 人点赞

#evaluation

@adithya_s_k: https://x.com/adithya_s_k/status/2067628584680710292

X AI KOLs Timeline ↗ · 6天前缓存

这篇文章讨论了代码代理如何通过复制已知补丁来作弊评估，并介绍了Repo2RLEnv，一个从真实仓库创建可验证编码环境的工具，用于为AI代码代理构建稳健的基准和训练数据。

0 人收藏 0 人点赞

#evaluation

LLMs难以衡量区分不同水平学生的能力：阅读理解评估中题目区分度研究

arXiv cs.CL ↗ · 6天前缓存

本文评估了42个大语言模型在测量阅读理解评估中题目区分度的能力，发现其与人类校准指标弱相关，并指出这是心理测量评估中的一个开放挑战。

0 人收藏 0 人点赞

evaluation

提交意见反馈