evaluation

#evaluation

OpenMythos 基准测试

Reddit r/LocalLLaMA ↗ · 5小时前

OpenMythos 推出了一个新的开源基准测试，用于评估 AI 模型在神话知识方面的表现。

0 人收藏 0 人点赞

#evaluation

在生产环境中如何评估AI功能？

Reddit r/AI_Agents ↗ · 6小时前

讨论AI功能部署到生产环境后的评估方法及挑战。

0 人收藏 0 人点赞

#evaluation

我对8个LLM在医疗记录方面进行了基准测试。幻觉罕见；遗漏需关注。

Reddit r/LocalLLaMA ↗ · 7小时前

对8个LLM在医疗记录中的基准测试发现，幻觉很少，但遗漏需要引起注意。

0 人收藏 0 人点赞

#evaluation

@LangChain: 当欧盟AI法案生效时，合规性将成为一项持续的衡量义务。借助LangSmith，您可以……

X AI KOLs Following ↗ · 9小时前缓存

LangChain的LangSmith使开发者能够将追踪用作欧盟AI法案的合规证据，并提供可定制的评估器，用于偏见、幻觉、毒性、准确性和对抗性输入等方面的评估。

0 人收藏 0 人点赞

#evaluation

@no_stp_on_snek：微调小型开放模型时真正让我惊讶的事情。注意，我在这方面还算新手，所以有些内容可能看起来很显而易见……

X AI KOLs Timeline ↗ · 9小时前缓存

一位开发者分享了微调小型开放模型时令人惊讶的经验教训，包括基础模型往往已经在预期改进点上达到极限，真正的弱点在于行为（屈服），而微调需要仔细的衡量和平衡。

0 人收藏 0 人点赞

#evaluation

@aigclink: Loop模板大全库：loop-library，目前覆盖工程、运维、评估、设计、内容等50个具体场景每个Loop设置了反馈、判断、迭代的完整闭环，并配备了查找、审计、适配、设计四种能力的Skill 告诉AI要干什么，它帮你从目录里匹配最合…

X AI KOLs Timeline ↗ · 昨天缓存

发布了 Loop 模板大全库（loop-library），覆盖工程、运维、评估、设计等50个具体场景，每个 Loop 具备反馈、判断、迭代闭环及四种 Skill 能力，支持模板匹配与自适应修改。

0 人收藏 0 人点赞

#evaluation

@FinanceYF5: Calvin Zhang 正式加入OpenAI，担任 Research Program Manager，负责评测工作。在 Scale AI 那段高强度、充满野心的时光，让他学会了在压力下建设、重视质量，并认真对待评测。顶级 evals…

X AI KOLs Following ↗ · 昨天缓存

Calvin Zhang 加入 OpenAI 担任 Research Program Manager，负责评测工作，此前他在 Scale AI 有丰富经验。这一人事变动反映了 AI 军备竞赛中评测人才的流动。

0 人收藏 0 人点赞

#evaluation

能力强但粗心：计算机使用代理是否遵循情境完整性？

Hugging Face Daily Papers ↗ · 昨天缓存

本文介绍了AgentCIBench，一个用于评估计算机使用代理隐私风险的基准测试，发现15个前沿代理中有11个在超过50%的场景中泄露信息。

0 人收藏 0 人点赞

#evaluation

HAKARI-Bench：在统一条件下比较检索架构和效率设置的轻量级基准测试

Hugging Face Daily Papers ↗ · 昨天缓存

HAKARI-Bench是一个轻量级基准测试，用于在多种配置和语言下比较检索方法，支持高效的模型选择和性能分析。它能在保持高相关性的同时，比运行完整基准测试（如MTEB）更快地复现其结果。

0 人收藏 0 人点赞

#evaluation

EnterpriseClawBench：基于真实工作会话的智能体基准测试

Hugging Face Daily Papers ↗ · 昨天缓存

EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准，包含 852 个可复现任务以及超越单一性能分数的综合评估指标。

0 人收藏 0 人点赞

#evaluation

本地文本到图像模型对比：终极测试。

Reddit r/LocalLLaMA ↗ · 2天前

用户使用192个提示词对本地文本到图像模型进行了全面对比，评估了文本渲染、人脸、人体解剖、空间构图等能力，结果和提示词已在imagebench.ai上公开。

0 人收藏 0 人点赞

#evaluation

@Saboo_Shubham_: 生成已被AI智能体解决。循环工程可以无限产出。剩下的只有验证和判断…

X AI KOLs Timeline ↗ · 2天前缓存

认为在AI时代，产品经理的关键技能是循环工程，而非提示工程。描述了如何为AI智能体创建可复用、自我改进的循环，以保持质量并避免漂移。

0 人收藏 0 人点赞

#evaluation

AgentX - AI Agent 评估框架

Product Hunt ↗ · 2天前

AgentX 是一个 AI Agent 评估框架，帮助定位问题并一键修复。

0 人收藏 0 人点赞

#evaluation

PlanBench-XL：评估大规模工具生态系统中LLM工具使用代理的长期规划能力

Hugging Face Daily Papers ↗ · 2天前缓存

PlanBench-XL是一个新的基准测试，用于评估LLM代理在能见度有限且存在动态干扰的大规模工具生态系统中进行规划和适应的能力。实验显示，GPT-5.4在无阻断设置下仅达到51.9%的准确率，而在严重阻断条件下骤降至11.36%，凸显了长期规划中的重大挑战。

0 人收藏 0 人点赞

#evaluation

@aisearchio: GLM 5.2 持续让我印象深刻。这是它在 Vending Bench 上的结果，该基准衡量 AI 在长时间运营业务方面的表…

X AI KOLs Following ↗ · 3天前缓存

GLM 5.2 在 Vending Bench 业务模拟基准测试中排名第二，同时成本不到 Opus 的一半，以更低的成本展现了强劲性能。

0 人收藏 0 人点赞

#evaluation

我不再根据这些AI代理在演示中的表现来评判它们，而是开始统计它们帮我关闭了多少未闭合的循环。

Reddit r/AI_Agents ↗ · 3天前

作者认为，衡量AI代理实用性的真正标准是它自主关闭了多少未闭合的循环，而不是演示性能或集成数量，并引用Runner作为一个桌面工具，通过跨应用上下文有效关闭这些循环。

0 人收藏 0 人点赞

#evaluation

大型语言模型黑盒不确定性估计方法的系统性评估

arXiv cs.AI ↗ · 3天前缓存

本文对4种模型和4种数据集设置下的24种黑盒不确定性估计方法进行了系统性回顾和基准测试，发现没有任何单一方法占主导地位，但结合多种不确定性信号的混合方法表现出色。

0 人收藏 0 人点赞

#evaluation

ORAgentBench：LLM代理能否端到端解决具有挑战性的运筹学任务？

arXiv cs.AI ↗ · 3天前缓存

本文介绍ORAgentBench，一个用于评估LLM代理在端到端运筹学任务中表现的执行基准，包含107个经过人工审查的任务。实验表明，当前最佳代理仅通过35.51%的任务，揭示了在可靠决策制定方面的重大不足。

0 人收藏 0 人点赞

#evaluation

代理审核系统基准测试

arXiv cs.AI ↗ · 3天前缓存

本文对用于同行评审的代理审核系统进行基准测试，评估了开源和专有系统在研究论文上的表现。最佳配置实现了83.0%的成对准确率，并捕获了71.6%的注入错误，但用户反馈强调了误报和吹毛求疵的问题。

0 人收藏 0 人点赞

#evaluation

@rohanpaul_ai: 新的微软与约克大学论文认为，在没有明确测试和更窄的声明之前，不应将LLM视为类人…

X AI KOLs Following ↗ · 3天前缓存

微软与约克大学的一篇论文指出，由于实验设计存在缺陷，将类人属性归因于LLM是有问题的，并以《帝国时代II》为例说明测量问题。

0 人收藏 0 人点赞

evaluation

提交意见反馈