标签
LangChain的LangSmith使开发者能够将追踪用作欧盟AI法案的合规证据,并提供可定制的评估器,用于偏见、幻觉、毒性、准确性和对抗性输入等方面的评估。
一位开发者分享了微调小型开放模型时令人惊讶的经验教训,包括基础模型往往已经在预期改进点上达到极限,真正的弱点在于行为(屈服),而微调需要仔细的衡量和平衡。
发布了 Loop 模板大全库(loop-library),覆盖工程、运维、评估、设计等50个具体场景,每个 Loop 具备反馈、判断、迭代闭环及四种 Skill 能力,支持模板匹配与自适应修改。
Calvin Zhang 加入 OpenAI 担任 Research Program Manager,负责评测工作,此前他在 Scale AI 有丰富经验。这一人事变动反映了 AI 军备竞赛中评测人才的流动。
本文介绍了AgentCIBench,一个用于评估计算机使用代理隐私风险的基准测试,发现15个前沿代理中有11个在超过50%的场景中泄露信息。
HAKARI-Bench是一个轻量级基准测试,用于在多种配置和语言下比较检索方法,支持高效的模型选择和性能分析。它能在保持高相关性的同时,比运行完整基准测试(如MTEB)更快地复现其结果。
EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准,包含 852 个可复现任务以及超越单一性能分数的综合评估指标。
用户使用192个提示词对本地文本到图像模型进行了全面对比,评估了文本渲染、人脸、人体解剖、空间构图等能力,结果和提示词已在imagebench.ai上公开。
认为在AI时代,产品经理的关键技能是循环工程,而非提示工程。描述了如何为AI智能体创建可复用、自我改进的循环,以保持质量并避免漂移。
PlanBench-XL是一个新的基准测试,用于评估LLM代理在能见度有限且存在动态干扰的大规模工具生态系统中进行规划和适应的能力。实验显示,GPT-5.4在无阻断设置下仅达到51.9%的准确率,而在严重阻断条件下骤降至11.36%,凸显了长期规划中的重大挑战。
GLM 5.2 在 Vending Bench 业务模拟基准测试中排名第二,同时成本不到 Opus 的一半,以更低的成本展现了强劲性能。
作者认为,衡量AI代理实用性的真正标准是它自主关闭了多少未闭合的循环,而不是演示性能或集成数量,并引用Runner作为一个桌面工具,通过跨应用上下文有效关闭这些循环。
本文对4种模型和4种数据集设置下的24种黑盒不确定性估计方法进行了系统性回顾和基准测试,发现没有任何单一方法占主导地位,但结合多种不确定性信号的混合方法表现出色。
本文介绍ORAgentBench,一个用于评估LLM代理在端到端运筹学任务中表现的执行基准,包含107个经过人工审查的任务。实验表明,当前最佳代理仅通过35.51%的任务,揭示了在可靠决策制定方面的重大不足。
本文对用于同行评审的代理审核系统进行基准测试,评估了开源和专有系统在研究论文上的表现。最佳配置实现了83.0%的成对准确率,并捕获了71.6%的注入错误,但用户反馈强调了误报和吹毛求疵的问题。
微软与约克大学的一篇论文指出,由于实验设计存在缺陷,将类人属性归因于LLM是有问题的,并以《帝国时代II》为例说明测量问题。