标签
作者构建了一个健康食品MCP服务器,并发现智能体使用多个狭窄、受限的工具比使用一个灵活的工具表现更好,强调需要一个枯燥的工具表面来减少大语言模型的幻觉。
Kevin Niparko 在台上演讲,讨论如何让 AI 代理连续运行数天甚至数周,而无需保持笔记本电脑打开。
构建了一个新的追踪器用于调试AI代理,它能自动检测循环、将会话记录为可读时间线,并支持并排对比。寻求反馈。
有人分析了 YC 2026 春季批次的 196 家创业公司,发现 95% 使用 AI,85% 是 AI-native,且真正的关键词是 agents 而非 AI。
介绍了IRTS-ToolBench,这是一个包含1,700个问题的基准测试,用于通过工具化推理评估大语言模型(LLM)和AI代理在不规则时间序列问答上的表现,涵盖13个领域的10种任务类型。
一篇解释如何构建AI驱动的“循环”以自动化创收业务流程的文章,引用自Boris Cherny(Claude Code)和Peter Steinberger(OpenClaw)的见解。
这篇文章评估了用于后台代理的沙箱平台,重点关注运行实际工作负载、入口流量和成本等要求。它概述了Deputies沙箱提供者接口和关键考量。
文章指出,AI教育仍集中于基础的聊天机器人和提示词技能,而现实中的AI开发已转向构建智能体、系统集成和稳健的软件工程,给学习者造成了巨大差距。
本文在WorkBench基准发布两年后再次对其进行评估,显示当前最佳智能体(Claude Opus 4.8)能完成89%的任务,且仅有2.5%的有害副作用,而2024年GPT-4的完成率为43%,有害率为26%。研究发现,能力与安全性同步提升,开放权重模型大幅降低了成本,但一些基本错误仍然存在。
CacheRL训练用于多步工具调用任务的小型智能体基础模型,通过缓存回滚和混合奖励塑造,以100倍更少的计算量实现了92%的过程准确率(接近GPT-5的94%),并在知识迁移、缓存感知奖励以及迭代SFT/GRPO训练方面进行了创新。
DAIR Academy Plugins是一个用于Claude Code的开源插件市场,包含一个llm-council技能,该技能通过Fireworks AI协调多个开放权重的大语言模型(LLM)。
分享了一个由 ModelScope 维护的开放共建仓库 Awesome Vibe Research,该仓库收集并沉淀了科研全流程中可复用、可验证、可演化的 AI 辅助组件,包括智能体、技能包、工作流、工具和最佳实践,旨在帮助科研人员和开发者利用 AI 提升研究效率。
一位开发者分享了在多步骤智能体生产调试中遇到的挑战——由于复杂的工具使用和自信的错误回答,失败难以追踪,并向社区寻求更好的监控和回归检测方法。
Clelia在柏林由Qdrant组织的Vector Space聚会上,与deepset、cognee和n8n一起,愉快地分享了智能体系统中的检索话题。
Browser Use 0.13.0 beta 已用 Rust 重新构建,用于长时间运行的 Web 代理任务,具有自定义 LLM 框架和一个新的终端界面。
Andrew Ng 讨论了桌面 AI 代理和编码 CLI 工具的兴起,介绍了开源项目 OpenCoworker,并探讨了由 LLM 驱动自主任务执行的 Agent 框架设计。
Midas 在 BEAM 100K 上达到 0.56 recall@k,在 BEAM 500K 上达到 0.51 recall@k,零 LLM 调用、零成本,展示了高效的智能体长期记忆能力。
TerraBench 是一个新基准,用于评估人工智能智能体在异构地球系统数据(包括网格数据、卫星图像和模拟器输出)上进行推理的能力。它揭示了当前前沿模型的显著局限性,表现最佳的模型平均工具使用得分仅为 59.2%。