agents

#agents

我构建了一个小型健康食品MCP服务器，主要教训是智能体需要枯燥的工具表面

Reddit r/AI_Agents ↗ · 2026-06-16

作者构建了一个健康食品MCP服务器，并发现智能体使用多个狭窄、受限的工具比使用一个灵活的工具表现更好，强调需要一个枯燥的工具表面来减少大语言模型的幻觉。

0 人收藏 0 人点赞

#agents

@RayFernando1337: Kevin Niparko 在台上谈论超越笔记本电脑的编码。讨论代理如何连续运行数天甚至数周……

X AI KOLs Following ↗ · 2026-06-16 缓存

Kevin Niparko 在台上演讲，讨论如何让 AI 代理连续运行数天甚至数周，而无需保持笔记本电脑打开。

0 人收藏 0 人点赞

#agents

厌倦了用W&B和Langfuse调试AI代理，所以我自建了一个追踪器，寻求反馈

Reddit r/AI_Agents ↗ · 2026-06-16

构建了一个新的追踪器用于调试AI代理，它能自动检测循环、将会话记录为可读时间线，并支持并排对比。寻求反馈。

0 人收藏 0 人点赞

#agents

Framer 3.0

Product Hunt ↗ · 2026-06-16

Framer 3.0 推出新功能，包括代理、分支、社区集成和重新设计的界面。

0 人收藏 0 人点赞

#agents

@FinanceYF5: 有人把 YC 2026 春季批次的 196 家公司、395 位创始人全部过了一遍。这一批 95% 都用到 AI，85% 是 AI-native：AI 不是产品上加的功能，AI 本身就是产品。196 家里只有 10 家完全不碰 AI。但…

X AI KOLs Following ↗ · 2026-06-16 缓存

有人分析了 YC 2026 春季批次的 196 家创业公司，发现 95% 使用 AI，85% 是 AI-native，且真正的关键词是 agents 而非 AI。

0 人收藏 0 人点赞

#agents

迈向可验证的自主数据科学：通过工具化推理解决不规则时间序列问答

arXiv cs.AI ↗ · 2026-06-16 缓存

介绍了IRTS-ToolBench，这是一个包含1,700个问题的基准测试，用于通过工具化推理评估大语言模型（LLM）和AI代理在不规则时间序列问答上的表现，涵盖13个领域的10种任务类型。

0 人收藏 0 人点赞

#agents

Kepler

Product Hunt ↗ · 2026-06-15

Kepler 是一个面向代理的开发环境，旨在大规模运行 AI 代理，专为需要管理多个代理工作流的开发者设计。

0 人收藏 0 人点赞

#agents

@ericosiu: https://x.com/ericosiu/status/2066625875622129767

X AI KOLs Timeline ↗ · 2026-06-15 缓存

一篇解释如何构建AI驱动的“循环”以自动化创收业务流程的文章，引用自Boris Cherny（Claude Code）和Peter Steinberger（OpenClaw）的见解。

0 人收藏 0 人点赞

#agents

@sidpalas: https://x.com/sidpalas/status/2066521471430574162

X AI KOLs Timeline ↗ · 2026-06-15 缓存

这篇文章评估了用于后台代理的沙箱平台，重点关注运行实际工作负载、入口流量和成本等要求。它概述了Deputies沙箱提供者接口和关键考量。

0 人收藏 0 人点赞

#agents

AI教育仍停留在聊天机器人时代

Reddit r/artificial ↗ · 2026-06-15

文章指出，AI教育仍集中于基础的聊天机器人和提示词技能，而现实中的AI开发已转向构建智能体、系统集成和稳健的软件工程，给学习者造成了巨大差距。

0 人收藏 0 人点赞

#agents

WorkBench再访：两年后的工作场所智能体

arXiv cs.CL ↗ · 2026-06-15 缓存

本文在WorkBench基准发布两年后再次对其进行评估，显示当前最佳智能体（Claude Opus 4.8）能完成89%的任务，且仅有2.5%的有害副作用，而2024年GPT-4的完成率为43%，有害率为26%。研究发现，能力与安全性同步提升，开放权重模型大幅降低了成本，但一些基本错误仍然存在。

0 人收藏 0 人点赞

#agents

CacheRL：基于缓存回滚和混合奖励的多轮工具调用智能体

arXiv cs.CL ↗ · 2026-06-15 缓存

CacheRL训练用于多步工具调用任务的小型智能体基础模型，通过缓存回滚和混合奖励塑造，以100倍更少的计算量实现了92%的过程准确率（接近GPT-5的94%），并在知识迁移、缓存感知奖励以及迭代SFT/GRPO训练方面进行了创新。

0 人收藏 0 人点赞

#agents

@omarsar0: 要使用LLM Council与您自己的代理，可以查看我的llm-council技能。它适用于Fireworks AI API，但您可以…

X AI KOLs Timeline ↗ · 2026-06-14 缓存

DAIR Academy Plugins是一个用于Claude Code的开源插件市场，包含一个llm-council技能，该技能通过Fireworks AI协调多个开放权重的大语言模型（LLM）。

0 人收藏 0 人点赞

#agents

@PierceZhang34: 分享一个专注于 AI 辅助科研的开放共建仓库 Awesome Vibe Research 项目核心目标它收集和沉淀科研全流程（从想法生成到论文发表、传播）中可复用、可验证、可演化的 AI 辅助组件，包括： Agents（智能体） Skil…

X AI KOLs Timeline ↗ · 2026-06-14 缓存

分享了一个由 ModelScope 维护的开放共建仓库 Awesome Vibe Research，该仓库收集并沉淀了科研全流程中可复用、可验证、可演化的 AI 辅助组件，包括智能体、技能包、工作流、工具和最佳实践，旨在帮助科研人员和开发者利用 AI 提升研究效率。

0 人收藏 0 人点赞

#agents

当你的智能体在生产环境中出错时，如何定位哪一步出了问题？

Reddit r/AI_Agents ↗ · 2026-06-14

一位开发者分享了在多步骤智能体生产调试中遇到的挑战——由于复杂的工具使用和自信的错误回答，失败难以追踪，并向社区寻求更好的监控和回归检测方法。

0 人收藏 0 人点赞

#agents

@itsclelia: 在柏林周四的Vector Space聚会上，我很开心地讨论了智能体中的检索问题！与…

X AI KOLs Following ↗ · 2026-06-12

Clelia在柏林由Qdrant组织的Vector Space聚会上，与deepset、cognee和n8n一起，愉快地分享了智能体系统中的检索话题。

0 人收藏 0 人点赞

#agents

@browser_use: 想象一下，成千上万的代理在网络上为你工作。这就是我们重建 Browser Use 的原因： > 专为长时间运行的任务而设计…

X AI KOLs Following ↗ · 2026-06-12 缓存

Browser Use 0.13.0 beta 已用 Rust 重新构建，用于长时间运行的 Web 代理任务，具有自定义 LLM 框架和一个新的终端界面。

0 人收藏 0 人点赞

#agents

Mythos 催生 Fable，Cursor 的 Composer 2.5，Agent 构建 Agent

The Batch ↗ · 2026-06-12 缓存

Andrew Ng 讨论了桌面 AI 代理和编码 CLI 工具的兴起，介绍了开源项目 OpenCoworker，并探讨了由 LLM 驱动自主任务执行的 Agent 框架设计。

0 人收藏 0 人点赞

#agents

BEAM 基准测试

Reddit r/AI_Agents ↗ · 2026-06-12

Midas 在 BEAM 100K 上达到 0.56 recall@k，在 BEAM 500K 上达到 0.51 recall@k，零 LLM 调用、零成本，展示了高效的智能体长期记忆能力。

0 人收藏 0 人点赞

#agents

TerraBench：智能体能否推理异构地球系统数据？

arXiv cs.AI ↗ · 2026-06-12 缓存

TerraBench 是一个新基准，用于评估人工智能智能体在异构地球系统数据（包括网格数据、卫星图像和模拟器输出）上进行推理的能力。它揭示了当前前沿模型的显著局限性，表现最佳的模型平均工具使用得分仅为 59.2%。

0 人收藏 0 人点赞

agents

提交意见反馈