agents

标签

Cards List
#agents

我构建了一个小型健康食品MCP服务器,主要教训是智能体需要枯燥的工具表面

Reddit r/AI_Agents · 2026-06-16

作者构建了一个健康食品MCP服务器,并发现智能体使用多个狭窄、受限的工具比使用一个灵活的工具表现更好,强调需要一个枯燥的工具表面来减少大语言模型的幻觉。

0 人收藏 0 人点赞
#agents

@RayFernando1337: Kevin Niparko 在台上谈论超越笔记本电脑的编码。讨论代理如何连续运行数天甚至数周……

X AI KOLs Following · 2026-06-16 缓存

Kevin Niparko 在台上演讲,讨论如何让 AI 代理连续运行数天甚至数周,而无需保持笔记本电脑打开。

0 人收藏 0 人点赞
#agents

厌倦了用W&B和Langfuse调试AI代理,所以我自建了一个追踪器,寻求反馈

Reddit r/AI_Agents · 2026-06-16

构建了一个新的追踪器用于调试AI代理,它能自动检测循环、将会话记录为可读时间线,并支持并排对比。寻求反馈。

0 人收藏 0 人点赞
#agents

Framer 3.0

Product Hunt · 2026-06-16

Framer 3.0 推出新功能,包括代理、分支、社区集成和重新设计的界面。

0 人收藏 0 人点赞
#agents

@FinanceYF5: 有人把 YC 2026 春季批次的 196 家公司、395 位创始人全部过了一遍。 这一批 95% 都用到 AI,85% 是 AI-native:AI 不是产品上加的功能,AI 本身就是产品。196 家里只有 10 家完全不碰 AI。 但…

X AI KOLs Following · 2026-06-16 缓存

有人分析了 YC 2026 春季批次的 196 家创业公司,发现 95% 使用 AI,85% 是 AI-native,且真正的关键词是 agents 而非 AI。

0 人收藏 0 人点赞
#agents

迈向可验证的自主数据科学:通过工具化推理解决不规则时间序列问答

arXiv cs.AI · 2026-06-16 缓存

介绍了IRTS-ToolBench,这是一个包含1,700个问题的基准测试,用于通过工具化推理评估大语言模型(LLM)和AI代理在不规则时间序列问答上的表现,涵盖13个领域的10种任务类型。

0 人收藏 0 人点赞
#agents

Kepler

Product Hunt · 2026-06-15

Kepler 是一个面向代理的开发环境,旨在大规模运行 AI 代理,专为需要管理多个代理工作流的开发者设计。

0 人收藏 0 人点赞
#agents

@ericosiu: https://x.com/ericosiu/status/2066625875622129767

X AI KOLs Timeline · 2026-06-15 缓存

一篇解释如何构建AI驱动的“循环”以自动化创收业务流程的文章,引用自Boris Cherny(Claude Code)和Peter Steinberger(OpenClaw)的见解。

0 人收藏 0 人点赞
#agents

@sidpalas: https://x.com/sidpalas/status/2066521471430574162

X AI KOLs Timeline · 2026-06-15 缓存

这篇文章评估了用于后台代理的沙箱平台,重点关注运行实际工作负载、入口流量和成本等要求。它概述了Deputies沙箱提供者接口和关键考量。

0 人收藏 0 人点赞
#agents

AI教育仍停留在聊天机器人时代

Reddit r/artificial · 2026-06-15

文章指出,AI教育仍集中于基础的聊天机器人和提示词技能,而现实中的AI开发已转向构建智能体、系统集成和稳健的软件工程,给学习者造成了巨大差距。

0 人收藏 0 人点赞
#agents

WorkBench再访:两年后的工作场所智能体

arXiv cs.CL · 2026-06-15 缓存

本文在WorkBench基准发布两年后再次对其进行评估,显示当前最佳智能体(Claude Opus 4.8)能完成89%的任务,且仅有2.5%的有害副作用,而2024年GPT-4的完成率为43%,有害率为26%。研究发现,能力与安全性同步提升,开放权重模型大幅降低了成本,但一些基本错误仍然存在。

0 人收藏 0 人点赞
#agents

CacheRL:基于缓存回滚和混合奖励的多轮工具调用智能体

arXiv cs.CL · 2026-06-15 缓存

CacheRL训练用于多步工具调用任务的小型智能体基础模型,通过缓存回滚和混合奖励塑造,以100倍更少的计算量实现了92%的过程准确率(接近GPT-5的94%),并在知识迁移、缓存感知奖励以及迭代SFT/GRPO训练方面进行了创新。

0 人收藏 0 人点赞
#agents

@omarsar0: 要使用LLM Council与您自己的代理,可以查看我的llm-council技能。它适用于Fireworks AI API,但您可以…

X AI KOLs Timeline · 2026-06-14 缓存

DAIR Academy Plugins是一个用于Claude Code的开源插件市场,包含一个llm-council技能,该技能通过Fireworks AI协调多个开放权重的大语言模型(LLM)。

0 人收藏 0 人点赞
#agents

@PierceZhang34: 分享一个专注于 AI 辅助科研的开放共建仓库 Awesome Vibe Research 项目核心目标它收集和沉淀科研全流程(从想法生成到论文发表、传播)中可复用、可验证、可演化的 AI 辅助组件,包括: Agents(智能体) Skil…

X AI KOLs Timeline · 2026-06-14 缓存

分享了一个由 ModelScope 维护的开放共建仓库 Awesome Vibe Research,该仓库收集并沉淀了科研全流程中可复用、可验证、可演化的 AI 辅助组件,包括智能体、技能包、工作流、工具和最佳实践,旨在帮助科研人员和开发者利用 AI 提升研究效率。

0 人收藏 0 人点赞
#agents

当你的智能体在生产环境中出错时,如何定位哪一步出了问题?

Reddit r/AI_Agents · 2026-06-14

一位开发者分享了在多步骤智能体生产调试中遇到的挑战——由于复杂的工具使用和自信的错误回答,失败难以追踪,并向社区寻求更好的监控和回归检测方法。

0 人收藏 0 人点赞
#agents

@itsclelia: 在柏林周四的Vector Space聚会上,我很开心地讨论了智能体中的检索问题!与…

X AI KOLs Following · 2026-06-12

Clelia在柏林由Qdrant组织的Vector Space聚会上,与deepset、cognee和n8n一起,愉快地分享了智能体系统中的检索话题。

0 人收藏 0 人点赞
#agents

@browser_use: 想象一下,成千上万的代理在网络上为你工作。这就是我们重建 Browser Use 的原因: > 专为长时间运行的任务而设计…

X AI KOLs Following · 2026-06-12 缓存

Browser Use 0.13.0 beta 已用 Rust 重新构建,用于长时间运行的 Web 代理任务,具有自定义 LLM 框架和一个新的终端界面。

0 人收藏 0 人点赞
#agents

Mythos 催生 Fable,Cursor 的 Composer 2.5,Agent 构建 Agent

The Batch · 2026-06-12 缓存

Andrew Ng 讨论了桌面 AI 代理和编码 CLI 工具的兴起,介绍了开源项目 OpenCoworker,并探讨了由 LLM 驱动自主任务执行的 Agent 框架设计。

0 人收藏 0 人点赞
#agents

BEAM 基准测试

Reddit r/AI_Agents · 2026-06-12

Midas 在 BEAM 100K 上达到 0.56 recall@k,在 BEAM 500K 上达到 0.51 recall@k,零 LLM 调用、零成本,展示了高效的智能体长期记忆能力。

0 人收藏 0 人点赞
#agents

TerraBench:智能体能否推理异构地球系统数据?

arXiv cs.AI · 2026-06-12 缓存

TerraBench 是一个新基准,用于评估人工智能智能体在异构地球系统数据(包括网格数据、卫星图像和模拟器输出)上进行推理的能力。它揭示了当前前沿模型的显著局限性,表现最佳的模型平均工具使用得分仅为 59.2%。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈