标签
Agentic Context Engine(ACE)是一个开源的Python工具,它通过一本从执行轨迹和反馈中提炼的策略 Skillbook,为AI智能体增加持久学习能力。
本文介绍了Connect the Dots(CoD),这是一个通过强化学习训练LLM的框架,用于培养长期生命周期智能体的元能力,实现持续学习和跨域泛化。
Azalia Mirhoseini 强调 DeLM,一种去中心化语言模型方法,其中智能体通过共享状态通信,在SWE-bench Verified上使用Gemini-3 Flash实现了约10%的提升,且成本不到一半。
一个包含15个组件的开源UI工具包,用于文档浏览(PDF、DOCX、XLSX),包括边界框引用、文件上传、电子签名和文件系统集成,基于MIT许可证发布。
整理了6个可直接使用的视频类Claude Skills,涵盖自动生成动效视频、AI辅助粗剪、React组件渲染视频、多媒体生成工具箱、中文剪辑Agent和视频提示词编写等开源工具。
这条推文讨论了微软的SkillOpt论文,该论文通过使用一个小的技能文件来指导智能体,在不重新训练的情况下将GPT-5.5的准确率从41%提升至80%。
Membrane 为 AI 智能体发布了超过 3,000 个集成技能,通过处理认证、操作和胶水代码,简化了 SaaS 应用的交互。这些技能基于开放规范构建,包含 Gmail 和 Slack 等示例。
Hugging Face 与合作伙伴推出了 Agentic Resource Discovery (ARD),这是一项开放规范,用于在运行时动态发现工具、技能和代理,超越了静态安装的模式。
Flue 1.0 Beta 是一个 TypeScript 框架,用于构建 AI 智能体,具有零 LLM 锁定、工作流、自主智能体和渠道集成等特性。
一位开发自主计费代理的开发者讨论了事后重建代理决策原因的困难,并描述构建了一个工具(Attova),该工具记录决策的证据、替代方案和置信度,以改进调试和人工审查。
作者构建了一个健康食品MCP服务器,并发现智能体使用多个狭窄、受限的工具比使用一个灵活的工具表现更好,强调需要一个枯燥的工具表面来减少大语言模型的幻觉。
Kevin Niparko 在台上演讲,讨论如何让 AI 代理连续运行数天甚至数周,而无需保持笔记本电脑打开。
构建了一个新的追踪器用于调试AI代理,它能自动检测循环、将会话记录为可读时间线,并支持并排对比。寻求反馈。
有人分析了 YC 2026 春季批次的 196 家创业公司,发现 95% 使用 AI,85% 是 AI-native,且真正的关键词是 agents 而非 AI。
介绍了IRTS-ToolBench,这是一个包含1,700个问题的基准测试,用于通过工具化推理评估大语言模型(LLM)和AI代理在不规则时间序列问答上的表现,涵盖13个领域的10种任务类型。