标签
介绍了SKILL.nb,一个通过证据校准的生命周期策略来管理可复用智能体工作流的框架,具有选择性形式化和门控条件执行等特点。在网页自动化基准测试中取得了显著改进,并展示了对环境漂移的鲁棒性。
NVIDIA's NemoClaw Community provides a collection of example blueprints for building constrained, inspectable agent workflows, combining the Hermes model, agent harness, and OpenShell sandbox for production-safe agent deployment.
作者构建了 Tidebase,一个用于智能体工作流的开源运行时,它使用 Postgres 提供检查点、重试和实时运行状态跟踪,使失败的运行可以从中断处恢复。
介绍Lean4Agent,一个使用Lean4对代理工作流和轨迹进行形式化建模与验证的框架,展示了在SWE-Bench和ELAIP-Bench上的性能提升。
本文认为,公司的首个AI策略应该是创建一个'技能库',以捕捉顶尖员工可复用的工作方法,这样智能体可以学习任务背后的方法,而不仅仅是访问数据。它还推广了一个名为Skills 101的在线研讨会。
本文讨论了在智能体工作流中使用 Ring-2.6-1T 添加重推理的位置,以防范状态损坏、工具合约不匹配或最终外部动作等故障点。
关于AI智能体中推理预算分配位置的讨论,引用了拥有高/极高推理努力模式的万亿参数模型Ring-2.6-1T。
对AI智能体token消耗的批判;提出Token投资回报率(ROTI)作为效率指标,指出大多数智能体不会随着时间减少token使用量。
关于将失败类别(工具选择错误、重新规划错误、最终答案验证)路由到 Ring-2.6-1T 的讨论,Ring-2.6-1T 是一个用于智能体工作流的万亿参数推理模型,具有高推理努力模式。
一位开发者观察到,构建智能体工作流的最大挑战已从模型和提示词转向维护上下文、业务规则和外部数据同步,并向社区询问他们的主要瓶颈。
参加了在柏林举办的应用人工智能大会,并做了关于构建文档代理的演讲,其中包括使用LlamaIndex构建的文档处理代理LobsterX的详细演示,该代理采用了结构化输出和事件驱动工作流。
这是对使用单个可调深度的万亿参数推理模型(如 Ring-2.6-1T)与在多个专用模型之间切换这两种方案的权衡思考,探讨哪种方法对代理工作流更简洁或更具成本效益。
Nanobot 宣布与 Atomic Chat HQ 合作,以简化本地优先的代理工作流程,并更新了文档,使用户能够在自己的机器上使用本地模型运行 nanobot。
文章讨论了下一个重要的模型进步可能在于降低智能体工作流的成本,重点介绍了蚂蚁集团的 Ling-2.6-1T,这是一个万亿参数模型,旨在以低计算开销实现高效推理和任务执行。
蚂蚁集团发布了 Ring-2.6-1T,这是一个拥有 1 万亿参数的推理模型,专为智能体工作流设计,采用 MIT 许可证、扩展上下文,并使用了异步强化学习 (Async RL) 和 IcePop 训练方法,取得了最先进的成果。
一位用户向社区询问在智能体工作流中使用小型/本地语言模型执行特定任务(如路由、分类和提取)的情况,并分享了对大型模型是否总是必要的思考。
AgentKernelArena是一个开源基准测试,用于评估AI编码代理在GPU内核优化方面的表现,涵盖完整的代理工作流程以及跨196个任务对未见配置的泛化能力。
讨论了AI智能体工作流真实数据集的稀缺性,指出现有基准测试未能捕捉到混乱的生产场景,如工具故障、模糊请求和长时间对话漂移,并寻求更好的数据集推荐。
一份技术指南,介绍了 Agent Hooks 这一概念,通过生命周期钩子为智能体工作流添加确定性控制点,使开发者能够在关键时刻强制执行规则并运行验证。
一位开发者寻求推荐用于追踪、评估和调试代理工作流的开源替代LangSmith方案,并指出其付费墙限制。