@gneubig: 我们发现这种 "sidekick" 架构在降低LLM成本方面非常有效,因为它允许你...
摘要
Graham Neubig 分享了一种通过将简单任务委托给较小的智能体来降低LLM成本的 sidekick 架构,并提供了一个使用 OpenHands SDK 的200行示例。这种方法也被用于 Cognition 的 Devin Fusion 混合模型 harness。
查看缓存全文
缓存时间: 2026/06/30 07:41
我们发现这种“副手”架构在削减LLM开销方面非常有效,因为它允许你进行上下文控制,避免在简单任务上花费昂贵的token。这是一个使用OpenHands SDK的200行示例:https://gist.github.com/neubig/412ab8df8e6fd0b2bdf10602d77f9d86…
Cognition (@cognition): Devin Fusion 使用了一种围绕两个理念构建的混合模型框架:
首先,一个“副手”代理:一个较小的代理与前沿代理并行运行。前沿代理委派任务、监控进度,并保留对规划、处理歧义和最终审查的掌控权。
这使得
相似文章
超越LLM:为何可扩展的企业AI落地依赖于Agent逻辑
IBM Research探索了Agent逻辑——诸如知识图谱和程序分析等软件原语——如何引导基于LLM的Agent高效处理复杂的企业工作流,减少幻觉和成本,同时改善结果。
@DailyDoseOfDS_: 一个受框架控制的LLM智能体,清晰解释!大多数人认为这是一个模型加上附加工具。真正的架构…
解释了受框架控制的LLM智能体的反向架构,其中智能被外化到记忆、技能和协议中,围绕一个轻量模型核心,由中介器管理交互。
上下文、推理与层次结构:对抗性POMDP中复合LLM智能体设计的成本-性能研究
在对抗性POMDP(CybORG CAGE-2)中对复合LLM智能体设计进行了一项受控研究,系统性地在五个模型系列中变化上下文、推理与层次结构。主要发现:程序化状态抽象每token产生巨大回报,无推理工具的层次结构实现了最佳绝对性能,并且上下文工程比深度推理更具成本效益。
我构建了一个开源代理,其推理核心融合了多个LLM(面板、裁判、合成器),而不是路由到单一模型
作者构建了一个开源代理,它使用一组不同的LLM(包括裁判和合成器)来处理困难的推理步骤,同时具备成本感知路由、分层记忆、治理和子代理支持。该软件处于alpha阶段,关于融合效果的基准测试结果不一。
小型LLM架构:Raven Agent(本地RTX5080)+ Trinity Cortex(7B/13B/MoE在线)
描述了一个双层小型LLM架构:一个本地常驻代理(Raven)运行在RTX5080上,以及一个在线推理栈(Trinity Cortex),包含三个小模型和一个知识图谱,论证了小模型在基于图的推理中优于大型前沿模型。