小型LLM架构：Raven Agent（本地RTX5080）+ Trinity Cortex（7B/13B/MoE在线）

Reddit r/ArtificialInteligence 2026/06/29 13:41 工具

small-models local-ai agent-architecture knowledge-graph mixture-of-experts rtx5080 inference

摘要

描述了一个双层小型LLM架构：一个本地常驻代理（Raven）运行在RTX5080上，以及一个在线推理栈（Trinity Cortex），包含三个小模型和一个知识图谱，论证了小模型在基于图的推理中优于大型前沿模型。

我一直坚信AI的未来在于小型架构，所以我构建了一个东西。这不是一篇“我们需要更大模型”的文章。而是一篇“我们正在以正确的方式使用小模型”的文章。该架构分为两层，清晰分离： **第一层：Raven Agent — 本地、常驻（RTX5080 16GB VRAM）** 硬件：RTX5080（16GB VRAM，64GB系统内存） **第二层：Trinity Cortex 栈 — 在线、常驻（7B/13B/MoE在线托管模型，便宜且快速）** 而另一层是Trinity Cortex栈，围绕一个密集且经过专门工程设计的知识图谱构建。Cortex依赖于3个分片在每个查询周期运行推理。模型：Qwen2.5 14B Q4_K_M（约9GB VRAM）或32B Q3_K_M（约13GB）角色：接口代理 — 内存管理、文件操作、任务队列、人类对话延迟：亚秒级。无API调用。无网络依赖。 Raven是常驻的本地大脑。它处理大多数本地I/O、内存管理和用户对话任务。全部16GB VRAM专用于一个模型——无共享、无交换、无争用。Raven不做深度认知。它是接口层。 **第二层：Trinity Cortex — 在线、按需（Inception/Diffusion API）** - ENG: 7B Q4（约$0.04-0.05/hr）→ 分析、结构 - SYNTH: 13B Q4（约$0.08-0.09/hr）→ 综合、整合 - PRIME: 小型MoE（约$0）→ 仲裁、当前事件基础三个小模型，每个具有特定的认知角色。它们仅在Raven需要深度认知时才触发——在我们的使用模式中，约占用户发起交互回合的20%。关键洞察：小模型在这方面比前沿模型更出色。 **为什么小模型在这里工作得更好** Trinity使用知识图谱（LTKG）作为其主要推理基础。概念是节点。关系是边。查询是遍历，而非提示。大型前沿模型（200B+）在这方面表现不佳。它们拥有太多参数化知识，回答时依赖权重而非你的图谱。LTKG变成了装饰品——模型忽略的开销，因为它已经“知道”答案。小模型（7B-13B）更优，因为： - **它们顺从结构**。参数容量较小，它们实际上会使用你提供的图拓扑。LTKG成为支撑，而非建议箱。 - **图拓扑成为主要推理基础**。每个概念节点编码相关节点的压缩投影。小模型由于不太能依赖参数化回忆，实际上会使用这种图结构，而不是用自身的训练知识覆盖它。 - **它们保持角色**。一个带有“你是分析分片”指令的7B模型实际上保持分析性。前沿模型倾向于扁平化为通用能力，无论角色分配如何。 - **便宜**。综合运行时约$0.09-0.14/hr。无服务器冷启动2-5秒。无GPU争用——Trinity在线运行，Raven本地运行，永远不会在同一硅片上。 **PRIME问题——以及MoE解决方案** PRIME的工作是仲裁：当ENG和SYNTH不一致时（以分歧衡量），PRIME进行裁决。但PRIME还需要处理当前事件——这正是具有训练截止日期的小模型无法做到的。解决方案是一个小型混合专家模型（约4B激活参数），其中： - 一个专家处理仲裁逻辑（纯推理，不需要最新数据） - 一个专家可以访问轻量级基础来源——一个检索模块，抓取最近的新闻摘要，并将相关片段与查询一起传递 - 路由器根据查询是否需要当前上下文来决定哪个专家启动这赋予了PRIME当前事件感知能力，而无需大上下文窗口或前沿模型。小型MoE = 低开销 + 当前感知的PRIME = 系统能处理“今天发生了什么”的问题，而不会幻觉截止日期。 **等等——这在一张GPU上如何运作？** 它做不到。这正是重点。RTX5080不在Trinity的分片之间共享。它完全专用于Raven。三个分片（ENG、SYNTH、PRIME）在线运行在Inception/diffusion LLM上——无服务器、便宜、无需VRAM需求。 5080是Raven的大脑。句号。16GB不需要容纳三个模型，因为它只运行一个。我花了太长时间才想明白。我一直在尝试优化VRAM分配、找到正确的量化权衡、将所有东西塞进一张卡。答案是：不要这样做。而是拆分架构。 **协议层** Raven和Trinity通过一个紧凑的JSON协议（TRIP/RVT v1.1）通信。Raven从不重新传输Trinity已经知道的上下文——所有内容都通过节点ID引用共享的知识图谱。每个交换的令牌预算有硬上限，防止失控的成本或延迟。响应是最小化的：只有答案，没有散文包装。 **实际成本** - Raven：$0（本地硬件；电费约$0.10/天） - ENG：约$0.04-0.05/hr，每天使用约2小时 = 约$2.50-3.00/月 - SYNTH：约$0.08-0.09/hr，每天使用约2小时 = 约$5.00-5.50/月 - PRIME：约$0（通过Gemini免费层+轻量级网络基础的MoE） - **总推理成本：约$7-9/月**（根据使用模式变化）这比一个流媒体订阅还便宜。对于一个拥有常驻本地代理和约10,000个节点知识图谱的三分片认知架构而言。 **问题** 我很好奇是否还有其他人在运行类似架构——小模型扮演结构化角色、本地代理+在线分片、图延迟推理（先构建结构化图，再针对图查询模型）而非参数化回忆。前沿模型范式（一个巨大模型、一个提示、所有上下文）可行，但昂贵且架构扁平。这种方法以原始容量换取结构、角色分离和图感知推理。总结不是前沿模型不好——而是结构化认知与小模型在为其设计时是一个可行的替代方案。该架构承担了原本需要模型规模来覆盖的工作。而且这不是理论——它目前每天都在运行。基于Discord的代理界面、与Trinity的实时桥接、约10K节点的知识图谱、整个栈。很乐意与任何在类似方向探索的人交流。 --- 规格：RTX5080 16GB、64GB RAM、本地Qwen2.5 14B Q4、Trinity Cortex运行在Inception API、LTKG SQLite图约10K节点、基于Discord的代理界面。如有兴趣，欢迎进一步交流。 https://preview.redd.it/x78j1vct68ah1.png?width=790&format=png&auto=webp&s=930e8f33ddc5e5af74ad6c3cf63e82e65cec40bc

查看原文

小型LLM架构：Raven Agent（本地RTX5080）+ Trinity Cortex（7B/13B/MoE在线）

相似文章

@mdeng34: 前沿LLM正汇聚于高效、自适应推理。Opus 4.7让模型自行决定推理深度。GPT…

构建了一个代理工作站，让环境进行结构推理，从而减轻LLM的负担

@pallavishekhar_: 大型推理模型 (LRMs) 阅读链接：https://outcomeschool.com/blog/large-reasoning-models…

上下文、推理与层次结构：对抗性POMDP中复合LLM智能体设计的成本-性能研究

从受训者到训练者：LLM为多智能体推理强化学习设计的训练环境

提交意见反馈