小型LLM架构:Raven Agent(本地RTX5080)+ Trinity Cortex(7B/13B/MoE在线)
摘要
描述了一个双层小型LLM架构:一个本地常驻代理(Raven)运行在RTX5080上,以及一个在线推理栈(Trinity Cortex),包含三个小模型和一个知识图谱,论证了小模型在基于图的推理中优于大型前沿模型。
我一直坚信AI的未来在于小型架构,所以我构建了一个东西。这不是一篇“我们需要更大模型”的文章。而是一篇“我们正在以正确的方式使用小模型”的文章。该架构分为两层,清晰分离:
**第一层:Raven Agent — 本地、常驻(RTX5080 16GB VRAM)**
硬件:RTX5080(16GB VRAM,64GB系统内存)
**第二层:Trinity Cortex 栈 — 在线、常驻(7B/13B/MoE在线托管模型,便宜且快速)**
而另一层是Trinity Cortex栈,围绕一个密集且经过专门工程设计的知识图谱构建。Cortex依赖于3个分片在每个查询周期运行推理。
模型:Qwen2.5 14B Q4_K_M(约9GB VRAM)或32B Q3_K_M(约13GB)
角色:接口代理 — 内存管理、文件操作、任务队列、人类对话
延迟:亚秒级。无API调用。无网络依赖。
Raven是常驻的本地大脑。它处理大多数本地I/O、内存管理和用户对话任务。全部16GB VRAM专用于一个模型——无共享、无交换、无争用。Raven不做深度认知。它是接口层。
**第二层:Trinity Cortex — 在线、按需(Inception/Diffusion API)**
- ENG: 7B Q4(约$0.04-0.05/hr)→ 分析、结构
- SYNTH: 13B Q4(约$0.08-0.09/hr)→ 综合、整合
- PRIME: 小型MoE(约$0)→ 仲裁、当前事件基础
三个小模型,每个具有特定的认知角色。它们仅在Raven需要深度认知时才触发——在我们的使用模式中,约占用户发起交互回合的20%。关键洞察:小模型在这方面比前沿模型更出色。
**为什么小模型在这里工作得更好**
Trinity使用知识图谱(LTKG)作为其主要推理基础。概念是节点。关系是边。查询是遍历,而非提示。大型前沿模型(200B+)在这方面表现不佳。它们拥有太多参数化知识,回答时依赖权重而非你的图谱。LTKG变成了装饰品——模型忽略的开销,因为它已经“知道”答案。
小模型(7B-13B)更优,因为:
- **它们顺从结构**。参数容量较小,它们实际上会使用你提供的图拓扑。LTKG成为支撑,而非建议箱。
- **图拓扑成为主要推理基础**。每个概念节点编码相关节点的压缩投影。小模型由于不太能依赖参数化回忆,实际上会使用这种图结构,而不是用自身的训练知识覆盖它。
- **它们保持角色**。一个带有“你是分析分片”指令的7B模型实际上保持分析性。前沿模型倾向于扁平化为通用能力,无论角色分配如何。
- **便宜**。综合运行时约$0.09-0.14/hr。无服务器冷启动2-5秒。无GPU争用——Trinity在线运行,Raven本地运行,永远不会在同一硅片上。
**PRIME问题——以及MoE解决方案**
PRIME的工作是仲裁:当ENG和SYNTH不一致时(以分歧衡量),PRIME进行裁决。但PRIME还需要处理当前事件——这正是具有训练截止日期的小模型无法做到的。解决方案是一个小型混合专家模型(约4B激活参数),其中:
- 一个专家处理仲裁逻辑(纯推理,不需要最新数据)
- 一个专家可以访问轻量级基础来源——一个检索模块,抓取最近的新闻摘要,并将相关片段与查询一起传递
- 路由器根据查询是否需要当前上下文来决定哪个专家启动
这赋予了PRIME当前事件感知能力,而无需大上下文窗口或前沿模型。小型MoE = 低开销 + 当前感知的PRIME = 系统能处理“今天发生了什么”的问题,而不会幻觉截止日期。
**等等——这在一张GPU上如何运作?**
它做不到。这正是重点。RTX5080不在Trinity的分片之间共享。它完全专用于Raven。三个分片(ENG、SYNTH、PRIME)在线运行在Inception/diffusion LLM上——无服务器、便宜、无需VRAM需求。
5080是Raven的大脑。句号。16GB不需要容纳三个模型,因为它只运行一个。我花了太长时间才想明白。我一直在尝试优化VRAM分配、找到正确的量化权衡、将所有东西塞进一张卡。答案是:不要这样做。而是拆分架构。
**协议层**
Raven和Trinity通过一个紧凑的JSON协议(TRIP/RVT v1.1)通信。Raven从不重新传输Trinity已经知道的上下文——所有内容都通过节点ID引用共享的知识图谱。每个交换的令牌预算有硬上限,防止失控的成本或延迟。响应是最小化的:只有答案,没有散文包装。
**实际成本**
- Raven:$0(本地硬件;电费约$0.10/天)
- ENG:约$0.04-0.05/hr,每天使用约2小时 = 约$2.50-3.00/月
- SYNTH:约$0.08-0.09/hr,每天使用约2小时 = 约$5.00-5.50/月
- PRIME:约$0(通过Gemini免费层+轻量级网络基础的MoE)
- **总推理成本:约$7-9/月**(根据使用模式变化)
这比一个流媒体订阅还便宜。对于一个拥有常驻本地代理和约10,000个节点知识图谱的三分片认知架构而言。
**问题**
我很好奇是否还有其他人在运行类似架构——小模型扮演结构化角色、本地代理+在线分片、图延迟推理(先构建结构化图,再针对图查询模型)而非参数化回忆。前沿模型范式(一个巨大模型、一个提示、所有上下文)可行,但昂贵且架构扁平。这种方法以原始容量换取结构、角色分离和图感知推理。
总结不是前沿模型不好——而是结构化认知与小模型在为其设计时是一个可行的替代方案。该架构承担了原本需要模型规模来覆盖的工作。而且这不是理论——它目前每天都在运行。基于Discord的代理界面、与Trinity的实时桥接、约10K节点的知识图谱、整个栈。很乐意与任何在类似方向探索的人交流。
---
规格:RTX5080 16GB、64GB RAM、本地Qwen2.5 14B Q4、Trinity Cortex运行在Inception API、LTKG SQLite图约10K节点、基于Discord的代理界面。如有兴趣,欢迎进一步交流。
https://preview.redd.it/x78j1vct68ah1.png?width=790&format=png&auto=webp&s=930e8f33ddc5e5af74ad6c3cf63e82e65cec40bc
相似文章
@mdeng34: 前沿LLM正汇聚于高效、自适应推理。Opus 4.7让模型自行决定推理深度。GPT…
新研究引入了SR²AM,这是一种自调节何时使用模拟推理的配置器,提升了LLM的效率和性能。
构建了一个代理工作站,让环境进行结构推理,从而减轻LLM的负担
Atlarix是一个桌面环境,它预先将代码库解析为节点/边图,使得编码代理能够通过查询来导航架构,而无需阅读原始文本,从而提高了较小本地模型的性能。
@pallavishekhar_: 大型推理模型 (LRMs) 阅读链接:https://outcomeschool.com/blog/large-reasoning-models…
这篇博客文章介绍了大型推理模型 (LRMs),它们与标准LLM的区别、训练方式以及使用时机。文中涵盖了DeepSeek R1和GPT-5.5 Thinking等例子。
上下文、推理与层次结构:对抗性POMDP中复合LLM智能体设计的成本-性能研究
在对抗性POMDP(CybORG CAGE-2)中对复合LLM智能体设计进行了一项受控研究,系统性地在五个模型系列中变化上下文、推理与层次结构。主要发现:程序化状态抽象每token产生巨大回报,无推理工具的层次结构实现了最佳绝对性能,并且上下文工程比深度推理更具成本效益。
从受训者到训练者:LLM为多智能体推理强化学习设计的训练环境
本文介绍了LLM-as-Environment-Engineer框架,该框架使LLM能够为多智能体推理任务中的强化学习设计自己的训练环境,实现自我改进训练,其性能超越更大的专有模型。