@degenrsc: https://x.com/degenrsc/status/2064714047241736302
摘要
一份关于使用多 LLM 系统与持久内存构建研究代理框架的详细指南,通过基于文件的身份、项目文档和记忆索引,让研究人员无需在每次会话中重复解释上下文。
查看缓存全文
缓存时间: 2026/06/10 21:57
第一部分(共两部分):智能体优先——构建一个自我运行的多LLM研究工作室的完整技术栈
要点速览
- 在这篇文章中,我分享了自己三个月来为加密货币和股票研究工作构建智能体工作流的真实经验
- 作为一名研究员,最困难的部分是将海量数据、统计、观点和见解整合成一个有说服力的故事;在智能体出现之前,根据最终成果的深度,这个过程需要数周到数天,现在我能将同等质量的产出压缩到数小时到数天
- 真正的关键不在于设置LLM或智能体框架,而在于“第二大脑“——这是我在构建可复用的智能体研究模型过程中最重要的收获
- 在这篇文章中,我将详细拆解确切的系统、子系统以及你可以直接复现该框架的具体命令(并将其应用于你自己的独特用例)
- 请注意,这是为我个人设计的,因此可能有些部分你想忽略,我建议将整篇文章复制到你喜欢的LLM中,然后让它向你解释,并通过向你提问,从我的具体方法中提取思维模型、架构和系统级思维,来帮助你构建你自己的定制智能体设置
祝阅读愉快…
引言
你今天写的每一份研究笔记都是从零开始的。
今天早上你打开一个标签页,输入代币名称、行业板块、你想要思考的角度。模型问你的意图是什么。你解释了框架。你告诉它需要在行内引用来源,确信度层级分为高/中/投机,你不使用破折号(是的,我知道这是AI最明显的标志之一哈哈)。你花了前四十分钟构建上下文,而这些上下文在你关闭标签页的瞬间就会被模型遗忘。明天你打开另一个标签页处理另一个项目时,你又重复了同样的流程。上周,在同一个项目上,你已经是第三次做同样的事了。你已经向AI重复解释了你的研究框架四次,因为它对前三次完全没有记忆。
这不是在做研究,这是反复为你已经构建过的上下文支付同样的成本,而这些对话没有任何积累。你三周前在这个代币上所做的工作被埋在一个你永远不会再翻看的聊天历史里。那条标记了致命条件的CT观点截图躺在桌面某个角落。笔记发布后反响不错,但在结构上却无法被你未来的研究所利用。六个月下来,你产出了四十份研究笔记,而可查询形式的累积知识量几乎和开始那天一样。
把AI当作聊天机器人使用的真正成本不是订阅费,而是你把时间花在其他地方做更有质量的创意工作所损失的机会成本。
替代方案不是更好的聊天机器人,而是与工具建立一种完全不同的关系。
你在项目文件夹里输入claude。在光标返回之前,智能体已经读取了三个文件。~/.claude/CLAUDE.md中的全局身份文档告诉它你是谁,你在构建什么,你的语言风格规则是什么,以及你遵循什么样的研究工作流。项目根目录的项目文档告诉它wiki已经更新到v2,kill-my-thesis在四十分钟前返回了“可发布“的结论,下一步是对初稿进行语调校准。一份记录了你在过去五十次会话中所有纠正的记忆索引,包括三周前你标记了一个它一直在错误使用的来源模式时的那一次。智能体没有向你打招呼。它告诉你上次进行到哪里,以及下一步该做什么。会话开始时已经完成了简报。
这种转变是本文的核心概念。从浏览器中的一个标签页到文件系统中的操作层。从一个在会话间忘记你的工具到在所有会话中叠加累积的基础设施。从每天早上重新推导上下文到一个智能体可以读写并作为主要工作模式的知识环境。
这篇文章记录了从零开始构建这一系统的全过程。该系统自2026年1月起在生产环境运行,以下是我个人从无到有创建它的具体经验。(注意:我没有任何编程/技术技能,所以任何人都可以轻松做到)。
本指南的终极目标
在介绍架构之前,先看产出。先有证明,后有推销。
本文描述的系统运行着两个AI智能体、五个语言模型和一套数据工具。在一个典型的工作周里,它产出一份每日情报简报(从五个数据源合成,在印度标准时间早上6:30市场开盘前发送到Telegram)、8到12份涵盖代币、股票和宏观的研究笔记、一份自动化的傍晚仓位提醒(拉取持仓与当前价格对比后于晚上7:00发送),以及一个包含19个相互关联页面的知识库(涵盖代币、板块、观点和宏观框架,每次会话后更新,两个智能体均可读取)。
已追踪的41次发布策略的研究记录:胜率66%,已平仓头寸的平均回报率244%。
这不是一个使用AI作为搜索助手的研究员的产出。这是一个将智能体作为主要研究操作者、研究员作为编辑的操作系统的产出。
实现这一切需要多少成本?
成本问题之所以放在前面,是因为你应当在读到文章一半之前就做出“这值不值得我花时间“的决定。以下是诚实的答案:
详细清单请参见附录中的逐项列支。
关于数字的几点说明,因为成本模型并不显而易见,大多数读者在第一次阅读时会对表格产生误解。Grok用于CT情绪分析和kill-my-thesis的访问是通过X Premium Plus订阅获得的,而非单独的xAI API账单。TradingView MCP是免费的;成本在于运行桌面应用所需的TradingView Pro订阅。Hermes在Mac上本地运行不需要额外费用,因此最低可行构建不需要VPS。当守护进程在你旅行或睡觉时产生你依赖的每日产出时,每月6到12美元的VPS就值得加入,这个决策属于第二阶段,而不是第一阶段。
每月51美元的最低可行技术栈能为你提供一个持久化、具有身份感知能力的研究智能体,通过Grok的原生X搜索获取CT情绪分析,以及通过TradingView MCP进行专业图表分析。对于51美元来说,这不是一个微不足道的能力组合。
每月150到200美元的全栈配置是本文记录的内容。这是一个单人研究操作的运行成本,能够产出机构级别的加密货币、股票和宏观研究成果。作为参考,一个Bloomberg终端的月费是2,000美元。一个基金初级研究分析师的月薪是8,000到12,000美元。这个比较并不完美,但数量级的差异是真实的。
这是什么,以及这不是什么
这是一份系统设计文档。每一节都是一个工作架构的层级,以实际构建所需的详细程度进行记录。终端命令是精确的。文件路径是真实的。成本估算来自真实的发票。对抗层在过去90天内拒绝了ETH、KAS和$NEAR的可发布观点,裁决结果在第6节中直接引用实际报告语言,而非转述。
这不是一份提示工程教程。不是一份需要评估的AI工具清单。不是关于智能体未来某天可能如何工作的推测性愿景。
本文中最重要的概念已经在前面提到了。聊天机器人接收一条消息并返回一条回复。上下文在每个会话中重置。AI无法访问你的文件,无法运行命令,没有持久状态,不记得你上周告诉它的内容。嵌入在文件系统中的AI智能体在上述每一个维度上都在架构上截然不同。它在每个会话前从配置文件中读取你的身份。它编写和编辑文件。它执行Shell命令。它调用实时数据工具。它维护一个跨会话持久化、随你每次纠正而累积的记忆系统。它是基础设施,而不是一个标签页。
本文展示的就是如何构建这种基础设施。
你需要什么
Mac是首选环境。Linux可以运行本技术栈中除TradingView MCP之外的所有内容,后者需要Mac桌面应用以远程调试模式运行。不涵盖Windows。
你不需要编写代码。你需要熟悉终端操作。如果你曾经运行过npm install或pip install并成功编辑过纯文本配置文件,你就具备所需的基础水平。本文中的每一步都是配置和命令执行,而非编程。
初步设置计划需要10到15个小时。大部分时间用于完成第2节到第5节的首次配置:安装Claude Code、构建KMS文件夹结构、连接MCP以及配置多LLM管道。构建运行后,日常操作成本是每天1到2个小时,其中有意义的一部分是在工作日开始前在手机上阅读晨间简报。
最后一个要求是大多数读者会低估的。在自动化之前手动运行系统的意愿。第2节到第8节描述的是一个手动研究工作流。第4节(Hermes)描述了如何将其自动化。自动化只有在手动工作流清晰的情况下才能发挥作用,而手动工作流只有通过足够长时间的手动运行来感受其瓶颈所在才能变得清晰。第一阶段总是在第二阶段之前。始终如此。第9节将回归这一原则并给予其应有的重视。
本文的结构
九个部分、一个附录以及一条贯穿所有部分的渐进式构建路径。
第1节 描绘完整架构:五个层级、两个智能体的分工、多LLM路由逻辑以及四个知识持久化机制。无论你计划从哪里开始构建,请先阅读本节。
第2节 涵盖Claude Code。安装、CLAUDE.md身份层、记忆系统、技能框架。这是基础。在其他所有内容之前先构建它。
第3节 涵盖KMS,即结构化的第二大脑,将零散的研究转化为累积知识。文件夹架构、通用项目结构、由LLM维护的wiki,以及作为两个智能体共同读取的单一真相源的AGENTS.md。
第4节 涵盖Hermes,即自主智能体。安装、Telegram设置、cron任务、auth.json密钥库、Claude Code委派模式以及VPS配置。这是构建的第二阶段。第2、3、5、6和7节在不需要Hermes的情况下完全可运行,如果你在第一次阅读时还没有准备好使用VPS或后台守护进程,请跳过第4节。当手动系统产生每日产出并且你有了值得自动化的内容时,再回来。
第5节 涵盖MCP技术栈:八个为智能体提供实时市场访问权限的数据工具、保持成本模型可控的数据脚本效率原则,以及需要在整个技术栈中最细致配置的TradingView MCP设置。
第6节 涵盖多LLM架构:五个模型、四个角色以及决定整个路由逻辑的一个结构性论点。这是最不显而易见的一章,也是系统完整性的真正所在。关于ETH、KAS和$NEAR的三个真实的kill-my-thesis裁决将被逐字引用。
第7节 涵盖研究工作流:一个包含九个步骤的协议,有不可跳过的规则,以及从项目设置到发布笔记的完整会话演练,附带真实时间记录。
第8节 涵盖内容运营:发布序列、策略追踪器、交易日志以及将一次研究会话转化为三个可发布成果而不使生产工作量翻倍的飞轮效应。
第9节 涵盖当前构建的状态、已自动化和仍为手动的部分,以及未来十二个月的建设方向。它还将闭环回归引言中提出的问题。
首次阅读请按顺序进行。后续可将各个部分作为参考资料单独查阅。
第1节:架构
系统有五个层级。每一个层级的存在都是因为缺少它会导致特定问题。理解每个层级解决什么问题比理解它是如何工作的更有用,所以我们从那里开始。
手动研究的五种故障模式,以及每种模式对应的修复方案:
修复全部五个,你就拥有了一个研究操作系统。缺失任何一个,系统就会存在一个最终会在产出中表现出来的漏洞。
五个层级
层级1:身份: CLAUDE.md文件告诉智能体你是谁、它遵循什么规则、它当前正在处理哪个项目、以及你的文件系统中的所有内容位于何处。两种类型:一个适用于所有会话的全局文件,以及一个适用于当前研究文件夹的项目文件。智能体在说出第一句话之前就已经读取了这两个文件。结果是:每个会话开始时已经完成了简报。
层级2:第二大脑: KMS(知识管理系统)是一个结构化的文件夹架构,为智能体提供一个持久化、有组织的读写环境。它包含一个每次研究会话后都会增长的wiki、一个跨会话持续存在的记忆系统,以及一个两个智能体共同保持同步的单一真相源文件。这个层级使得知识能够累积而非消失。
层级3:数据: MCP(模型上下文协议工具)是智能体访问实时数据的机制。没有它们,智能体受限于其训练截止日期。有了它们,智能体可以实时访问加密货币价格、股票申报文件、宏观指标、链上DEX数据和实时图表分析。本技术栈中活跃着八个MCP。数据层级使智能体的分析保持时效性而非陈旧。
层级4:智能: 四个语言模型,各有其特定角色。写作能力强的模型不一定是对自己的输出提出最严格反驳的模型。具有原生X搜索访问权限的模型不一定是知识压缩能力最强的模型。将任务路由到错误的模型不仅不是最优的,对于对抗性工作而言,甚至是有害的。多LLM层级将每个任务分配给在结构上最适合该任务的模型。
层级5:自动化: Hermes是第二个智能体。它以守护进程形式运行在服务器上,监听定时触发器和Telegram命令,无需人工启动即可执行管道。每日情报简报、仓位提醒、wiki更新、技能监控,所有这一切无需你打开终端即可运行。这个层级使系统成为一个“运营操作“而非一个“工具“。
两个智能体的分工
两个智能体,一个共享的知识环境,明确的分工。
Claude Code是研究员。Hermes是运营经理。你是主编。
共享记忆文件夹是使这种分工成为可能的架构细节。两个智能体读写同一个物理位置。Claude Code写入反馈记忆和用户画像更新。Hermes写入项目事件日志和监控条件触发器。两个智能体不需要互相简报,它们读取的是同一个文件。
给初次构建者的关于Hermes的说明: 本文的第2、3、5、6和7节——涵盖Claude Code、KMS、MCP技术栈、多LLM层和研究工作流——在不需要Hermes的情况下完全可运行。Hermes是第二阶段。正确的构建顺序是先运行手动研究系统,理解每一步在你时间和精力上的成本,然后将你已经证明可行的工作自动化。自动化一个你尚未理解的过程会产生更快的混乱,而不是更快的产出。如果你在第一次阅读时还没有准备好使用VPS,请跳过第4节。
多LLM逻辑
一个模型做所有事情是AI研究设置中最常见的错误。避免这种做法的理由与基准测试分数无关。
考虑一份研究笔记涉及的任务:在X上搜索CT情绪,构建结构化的…
相似文章
@Michaelzsguo: https://x.com/Michaelzsguo/status/2056842405815447684
一份实用指南,介绍如何通过分层包装系统和一致的目录结构来组织本地LLM实验,以避免模型位置漂移、标志遗忘和测试框架耦合。
@adxtyahq: 过去几周,我和 @iamadityaanjana 一直在开发一个协作式多智能体记忆系统,我们…
作者开发了一个协作式多智能体记忆系统,包含共享/私有记忆范围、信任感知检索、血统追踪和矛盾解决,并已向会议提交论文。
从存储到经验:大语言模型智能体记忆机制演进综述
本综述论文提出了一种大语言模型(LLM)智能体记忆机制的演进框架,将其发展划分为三个阶段:存储、反思和经验。文章分析了长程一致性和持续学习等核心驱动力,旨在为下一代智能体的设计提供指导原则。
将大型语言模型(LLM)中的身份形成建模为通过多实例关系交互驱动的超图演化,并测量激活空间中的结构分歧。
作者提出了一种新颖的实验框架,旨在通过多实例交互来研究大语言模型(LLM)的身份形成过程,将其视为超图的演化。该框架与标准的多智能体辩论不同,它关注的是激活空间中的结构差异,而非任务性能。
@cwolferesearch: 我刚刚发表了一篇关于智能体强化学习的博客,涵盖了该领域10多个最新框架。以下是关键要点……链接……
一篇博客文章,总结了十个最新的智能体强化学习框架和最佳实践,涵盖模块化接口、轨迹结构、动作掩码、过程奖励、优势归一化、可扩展的 rollout、稳定性/探索以及任务课程。