@mylifcc: https://x.com/mylifcc/status/2073053339714212161
摘要
文章强调在使用Fable 5等强推理模型时,应优先审计和重构个人的工作操作系统(如编码、AI实验室、内容合成等),而不是直接用于编码。通过系统级升级,可以产生复利效应,显著提升所有后续产出的质量和效率。
查看缓存全文
缓存时间: 2026/07/03 20:41
别急着用 Fable 5 写代码!先重构你的「个人操作系统」,未来所有产出都将提升百倍
拿到 Fable 5,先别写代码:把你的个人操作系统升级到下一个版本
当你拿到像 Fable 5 这样具备极强长时程推理和原创系统思考能力的模型时,最有价值的做法,不是立刻扔给它一个功能需求,让它开始 vibe coding。
而是先让它彻底审计并重构你底层的所有个人操作系统。
这个思路的核心在于:元层面的系统升级,能对后续所有工作产生复利级放大效应。比任何单次任务的产出都更重要,也更持久。
为什么 Frontier 模型不该从“直接写代码“开始?
Fable 5 在系统级架构设计、流程优化、原创洞见生成上,展现出当前公开模型中少有的深度。它更适合扮演“首席系统架构师“的角色,而不是“高级代码生成器“。
如果你一上来就让它写具体功能、改 bug、生成界面,你就是在用最贵的 token 做最常规的事,同时浪费了它在重新设计整个工作闭环上的独特价值。
正确的顺序是:先用它把“如何做事“这件事本身升级到新版本,再用升级后的系统去执行具体工作。
这样做的结果是:当你真正开始 coding、研究、构建 agent 时,每一次交互的产出质量和效率都会出现明显跃升。
什么是你的「个人操作系统」?
个人操作系统不是某个 prompt 或工具,而是你完成某类核心工作的完整闭环机制。它包含流程、决策规则、工具链、反馈回路、质量门禁和上下文管理方式。
对专注 agentic 工程和独立开发的你来说,值得重点审视的操作系统通常包括:
编码生产操作系统
从高层次想法到可交付、可维护代码的全链路。是否包含清晰的技能拆分、prompt 缓存策略、git worktree 隔离、self-healing 机制、证据驱动的 Review 流程?
本地/混合 AI 实验室操作系统
多 GPU 任务分配逻辑、模型智能路由(高复杂度任务 vs 常规任务)、输出后处理、成本与质量监控、observability 体系。
内容与知识合成操作系统
信息源聚合 → 结构化深度阅读 → 洞见提取与验证 → 高质量内容生成(X 线程、文章、视频脚本)→ 发布后数据反馈与迭代闭环。
Agentic 编排与记忆操作系统
多 agent 协调架构、任务生命周期管理、长期记忆反馈机制、上下文贫困缓解方案、幻觉抑制策略。
成长与基础设施操作系统
内容分发与增长实验、billing 与 proxy 优化、工具链演进、个人知识管理。
还有一个大多数人漏掉的:分发与影响力操作系统。
我有一个能力很强的记忆库项目,技术上做到了同类前列,但它不火。原因不在代码,而在于我的系统里根本没有“分发“这个环节——issue 区堆满内部规划、README 没有面向路人的叙事、发布后没有数据回流。系统再好,缺分发闭环,产出就停在硬盘里。把“被看见“当作操作系统的一等公民,而不是做完之后的附加题。
这些系统决定了你使用任何强大模型时的边际回报率。系统越成熟,同样 token 消耗能换来的真实价值就越高。
实战案例:我是怎么做这次审计的
这不是理论。我最近两天用 Fable 5 完整跑了一遍,过程比“Brain Dump“更进一步——我没有靠自述,而是让模型直接读我的行为数据。
第一步:让模型读你的原始使用记录,而不是听你自己总结。
我让 Claude 读取这台 Mac 上 Claude Code 和 Codex 的全部聊天记录,之后又通过 Tailscale SSH 到另外两台机器,把三台机器的 agent 使用记录合起来做跨机器审计。自述会美化,行为数据不会。你以为自己在“做架构“,记录会告诉你实际上 60% 的会话在救火。
第二步:把审计结果落成机器可读的资产,而不是一份读完就忘的报告。
这次审计的直接产出是两个文件:portfolio.toml(我所有项目的盘点:状态、投入、产出)和 goals.toml(目标与产能分配规则)。之后每周的决策会话直接读这两个文件,而不是每次重新回忆“我在做什么“。审计报告会过期,结构化资产会复利。
第三步:要求模型分析你的认知盲区,而不只是流程漏洞。
我明确要求:“分析我说过的话,指出我的认知和缺点。“流程问题好修,认知偏差才是所有流程问题的上游。这是高推理模型真正值回票价的地方——它能从几百个会话里看出你自己看不到的模式。
参考实现:一条跑通了的“库改造流水线“
审计完成后,我把重构出的编码生产系统在真实任务上验证了一天:对 7 个开源库并行执行同一条流水线——
审计(自由探索找设计问题) → spec 工具出结构化的 issues + 技术方案 → 实现工具按 spec 出 PR → 回头验证“是不是真的都实现了“
几个实测有效的细节:
审计时明确告诉模型“不要用我现有的 skill,自由探索“。
这是反直觉但关键的一步。你的工具链会固化模型的视角——用你写的审计 skill 去审计,只能得到你已经想到过的那类问题。新鲜视角要靠明确解除工具约束来换。
spec 和实现分离,中间留人类决策点。
模型一天能给 7 个库生成完整 spec,但你不必全部实现。spec 是廉价的探索,实现是昂贵的承诺。
每一轮都以验证收尾。
“你看看是不是这些都实现了“必须是流水线的固定环节。任何“完成“声明都要有本次会话内的命令输出作为证据——“之前跑过”“理论上没问题“不算数。修 bug 先复现再动手;连续三次修不好,停下来质疑假设而不是继续试。没有证据门禁的操作系统,跑得越快,废品率越高。
固化的三级阶梯:重构到什么程度算完?
模型给了你新架构之后呢?不要直接把它写进配置然后宣布升级完成。用这个阶梯:
手动执行 → 真实任务验证可靠 → 固化为 Skill → 稳定后接入自动化
关键规则:未经手动验证的流程,禁止直接自动化。 每一级晋升都要真实任务的证据。模型输出的新系统设计在被验证前只是假设,不是资产。
对应的分层原则——什么东西放哪一层:
层载体放什么常驻约束CLAUDE.md(控制在 ~150 行内)只放高频、跨任务、稳定的规则按需能力Skills部署、审计、内容生产等完整工作流机械门禁Hooks + guard 脚本能自动检查的就不要写成规则长期记忆文件式 memory + 索引项目约束、偏好、失败教训
能用 hook 机械解决的不要写成规则,能做成 skill 的不要常驻上下文。
系统的反面:我建过头之后学到的事
这是这篇文章最重要的一节,因为几乎没有人写它。
我沿着“完善个人操作系统“这条路走到了另一个极端:上百个 skills、一百多条规则、二十多个自定义 agent、成套的 guard 脚本。真实的教训是——约束堆过一个阈值后,模型的遵循率不升反降。 相关研究(Constraint Decay, arXiv 2605.06445)的量化结果是:结构化约束累积后,强模型在同类任务上的通过率掉了约 30 个百分点;Anthropic 官方最佳实践也明确说过,臃肿的 CLAUDE.md 会让模型忽略真正重要的指令。
所以元系统重构是有后半程的,而后半程是删:
-
每条规则要有触发频率统计,30 天零触发的降级为按需文档
-
新增规则前先问:能不能合并进已有规则?更少更聪明的门禁,胜过更多机械门禁
-
单任务生效约束控制在 15 条以内,超了就拆分或下放
还有一个这套流水线特有的副作用要警惕:spec 通胀。 模型生成 spec 的速度远超你实现和验证的速度,一天就能给 7 个库堆出几十个 issues。看起来产出惊人,实际上未实现的 spec 是负资产——它们污染 issue 区、误导协作者、制造“进展“的幻觉。给 spec 设 WIP 上限,实现跟不上就停止生成。
另外,失败也要入库。 大多数人的系统只沉淀成功路径,但决策边界藏在失败里——修错的假设、被否掉的方案、误报过的规则,都应该提炼成预防性教训再归档。只存赢的记忆系统,会让你在同一个坑里反复摔。
实战操作指南:接下来 24-48 小时怎么做
-
进入 Claude 界面,选择 Fable 5(或当前最高推理强度模型),根据系统复杂度调高 thinking effort。
-
优先让模型读你的行为数据:Claude Code / Codex 的会话记录、git 历史、你的配置文件。自述作为补充。如果做不到,再退回完整 Brain Dump:具体步骤和决策逻辑、使用的工具和模板、目标与成功标准、已知痛点和幻觉来源、你理想中的状态。
-
给出明确指令:审查 → 批判性分析 → 重新设计 → 持续优化。要求输出新架构、规则集、质量门禁、自进化机制和分阶段落地路线图。同时要求它指出你现有系统里应该删掉的东西——只会做加法的审计是不完整的。
-
多轮深度迭代。反复追问边界条件、失效场景、与现有架构的兼容性。
-
按三级阶梯固化:先手动验证,再固化为 skill/配置,最后才自动化。在至少两个真实任务中 A/B 验证后,才算完成一次迭代。
可直接使用的起始 Prompt 框架(修改后使用)
“你现在是我的个人操作系统首席架构师。请先读取我的 [Claude Code 会话记录 / git 历史 / 配置文件],结合以下自述:[粘贴 Brain Dump]。先完整理解并复述我的当前系统,然后进行彻底审计:指出所有低效、脆弱、缺乏自愈与质量保障的地方,以及应该删除或降级的冗余约束。最后设计一个更强、具备自进化能力的版本。重点关注上下文工程、token 效率、质量门禁、与我现有架构的兼容性。输出结构化设计:核心原则、关键组件、实施路线图、潜在风险,以及每个新组件的验证方式。另外,请基于我的历史记录分析我的认知盲区和决策偏差。”
多角度审视:优势、边界与现实考量
核心优势:
-
一次元优化能让后续所有使用该模型(或任何模型)的工作自动享受更高基线。
-
特别适合构建复杂、长时程 agent 系统的人——把“如何构建可靠 agent“这件事本身先系统化,能显著降低后续项目失败率和幻觉风险。
-
能把原本需要大量手动维护的 vibe coding 过程,逐步转变为可复用的自动化工厂。
必须面对的现实边界:
-
模型路由是主动策略,不是被动降级:把 Fable 5 用于高杠杆的架构判断、系统裁剪、认知审计;把确定性强的执行层任务路由给成本更低的模型。这是你自己设计的路由决策,目标是让最贵的 token 只花在判断题上。
-
成本与配额:Fable 5 使用成本较高。必须把最贵的 token 用在杠杆最高的地方,而不是 routine 工作。
-
时间投入:完整重构一个复杂系统通常需要几个小时到几天的高强度对话。设定明确的停止条件——例如:新系统已包含自检机制,并在至少两个真实场景中验证有效。
-
系统成熟度差异:系统越混乱或越早期,收益越大。已有成熟系统的人,重点是裁剪和新模型适配,而不是推倒重来。
-
数据保留与合规:敏感部分可结合本地模型或脱敏处理。
重构完成后会发生什么?
你的编码过程会从“每次都要重新思考流程“变成“把精力主要投入到高层次决策和创意上“,低层次执行大量自动化。
本地 AI 实验室的每次运行都会产出更高信噪比的结果。
内容与研究管道会从低密度输出,变成具备自反馈、高保存率的高质量知识产品。
最重要的是,你对“如何用先进模型做事“这件事本身的理解,会上升一个完整维度。当你再用 Fable 5(或未来任何更强模型)去执行具体项目时,会明显感觉到:同样的投入,产出质量和速度都不可同日而语。
现在就开始
不要急着冲进去写新功能或构建新 agent。
先花时间,让模型帮你把“怎么用模型做事“这件事本身,升级到下一个版本——包括加上该加的,也包括删掉该删的。
打开 Claude,选择最高推理模型,让它先读你的使用记录。
把接下来一段时间,优先用来重构系统,而不是在旧系统上继续加速。
相似文章
@Khazix0918: https://x.com/Khazix0918/status/2065790596653183156
智谱发布了GLM 5.2模型,专注于Coding能力,开源且支持1M上下文。实测显示其在大型工程和代码任务上接近Claude Opus 4.8水平,但缺乏多模态能力,受限于算力导致速度较慢。文章也提及Anthropic因美国商务部要求关停Fable 5和Mythos 5的事件,突显了AI开源与封闭的对比。
@mylifcc: 用 Fable 5 做指导 + GPT 5.5 执行,是目前最聪明省钱的玩法。 我现在就在这样做,效果非常好,只要文档spec设计好,谁来执行差别不大,这样可以最大程度的放大Fable5的性价比。 核心方法: 先跟 Fable 聊一次,让…
分享一种使用Fable 5进行指导和代码审查、GPT 5.5执行的高效省钱玩法,强调通过handoff文档最大化性价比。
@AlchainHust: https://x.com/AlchainHust/status/2064676532212097418
本文详细评测了Anthropic新发布的Claude Fable 5模型,并展示了作者用其一天内开发Mac App'翻箱'的过程。模型在代码生成和稳定性上有显著提升。
@yibie: 推荐这篇文章,Superpowers 的作者让 Fable 5 跑了一个完整的 autoresearch loop——25 个实验,$165,把构建速度提高了 50%、token 开销降低了 60%。但这篇最值钱的不是结果数字,是他完整记…
Superpowers 6 发布,利用 Fable 5 进行 25 个自治实验,将构建速度提高 50%、token 开销降低 60%,并详细记录了实验过程和失败教训。
@FakeMaidenMaker: https://x.com/FakeMaidenMaker/status/2055146731625447516
本文深入探讨Harness Engineering概念,指出裸模型在复杂工程任务中完成率为0%,而通过分层上下文管理、合理工具编排和任务结构化等工程基础设施,可大幅提升AI编码效率,使小团队也能构建生产级软件。文章提供了5个核心维度的实践指南。