Claude Fable 5 蒸馏版

Reddit r/LocalLLaMA 模型

摘要

Qwable-v1 是一个开放权重的代理编码模型(35B MoE,3B 活跃参数),通过串联来自 Claude Opus 4.7 推理和 Claude Fable-5 代理工具使用轨迹的蒸馏构建。它能够显式思考 CoT 链,并在提示时充当类似 Claude-Code 风格的代理。

发布 Qwable-v1——一款开放权重的 Qwen3.6-35B-A3B 模型,从 Claude Fable-5 蒸馏而来。Claude Fable-5 是 Anthropic 的 Mythos 级预览模型,曾在全球范围内短暂公开约 4 天(2026-06-09 至 2026-06-12),随后因美国出口管制指令被暂停。Fable-5 是 Anthropic 当时发布的最强模型——SWE-bench Pro 得分 80.3%,输出定价 $50/M tokens,API 中内置了抗蒸馏分类器,可实时屏蔽思考块。Qwable-v1 保留了幸存的内容:4,659 条明文代理编码轨迹(从 Glint-Research/Fable-5-traces 重新打包,这是唯一一个 CoT 通过审核的公开语料库),在单张 H200 上约 14 小时蒸馏到 Qwen3.6 上。给定代理系统提示后,该模型会输出格式正确的 <tool\_use> XML,调用实际的 Claude 风格工具,如 str\_replace\_editor——Fable 的工具接口已渗透到权重中,而不仅仅是风格。模型、GGUF(IQ4\_XS / Q4\_K\_M / Q5\_K\_M / Q8\_0)以及 SFT 数据集均已在 HF 上公开(上游采用 AGPL-3.0 许可证)。https://huggingface.co/lordx64/Qwable-v1
查看原文
查看缓存全文

缓存时间: 2026/06/16 03:07

lordx64/Qwable-v1 · Hugging Face 来源:https://huggingface.co/lordx64/Qwable-v1 > Qwen + Fable· 一个开放权重的智能体编码模型。35B 混合专家模型(3B 激活),通过在 Qwen3.6-35B-A3B 的 Claude Opus 4.7 推理蒸馏基础上叠加 Claude Fable-5 智能体工具使用行为构建。基础模型 (https://huggingface.co/lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled) 数据集 (https://huggingface.co/datasets/lordx64/agentic-distill-fable-5-sft) 许可证 (https://huggingface.co/lordx64/Qwable-v1/blob/main/LICENSE)

简要说明

TL;DR Qwable-v1 是一个链式蒸馏产物:原始 Qwen3.6-35B-A3B → 在 Claude Opus 4.7 推理轨迹上进行 SFT → 在 Claude Fable-5 智能体工具使用轨迹上进行 SFT。结果是一个开放权重的模型,具备以下特点:

  • 思考:在显式的 ... 思维链中进行(继承自 Opus 4.7 先验)
  • 行动:当作为智能体被提示时,表现如同 Claude-Code 风格的智能体——它会生成用于文件编辑、Shell 命令和读取操作的 {} XML 块(由 Fable-5 SFT 添加)。XML 格式是系统提示条件化的:当你给模型一个智能体风格的系统提示或提供前一轮的 {} 时,它才会出现。如果使用裸提示且没有智能体框架,模型会回退到 Opus 4.7 的推理和解释先验。参见用法 (https://huggingface.co/lordx64/Qwable-v1#usage) 了解具体方法。
  • 在单张 H200 / 2× A100-80GB 上以 bf16 运行,或在任何 24GB+ 消费级 GPU 上以 IQ4_XS 量化运行

版本说明 — 这是 v1,计划有更多迭代

这是第一个迭代版本。我们打算随着更多公开可用的 Fable-5 清晰文本轨迹的出现而持续更新模型——每个新显现的语料库都将用于训练 Qwable-v2Qwable-v3 等,并在每一步记录链式溯源。现实提醒:Anthropic 于 2026 年 6 月 22 日根据美国出口管制指令在全球范围内暂停了 Claude Fable-5,并且 API 在整个预览窗口内对思考块进行了编辑。已知的清晰文本来源 (Glint-Research/Fable-5-traces) 是一个冻结的历史语料库——不保证有上游增长路径。如果有新的轨迹出现(社区上传、安全合作伙伴发布或未来 Fable 解除暂停),我们会将其纳入。如果没有,v1 将保持最新。无论哪种情况,请关注此模型仓库以获取更新,或查看源代码仓库 (https://github.com/lordx64/distillation) 了解 v2+ 训练运行。

诚实的范围

此模型并非纯单教师蒸馏。它是一个链式热启动:

Qwen3.6-35B-A3B (原始, Apache 2.0)
└─SFT─▶ Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled
        └─SFT─▶ Qwable-v1 ← 您在这里

Fable-5 SFT 数据分布狭窄(一位开发者一周的 Claude Code 会话,约 5k 轮次,81% 以工具使用结束)。推理先验来自 Opus 4.7 阶段,而非 Fable-5。请据此评估和使用此模型:

  • 纯推理(数学、科学问答、通用知识):省略智能体系统提示或使用通用提示。底层 Opus 4.7 蒸馏在此发挥作用。Qwable-v1 不会在这些基准测试上超越它,而是会与之匹配。
  • 智能体编码(编辑文件、运行测试、浏览代码库):提供明确指定 {} XML 格式的智能体系统提示。Fable-5 SFT 随后在 Opus 4.7 推理基础上添加工具调用模式。这是 Qwable 优于原始 Qwen3.6 的地方。
  • 聊天/通用助手:可以使用,但个性可能会偏向 Claude 的风格(双重 Anthropic SFT 叠加)。在合并在 2026 年 6 月 15 日使用三种提示变体验证:裸提示会生成 markdown 代码块;智能体风格系统提示会生成格式正确的 {} XML;带有先前 {} 的多轮对话会继续使用 XML。请参见局限性 (https://huggingface.co/lordx64/Qwable-v1#limitations) 了解格式细节。

盒子里装了什么

  • 26 个 model-0000\{1..26\}-of-00026.safetensors 分片——合并的 bf16 权重(总计约 70 GB)
  • tokenizer.jsonchat_template.jinjaconfig.json——Qwen3.6 聊天模板,与基础版本相同
  • 仅适配器变体发布在 lordx64/Qwable-v1-adapter (https://huggingface.co/lordx64/Qwable-v1-adapter) 上,以支持与 Opus 4.7 基础模型的组合使用(约 50-100 MB)
  • GGUF 量化版本在 lordx64/Qwable-v1-GGUF (https://huggingface.co/lordx64/Qwable-v1-GGUF) 上:
    • IQ4_XS(约 18 GB)——可在 24 GB 消费级 GPU(3090、4090)上运行,LM Studio 默认
    • Q5_K_M(约 25 GB)——质量更好,适用于 32-48 GB 工作站
    • Q8_0(约 37 GB)——近乎无损,用于可重复性检查

训练方案

设置
基础(热启动)lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled
SFT 数据集lordx64/agentic-distill-fable-5-sft(4,659 行,约 12.2M Qwen tokens,Qwen 聊天模板中的单 text 列)
Unsloth (https://github.com/unslothai/unsloth) FastLanguageModel + TRL SFTTrainer
LoRAr=16, alpha=16, 仅注意力层(q_proj, k_proj, v_proj, o_proj),dropout 0.0
损失掩码train_on_responses_only(梯度仅流经助手轮次,包括 ... 块)
序列长度4096 tokens
周期数2
有效批次大小16(每设备 1 × 梯度累积 16)
优化器AdamW 8-bit, 余弦学习率, 3% 预热, 权重衰减 0.01
学习率2e-5
精度bf16 前向 + LoRA 参数
随机种子3407
硬件1× nvidia-h200 x1 (141 GB) 在 AWS ap-northeast-2 上通过 HF Inference Endpoints
总优化步数582(4,648 示例 × 2 周期 ÷ 有效批次 16;4,659 中的 11 行在准备期间因标签全掩码而被丢弃)
墙钟时间实际 14.1 小时(预计约 7-8 小时——见下方说明)
成本**约 70**(5/小时)
最终损失最后一步 0.804;最后 20 步平均 0.7956
最终保存通过 Unsloth 的 merged_16bit
训练脚本位于源代码仓库 (https://github.com/lordx64/distillation) 的 training/train.py;提交器为 training/endpoint/deploy_fable.py。两者均复用自原始 Opus 4.7 / Kimi K2.6 蒸馏流程(带有特定任务的配置)。

训练说明——比预计慢

运行耗时约 14 小时,而非预计的约 7-8 小时。根本原因:HF Inference Endpoint 容器中的 flash-linear-attention + causal-conv1d 构建未针对运行时 CUDA 工具包编译,因此 Qwen3.6 的 GatedDeltaNet 层回退到 PyTorch 参考实现(启动日志中注明“快速路径不可用,因为未安装所需的库。回退到 torch 实现。”)。回退路径在数学上是相同的——损失/收敛不受影响——但这些层慢约 2-3 倍。全上下文下的步速率约为 83 秒/步,而非烟雾测试暗示的约 36 秒/步。这是已知的工具链问题(Hopper SM_90 + CUDA 12.6 + Triton 3.3.1)。解决方法是在 training/endpoint/requirements.txt 中预构建兼容的 fla / causal-conv1d / triton 轮子。我们留待 v2 解决——速度减慢是诚实的,模型相同,成本(约 $70)对于在 H200 速率下进行 35B 蒸馏来说仍然非常合理。

数据集溯源

SFT 数据集 (lordx64/agentic-distill-fable-5-sft) 是 Glint-Research/Fable-5-traces (https://huggingface.co/datasets/Glint-Research/Fable-5-traces) 的重格式化衍生物。溯源链:

TeichAI ────── 收集了 953 个原始 Claude Code 会话轨迹,针对 Anthropic 的 Claude Fable-5 预览 API
               │(大约在 2026 年 6 月 10 日至 2026 年 6 月 22 日之间,在 Anthropic 根据美国出口管制指令
               │ 全球暂停 Fable-5 之前)
               ▼
Glint-Research ────── 将思维链推理提取到每轮次的 `cot` 字段中
               │(事后添加;底层的 Anthropic API 在 Fable-5 预览上通过仅签名传递编辑了清晰文本思考块)
               ▼
lordx64/agentic- ────── 重格式化为 Qwen 聊天模板,将 `...` / `{}` XML 分布式蒸馏 inline 序列化,
distill-fable-5-sft   │ 通过用户内容的 SHA-256 去重,清除密钥(上游会话 JSONL 中的 204 个活动 Groq API 密钥已删除)
               ▼
Qwable-v1 ────── 在 Opus 4.7 蒸馏基础上进行 SFT(此模型)

组成:4,659 行,约 12.2M Qwen tokens。

  • 3,793 行(81%)以工具调用结尾(Read / Write / Edit / Bash / PowerShell / WebFetch / MCP Claude_Preview 工具)
  • 866 行(19%)以纯文本响应结尾 内容领域:Web/游戏开发、Three.js 场景、多玩家 FPS 原型、流体模拟、Express 服务器工作以及 Transformer 训练脚本。范围狭窄——这基本上是一位开发者的 Claude Code 历史记录,加上一架波音 747 轨迹,以及各种预览工具会话。

评估

🚧**评估正在进行中。**此表格将在每个测试套件完成后填充;在验证之前,此处不发布任何内容。 | 基准测试 | 设置 | 测试内容 | 分数 | 状态 | |—|—|—|—|—| | GSM8K-CoT | 8-shot, 多轮, 限制 300 | 小学级数学;验证推理先验在第二轮 SFT 中得到保留 | 待定 | 🚧 进行中 | | MMLU-Pro | 5-shot, 多轮, 限制 500 | 硬多学科知识推理 | 待定 | 🚧 进行中 | | MMLU-Pro (按学科) | 同上 | 生物学/数学/心理学等细分 | 待定 | 🚧 进行中 | | GPQA Diamond | 0-shot CoT | 研究生级 STEM | 待定 | 🚧 进行中 | | MATH-500 | 0-shot, math_verify 指标 | 竞赛数学;测试推理深度 | 待定 | 🚧 进行中 | | AIME 2024 / 2025 | 0-shot CoT | 奥林匹克级数学;答案提取敏感性 | 待定 | 🚧 进行中 | | HumanEval / MBPP | pass@1 / pass@10 | 纯代码补全(非智能体基线) | 待定 | 🚧 进行中 | | IFEval | 0-shot | 指令遵循程度 | 待定 | 🚧 进行中 | | SWE-bench Lite (或 BCB-Hard) | 使用智能体框架 + 工具注册表 | 关键测试:智能体编码能力 vs Opus 4.7 基础模型 | 待定 | 🚧 进行中 | | qwen3-6-distill-eval Space | 17 个正面比较提示(12 个设计 + 5 个智能体) | 与 Qwen3.6 基础模型、Opus 4.7、Kimi K2.6 蒸馏的并排定性比较,输出人类可读 HTML | 待定 | 🚧 进行中 | 采用的方法论(与本项目中 Opus 4.7 / Kimi K2.6 评估相同):

  • vLLM 服务,64k 上下文,确保推理链在回答前不会被截断
  • 在正则提取器运行前移除 ...(否则提取器会获取推理内部的字母/数字,而非最终答案)
  • 每个任务单独设置 num_fewshot(lm-eval 的单一全局值无法同时处理 GSM8K-8shot 和 GPQA-0shot)
  • fewshot_as_multiturn=True,以保证聊天模板的保真度
  • 使用 math_verify 指标处理 MATH-500AIME(可捕获语义等价;原始 strict-match 针对 \boxed{N} 会返回 0%,即使答案正确,因为模型输出 **Answer: N**) 本项目的固定规则:在验证之前,数字保持空白。如果某个基准测试遇到无法干净修复的已知提取错误,行中会说明原因,我们省略分数而非发布误导性信息。

用法

Transformers(完整 bf16,约 70 GB)

重要:Qwable-v1 仅在作为智能体提示时才可靠地生成 {} XML。请使用明确请求 XML 格式的系统提示(见下文)。

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

tok = AutoTokenizer.from_pretrained("lordx64/Qwable-v1")
model = AutoModelForCausalLM.from_pretrained(
    "lordx64/Qwable-v1",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

SYSTEM = (
    "You are a coding agent. When you need to read, write, edit, or run code, "
    "emit XML tool calls in this exact format:\n"
    '{"...": "..."}\n\n'
    "Do NOT respond with markdown code blocks. Always use XML."
)

messages = [
    {"role": "system", "content": SYSTEM},
    {"role": "user", "content": "Read /tmp/server.py and tell me what port it listens on."},
]

inputs = tok.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
out = model.generate(inputs, max_new_tokens=2048, temperature=0.6, top_p=0.9)
print(tok.decode(out[0][inputs.shape[1]:], skip_special_tokens=False))

输出以 ... 开头,后跟一个 {json} 块。没有系统提示时,Qwable-v1 会回退到 Opus 4.7 推理先验(markdown 代码块)——可用但不具智能体特性。对于纯推理(数学、科学、一般问答),省略系统提示或使用通用提示 "You are a helpful AI assistant."——模型将像底层的 Opus 4.7 蒸馏一样生成推理和文本答案。

vLLM 服务

vllm serve lordx64/Qwable-v1 \
    --max-model-len 16384 \
    --tensor-parallel-size 2 \
    --trust-remote-code

llama.cpp / LM Studio(GGUF)

# 对于 24 GB VRAM 选择 IQ4_XS,32-48 GB 选择 Q5_K_M,64+ GB 选择 Q8_0
llama-cli -m Qwable-v1-IQ4_XS.gguf -p "Read /tmp/server.py and find the port..."

仅适配器(组合在 Opus 4.7 蒸馏之上)

如果您已经加载了 Opus 4.7 蒸馏:

from peft import PeftModel

base = AutoModelForCausalLM.from_pretrained(
    "lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
model = PeftModel.from_pretrained(base, "lordx64/Qwable-v1-adapter")

工具使用格式

Fable-5 SFT 数据使用自定义 XML 信封进行工具调用,而非 Qwen 的原生 `` token 格式。正确引发的输出如下所示:

...The user wants me to change the port from 8000 to 8080. I should Read the file first to see the current configuration, then Edit it. { "file_path": "/tmp/server.py" }

工具结果以如下格式返回:

{file contents}

可靠地引发格式

两种方式可一致产生 XML 格式: 1. 智能体系统提示——最简单,单次即可生效:

system: You are a coding agent. When you need to read, write, edit, or run code, emit XML tool calls in this exact format: {"...": "..."} Do NOT respond with markdown code blocks. Always use XML.

2. 多轮对话——提供前一轮的 {},模型会在后续对话中继续使用 XML,无需系统提示。 缺少两者时,Qwable-v1 会回退到 Opus 4.7 先验,并用 markdown 代码块解释修复方法。该格式已被学习(经烟雾测试和全运行抽查验证);它只会在对话分布看起来像智能体场景时出现。

工具名称未绑定到 Claude Code 目录

训练数据使用了 Claude Code 的工具名称(ReadEditBashWebFetchmcp__* 等)。合并后的模型会生成合理但自创的名称,如 read_fileReplacewrite_file。XML 信封已迁移;但词汇未绑定。下游消费者通常会自行定义工具注册表,因此这很少成为问题——但任何按精确工具名称路由调用的系统都需要一个归一化器(例如 read_fileRead)。

原生 Qwen 工具调用

此格式与聊天模板无关,可通过一个小的正则表达式解析。希望使用原生 Qwen JSON 调用的下游消费者将需要

相似文章

Claude Fable 具有不懈的主动性

Hacker News Top

文章描述了 Claude Fable 5(一款AI模型)如何通过自主使用浏览器自动化、Shell命令和自定义脚本调试UI问题,展现出不懈的主动性,展示了先进的工具使用能力。

Claude Fable 令人难以置信

Reddit r/ArtificialInteligence

Claude Code Fable 5 让没有编码知识的用户也能在几分钟内构建功能完善的网页应用。

Claude Fable 5 的初步印象

Simon Willison's Blog

Anthropic 已发布 Claude Fable 5 和 Claude Mythos 5,两者均提供 100 万 token 的上下文窗口,价格则是 Opus 4.8 的两倍。Fable 5 配备了严格的安全护栏,而 Mythos 5 则没有。初步印象认为它是一款强大且能力出众的模型。