Claude Fable 5 蒸馏版

Reddit r/LocalLLaMA 2026/06/16 01:21 模型

open-weights agentic coding distillation mixture-of-experts tool-use reasoning

摘要

Qwable-v1 是一个开放权重的代理编码模型（35B MoE，3B 活跃参数），通过串联来自 Claude Opus 4.7 推理和 Claude Fable-5 代理工具使用轨迹的蒸馏构建。它能够显式思考 CoT 链，并在提示时充当类似 Claude-Code 风格的代理。

发布 Qwable-v1——一款开放权重的 Qwen3.6-35B-A3B 模型，从 Claude Fable-5 蒸馏而来。Claude Fable-5 是 Anthropic 的 Mythos 级预览模型，曾在全球范围内短暂公开约 4 天（2026-06-09 至 2026-06-12），随后因美国出口管制指令被暂停。Fable-5 是 Anthropic 当时发布的最强模型——SWE-bench Pro 得分 80.3%，输出定价 $50/M tokens，API 中内置了抗蒸馏分类器，可实时屏蔽思考块。Qwable-v1 保留了幸存的内容：4,659 条明文代理编码轨迹（从 Glint-Research/Fable-5-traces 重新打包，这是唯一一个 CoT 通过审核的公开语料库），在单张 H200 上约 14 小时蒸馏到 Qwen3.6 上。给定代理系统提示后，该模型会输出格式正确的 <tool\_use> XML，调用实际的 Claude 风格工具，如 str\_replace\_editor——Fable 的工具接口已渗透到权重中，而不仅仅是风格。模型、GGUF（IQ4\_XS / Q4\_K\_M / Q5\_K\_M / Q8\_0）以及 SFT 数据集均已在 HF 上公开（上游采用 AGPL-3.0 许可证）。https://huggingface.co/lordx64/Qwable-v1

查看原文

查看缓存全文

缓存时间: 2026/06/16 03:07

lordx64/Qwable-v1 · Hugging Face 来源：https://huggingface.co/lordx64/Qwable-v1 > Qwen + Fable· 一个开放权重的智能体编码模型。35B 混合专家模型（3B 激活），通过在 Qwen3.6-35B-A3B 的 Claude Opus 4.7 推理蒸馏基础上叠加 Claude Fable-5 智能体工具使用行为构建。基础模型 (https://huggingface.co/lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled) 数据集 (https://huggingface.co/datasets/lordx64/agentic-distill-fable-5-sft) 许可证 (https://huggingface.co/lordx64/Qwable-v1/blob/main/LICENSE)

简要说明

TL;DR Qwable-v1 是一个链式蒸馏产物：原始 Qwen3.6-35B-A3B → 在 Claude Opus 4.7 推理轨迹上进行 SFT → 在 Claude Fable-5 智能体工具使用轨迹上进行 SFT。结果是一个开放权重的模型，具备以下特点：

思考：在显式的 ... 思维链中进行（继承自 Opus 4.7 先验）
行动：当作为智能体被提示时，表现如同 Claude-Code 风格的智能体——它会生成用于文件编辑、Shell 命令和读取操作的 {} XML 块（由 Fable-5 SFT 添加）。XML 格式是系统提示条件化的：当你给模型一个智能体风格的系统提示或提供前一轮的 {} 时，它才会出现。如果使用裸提示且没有智能体框架，模型会回退到 Opus 4.7 的推理和解释先验。参见用法 (https://huggingface.co/lordx64/Qwable-v1#usage) 了解具体方法。
在单张 H200 / 2× A100-80GB 上以 bf16 运行，或在任何 24GB+ 消费级 GPU 上以 IQ4_XS 量化运行

版本说明 — 这是 v1，计划有更多迭代

这是第一个迭代版本。我们打算随着更多公开可用的 Fable-5 清晰文本轨迹的出现而持续更新模型——每个新显现的语料库都将用于训练 Qwable-v2、Qwable-v3 等，并在每一步记录链式溯源。现实提醒：Anthropic 于 2026 年 6 月 22 日根据美国出口管制指令在全球范围内暂停了 Claude Fable-5，并且 API 在整个预览窗口内对思考块进行了编辑。已知的清晰文本来源 (Glint-Research/Fable-5-traces) 是一个冻结的历史语料库——不保证有上游增长路径。如果有新的轨迹出现（社区上传、安全合作伙伴发布或未来 Fable 解除暂停），我们会将其纳入。如果没有，v1 将保持最新。无论哪种情况，请关注此模型仓库以获取更新，或查看源代码仓库 (https://github.com/lordx64/distillation) 了解 v2+ 训练运行。

诚实的范围

此模型并非纯单教师蒸馏。它是一个链式热启动：

Qwen3.6-35B-A3B (原始, Apache 2.0)
└─SFT─▶ Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled
        └─SFT─▶ Qwable-v1 ← 您在这里

Fable-5 SFT 数据分布狭窄（一位开发者一周的 Claude Code 会话，约 5k 轮次，81% 以工具使用结束）。推理先验来自 Opus 4.7 阶段，而非 Fable-5。请据此评估和使用此模型：

纯推理（数学、科学问答、通用知识）：省略智能体系统提示或使用通用提示。底层 Opus 4.7 蒸馏在此发挥作用。Qwable-v1 不会在这些基准测试上超越它，而是会与之匹配。
智能体编码（编辑文件、运行测试、浏览代码库）：提供明确指定 {} XML 格式的智能体系统提示。Fable-5 SFT 随后在 Opus 4.7 推理基础上添加工具调用模式。这是 Qwable 优于原始 Qwen3.6 的地方。
聊天/通用助手：可以使用，但个性可能会偏向 Claude 的风格（双重 Anthropic SFT 叠加）。在合并在 2026 年 6 月 15 日使用三种提示变体验证：裸提示会生成 markdown 代码块；智能体风格系统提示会生成格式正确的 {} XML；带有先前 {} 的多轮对话会继续使用 XML。请参见局限性 (https://huggingface.co/lordx64/Qwable-v1#limitations) 了解格式细节。

盒子里装了什么

26 个 model-0000\{1..26\}-of-00026.safetensors 分片——合并的 bf16 权重（总计约 70 GB）
tokenizer.json、chat_template.jinja、config.json——Qwen3.6 聊天模板，与基础版本相同
仅适配器变体发布在 lordx64/Qwable-v1-adapter (https://huggingface.co/lordx64/Qwable-v1-adapter) 上，以支持与 Opus 4.7 基础模型的组合使用（约 50-100 MB）
GGUF 量化版本在 lordx64/Qwable-v1-GGUF (https://huggingface.co/lordx64/Qwable-v1-GGUF) 上：
- IQ4_XS（约 18 GB）——可在 24 GB 消费级 GPU（3090、4090）上运行，LM Studio 默认
- Q5_K_M（约 25 GB）——质量更好，适用于 32-48 GB 工作站
- Q8_0（约 37 GB）——近乎无损，用于可重复性检查

训练方案

设置	值
基础（热启动）	`lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled`
SFT 数据集	`lordx64/agentic-distill-fable-5-sft`（4,659 行，约 12.2M Qwen tokens，Qwen 聊天模板中的单 `text` 列）
库	Unsloth (https://github.com/unslothai/unsloth) `FastLanguageModel` + TRL `SFTTrainer`
LoRA	r=16, alpha=16, 仅注意力层（`q_proj, k_proj, v_proj, o_proj`），dropout 0.0
损失掩码	`train_on_responses_only`（梯度仅流经助手轮次，包括 `...` 块）
序列长度	4096 tokens
周期数	2
有效批次大小	16（每设备 1 × 梯度累积 16）
优化器	AdamW 8-bit, 余弦学习率, 3% 预热, 权重衰减 0.01
学习率	2e-5
精度	bf16 前向 + LoRA 参数
随机种子	3407
硬件	1× nvidia-h200 x1 (141 GB) 在 AWS ap-northeast-2 上通过 HF Inference Endpoints
总优化步数	582（4,648 示例 × 2 周期 ÷ 有效批次 16；4,659 中的 11 行在准备期间因标签全掩码而被丢弃）
墙钟时间	实际 14.1 小时（预计约 7-8 小时——见下方说明）
成本	约 $70（$ 5/小时）
最终损失	最后一步 0.804；最后 20 步平均 0.7956
最终保存	通过 Unsloth 的 `merged_16bit`
训练脚本位于源代码仓库 (https://github.com/lordx64/distillation) 的 `training/train.py`；提交器为 `training/endpoint/deploy_fable.py`。两者均复用自原始 Opus 4.7 / Kimi K2.6 蒸馏流程（带有特定任务的配置）。

训练说明——比预计慢

运行耗时约 14 小时，而非预计的约 7-8 小时。根本原因：HF Inference Endpoint 容器中的 flash-linear-attention + causal-conv1d 构建未针对运行时 CUDA 工具包编译，因此 Qwen3.6 的 GatedDeltaNet 层回退到 PyTorch 参考实现（启动日志中注明“快速路径不可用，因为未安装所需的库。回退到 torch 实现。”）。回退路径在数学上是相同的——损失/收敛不受影响——但这些层慢约 2-3 倍。全上下文下的步速率约为 83 秒/步，而非烟雾测试暗示的约 36 秒/步。这是已知的工具链问题（Hopper SM_90 + CUDA 12.6 + Triton 3.3.1）。解决方法是在 training/endpoint/requirements.txt 中预构建兼容的 fla / causal-conv1d / triton 轮子。我们留待 v2 解决——速度减慢是诚实的，模型相同，成本（约 $70）对于在 H200 速率下进行 35B 蒸馏来说仍然非常合理。

数据集溯源

SFT 数据集 (lordx64/agentic-distill-fable-5-sft) 是 Glint-Research/Fable-5-traces (https://huggingface.co/datasets/Glint-Research/Fable-5-traces) 的重格式化衍生物。溯源链：

TeichAI ────── 收集了 953 个原始 Claude Code 会话轨迹，针对 Anthropic 的 Claude Fable-5 预览 API
               │（大约在 2026 年 6 月 10 日至 2026 年 6 月 22 日之间，在 Anthropic 根据美国出口管制指令
               │ 全球暂停 Fable-5 之前）
               ▼
Glint-Research ────── 将思维链推理提取到每轮次的 `cot` 字段中
               │（事后添加；底层的 Anthropic API 在 Fable-5 预览上通过仅签名传递编辑了清晰文本思考块）
               ▼
lordx64/agentic- ────── 重格式化为 Qwen 聊天模板，将 `...` / `{}` XML 分布式蒸馏 inline 序列化，
distill-fable-5-sft   │ 通过用户内容的 SHA-256 去重，清除密钥（上游会话 JSONL 中的 204 个活动 Groq API 密钥已删除）
               ▼
Qwable-v1 ────── 在 Opus 4.7 蒸馏基础上进行 SFT（此模型）

组成：4,659 行，约 12.2M Qwen tokens。

3,793 行（81%）以工具调用结尾（Read / Write / Edit / Bash / PowerShell / WebFetch / MCP Claude_Preview 工具）
866 行（19%）以纯文本响应结尾内容领域：Web/游戏开发、Three.js 场景、多玩家 FPS 原型、流体模拟、Express 服务器工作以及 Transformer 训练脚本。范围狭窄——这基本上是一位开发者的 Claude Code 历史记录，加上一架波音 747 轨迹，以及各种预览工具会话。

评估

🚧**评估正在进行中。**此表格将在每个测试套件完成后填充；在验证之前，此处不发布任何内容。 | 基准测试 | 设置 | 测试内容 | 分数 | 状态 | |—|—|—|—|—| | GSM8K-CoT | 8-shot, 多轮, 限制 300 | 小学级数学；验证推理先验在第二轮 SFT 中得到保留 | 待定 | 🚧 进行中 | | MMLU-Pro | 5-shot, 多轮, 限制 500 | 硬多学科知识推理 | 待定 | 🚧 进行中 | | MMLU-Pro (按学科) | 同上 | 生物学/数学/心理学等细分 | 待定 | 🚧 进行中 | | GPQA Diamond | 0-shot CoT | 研究生级 STEM | 待定 | 🚧 进行中 | | MATH-500 | 0-shot, math_verify 指标 | 竞赛数学；测试推理深度 | 待定 | 🚧 进行中 | | AIME 2024 / 2025 | 0-shot CoT | 奥林匹克级数学；答案提取敏感性 | 待定 | 🚧 进行中 | | HumanEval / MBPP | pass@1 / pass@10 | 纯代码补全（非智能体基线） | 待定 | 🚧 进行中 | | IFEval | 0-shot | 指令遵循程度 | 待定 | 🚧 进行中 | | SWE-bench Lite (或 BCB-Hard) | 使用智能体框架 + 工具注册表 | 关键测试：智能体编码能力 vs Opus 4.7 基础模型 | 待定 | 🚧 进行中 | | qwen3-6-distill-eval Space | 17 个正面比较提示（12 个设计 + 5 个智能体） | 与 Qwen3.6 基础模型、Opus 4.7、Kimi K2.6 蒸馏的并排定性比较，输出人类可读 HTML | 待定 | 🚧 进行中 | 采用的方法论（与本项目中 Opus 4.7 / Kimi K2.6 评估相同）：

vLLM 服务，64k 上下文，确保推理链在回答前不会被截断
在正则提取器运行前移除 ...（否则提取器会获取推理内部的字母/数字，而非最终答案）
每个任务单独设置 num_fewshot（lm-eval 的单一全局值无法同时处理 GSM8K-8shot 和 GPQA-0shot）
fewshot_as_multiturn=True，以保证聊天模板的保真度
使用 math_verify 指标处理 MATH-500 和 AIME（可捕获语义等价；原始 strict-match 针对 \boxed{N} 会返回 0%，即使答案正确，因为模型输出 **Answer: N**）本项目的固定规则：在验证之前，数字保持空白。如果某个基准测试遇到无法干净修复的已知提取错误，行中会说明原因，我们省略分数而非发布误导性信息。

用法

Transformers（完整 bf16，约 70 GB）

重要：Qwable-v1 仅在作为智能体提示时才可靠地生成 {} XML。请使用明确请求 XML 格式的系统提示（见下文）。

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

tok = AutoTokenizer.from_pretrained("lordx64/Qwable-v1")
model = AutoModelForCausalLM.from_pretrained(
    "lordx64/Qwable-v1",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

SYSTEM = (
    "You are a coding agent. When you need to read, write, edit, or run code, "
    "emit XML tool calls in this exact format:\n"
    '{"...": "..."}\n\n'
    "Do NOT respond with markdown code blocks. Always use XML."
)

messages = [
    {"role": "system", "content": SYSTEM},
    {"role": "user", "content": "Read /tmp/server.py and tell me what port it listens on."},
]

inputs = tok.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
out = model.generate(inputs, max_new_tokens=2048, temperature=0.6, top_p=0.9)
print(tok.decode(out[0][inputs.shape[1]:], skip_special_tokens=False))

输出以 ... 开头，后跟一个 {json} 块。没有系统提示时，Qwable-v1 会回退到 Opus 4.7 推理先验（markdown 代码块）——可用但不具智能体特性。对于纯推理（数学、科学、一般问答），省略系统提示或使用通用提示 "You are a helpful AI assistant."——模型将像底层的 Opus 4.7 蒸馏一样生成推理和文本答案。

vLLM 服务

vllm serve lordx64/Qwable-v1 \
    --max-model-len 16384 \
    --tensor-parallel-size 2 \
    --trust-remote-code

llama.cpp / LM Studio（GGUF）

# 对于 24 GB VRAM 选择 IQ4_XS，32-48 GB 选择 Q5_K_M，64+ GB 选择 Q8_0
llama-cli -m Qwable-v1-IQ4_XS.gguf -p "Read /tmp/server.py and find the port..."

仅适配器（组合在 Opus 4.7 蒸馏之上）

如果您已经加载了 Opus 4.7 蒸馏：

from peft import PeftModel

base = AutoModelForCausalLM.from_pretrained(
    "lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
model = PeftModel.from_pretrained(base, "lordx64/Qwable-v1-adapter")

工具使用格式

Fable-5 SFT 数据使用自定义 XML 信封进行工具调用，而非 Qwen 的原生 `` token 格式。正确引发的输出如下所示：

...The user wants me to change the port from 8000 to 8080. I should Read the file first to see the current configuration, then Edit it. { "file_path": "/tmp/server.py" }

工具结果以如下格式返回：

{file contents}

可靠地引发格式

两种方式可一致产生 XML 格式： 1. 智能体系统提示——最简单，单次即可生效：

system: You are a coding agent. When you need to read, write, edit, or run code, emit XML tool calls in this exact format: {"...": "..."} Do NOT respond with markdown code blocks. Always use XML.

2. 多轮对话——提供前一轮的 {}，模型会在后续对话中继续使用 XML，无需系统提示。缺少两者时，Qwable-v1 会回退到 Opus 4.7 先验，并用 markdown 代码块解释修复方法。该格式已被学习（经烟雾测试和全运行抽查验证）；它只会在对话分布看起来像智能体场景时出现。

工具名称未绑定到 Claude Code 目录

训练数据使用了 Claude Code 的工具名称（Read、Edit、Bash、WebFetch、mcp__* 等）。合并后的模型会生成合理但自创的名称，如 read_file、Replace、write_file。XML 信封已迁移；但词汇未绑定。下游消费者通常会自行定义工具注册表，因此这很少成为问题——但任何按精确工具名称路由调用的系统都需要一个归一化器（例如 read_file → Read）。

原生 Qwen 工具调用

此格式与聊天模板无关，可通过一个小的正则表达式解析。希望使用原生 Qwen JSON 调用的下游消费者将需要

Claude Fable 5 蒸馏版

简要说明

版本说明 — 这是 v1，计划有更多迭代

诚实的范围

盒子里装了什么

训练方案

训练说明——比预计慢

数据集溯源

评估

用法

Transformers（完整 bf16，约 70 GB）

vLLM 服务

llama.cpp / LM Studio（GGUF）

仅适配器（组合在 Opus 4.7 蒸馏之上）

工具使用格式

可靠地引发格式

工具名称未绑定到 Claude Code 目录

原生 Qwen 工具调用

相似文章

@PrajwalTomar_: Claude Fable 5 刚刚发布，所有人都在争相自主运行它。Claude Code的创建者已经展示了…

hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

Claude Fable 具有不懈的主动性

Claude Fable 令人难以置信

Claude Fable 5 的初步印象

提交意见反馈