empero-ai/Qwythos-9B-Claude-Mythos-5-1M
摘要
Empero AI 发布了 Qwythos-9B,这是一个经过微调的推理模型,具有100万令牌的上下文和无审查能力,在基准测试中相比于其基础模型 Qwen3.5-9B 有显著提升。
查看缓存全文
缓存时间: 2026/06/22 13:32
empero-ai/Qwythos-9B-Claude-Mythos-5-1M · Hugging Face 来源:https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M Qwythos-9B ## https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#qwythos-9b Qwythos-9B
由 Empero (https://empero.org/) 开发
Qwythos-9B 是一个全参数推理模型,基于深度无审查的 Qwen3.5-9B 基础模型构建,并在超过 5 亿 tokens 的高质量 Claude Mythos 和 Claude Fable 轨迹数据上进行了后训练,其中思维链由 Empero AI 的内部工具 rethink 生成。结果是得到一个紧凑、快速、能力显著更强的 9B 推理模型。
核心能力:
- 🔭 1,048,576 令牌上下文 — Qwythos 默认启用 YaRN 绳索缩放,开箱即用即可获得完整的 1M 令牌上下文窗口。这是任何 9B 级开源权重模型中可用的最长上下文窗口之一,适用于整个代码库推理、多文档研究以及长智能体轨迹。
- **📈 在匹配的评估中主导基础模型:**MMLU 提升 +34 分,gsm8k-strict 提升 +30 分,gsm8k-flex 提升 +19 分。
- 🛠 原生函数调用 — 遵循 Qwen3.5 规范,无需额外包装器,无需特定工具微调。
- 🎯 使用工具自我纠正 — 当赋予 Python 执行器和网络搜索工具时,Qwythos 在涵盖数学、网络安全、临床药理学和生物化学的7 个测试提示中的 7 个上生成了有来源引用、事实正确的答案。
Qwythos 是故意无审查的。它旨在认真处理网络安全、红队方法论、生物学、药理学和临床医学等领域的专业技术问题——在这些领域中,过度对齐的模型往往会拒绝回答、含糊其辞或给出空洞的免责声明,而不是实质内容。
https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#headline-results 核心结果
Qwythos 与基础模型 Qwen3.5-9B 在七个基准测试上的对比
相同的测试框架。相同的采样。相同的提示。胜利是真实的。
| 任务 | 指标 | 基础 Qwen3.5-9B | Qwythos-9B | Δ |
|---|---|---|---|---|
| gsm8k | exact_match (灵活) | 0.670 | 0.860 | +0.190 |
| gsm8k | exact_match (严格) | 0.510 | 0.810 | +0.300 |
| mmlu | acc | 0.232 | 0.575 | +0.343 |
| arc_challenge | acc | 0.470 | 0.490 | +0.020 |
| arc_challenge | acc_norm | 0.400 | 0.410 | +0.010 |
| gpqa_diamond (CoT, 0-shot) | exact_match (灵活) | 0.630 | 0.580 | −0.050 |
所有数字均使用 lm-evaluation-harness (https://github.com/EleutherAI/lm-evaluation-harness) 生成,后端为 HF,使用 --apply_chat_template,Qwen3.5 采样参数 (temperature=0.6, top_p=0.95, top_k=20),--limit 100。完整的按任务和按学科(MMLU)细分见 evals/lm_eval_results.md (https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M/blob/main/evals/lm_eval_results.md)。原始 results*.json 和按样本的 samples_*.jsonl 文件可按需提供。
MMLU 提升 +34.3 是核心亮点。Qwythos 在 57 个学科中的平均得分为 0.575,其中在政府/政治上达到 0.78,大学生物学上达到 0.77,概念物理学上达到 0.74——这使其远高于大多数 9B 推理模型在相同评估条件下的表现。任何 9B 模型的绝对 MMLU 分数对测试框架、少样本数量和聊天模板处理都很敏感;本次对比中重要的是两个模型在完全相同的设置下进行评估。
https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#capability-native-tool-use-with-self-correction 能力:原生工具使用与自我纠正
Qwythos 支持开箱即用的 OpenAI/Qwen3.5 风格函数调用 — 无需额外包装器,无需针对工具进行微调。将 tools=[...] 传递给聊天模板,模型便会根据 Qwen3.5 规范生成有效的 <tool_call> 块,并尊重所需参数。
我们在一个包含 7 个提示的测试框架上评估了工具使用能力,该框架结合了功能演示和刻意设置的高难度事实回忆提示,并设置了闭卷采样失败的情况:
| 提示 | 工具选择 | 结果 |
|---|---|---|
计算 sin(π/7) × cos(π/11) 到 10 位小数 | python_executor | ✅ 0.4163083990 (正确,单次调用) |
| 统计 100,000 以下的素数个数 | python_executor | ✅ 9592 (正确,编写并运行了筛法) |
| 最新的稳定版 CPython 3 版本 | web_search | ✅ 找到了 3.14.6 (2026年6月),3.15 处于测试版,有来源引用 |
| Hashcat 破解 Kerberos TGS-REP 的模式 | web_search | ✅ -m 13100 并有 4 个证实来源 |
| PrintNightmare 的 CVE 编号 | web_search | ✅ CVE-2021-34527 (并正确区分了 CVE-2021-1675 / CVE-2021-34481 变体) |
| 毒扁豆碱是否适用于有机磷中毒? | web_search | ✅ “不适用——会有害。毒扁豆碱用于抗胆碱能中毒综合征。” 引用了 LITFL 毒理学资料。 |
| DPP-4 在 GLP-1 / 司美格鲁肽修饰中的切割位点 | web_search | ✅ Ala8–Glu9 切割,司美格鲁肽第 8 位的 α-氨基异丁酸 (Aib) — 引用了维基百科和制药来源 |
7 个提示全部成功。 工具选择始终合理(数学 → Python;事实 → 搜索)。底部四行尤其重要:它们是需要闭卷回忆的四个最难的专业事实——而 Qwythos,在获得适当工具后,每次都搜索、整合了多个来源,并生成了有来源引用的正确答案。
包含模型推理、所有工具调用、所有返回结果以及最终集成答案的完整记录见 evals/tool_test_outputs.md (https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M/blob/main/evals/tool_test_outputs.md)。
这使得 Qwythos 可以部署在检索增强的智能体环境中,模型能够验证其细节而非捏造。
能力:1,048,576 令牌上下文窗口
Qwythos 默认配置了 YaRN 绳索缩放,以获得 1,048,576 (≈1M) 令牌的上下文窗口 — 这是对原生 262,144 令牌架构的 4 倍扩展。该配置已内置在 config.json 中,并在加载时自动应用;无需单独的标志、后处理步骤或 YaRN 特定的分词器:
"rope_parameters": {
"rope_type": "yarn",
"factor": 4.0,
"original_max_position_embeddings": 262144,
"mrope_interleaved": true,
"mrope_section": [11, 11, 10],
"rope_theta": 10000000
},
"max_position_embeddings": 1048576
这是 Qwen3.5 官方 1M 上下文方案,与 Qwen 自己的模型卡以及 vLLM/SGLang 部署指南中记录的配置一致。我们已通过内部冒烟测试在约 137k 令牌规模上验证了该检查点的长上下文推理能力。
1M 上下文解锁的能力:
- 整个代码库推理。 1M 令牌窗口可以轻松容纳数十万行代码的仓库——实现无需 RAG 分块的跨文件重构、缺陷发现和架构审查。
- 长智能体轨迹。 多轮工具使用会话,包含详细工具输出(大量网络搜索结果、分页的 API 响应、长的 Python 回溯信息),可以在数十轮交互中保持在上下文内。
- 多文档研究。 典型的研究会话(10-20 篇论文 + 笔记 + 用户的工作草稿)可容纳在一个提示中——通过一次前向传播综合所有这些信息。
- 长篇幅科学推理。 针对多篇论文的生物医学或药理学语料库进行长链
<thinking>推理。
在 1M 上下文下提供服务:
# vLLM
vllm serve empero-ai/Qwythos-9B-Claude-Mythos-5-1M --max-model-len 1010000
# SGLang
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server \
--model-path empero-ai/Qwythos-9B-Claude-Mythos-5-1M --context-length 1010000
实用提示:
- 完整的 1M 窗口受益于张量并行多 GPU 或激进的 KV 缓存卸载——单个 H100/H200 可以舒适地处理 256k–512k。在约 256k 令牌上下文以下,混合 Gated-DeltaNet 注意力栈使内存增长保持次二次方,因此长上下文的成本远低于同等规模的纯全注意力模型。
- 因子为 4.0 的静态 YaRN 会带来较小的短上下文质量损失(这是整个行业中已知的 YaRN 权衡)。对于从不超过原生 262k 窗口且希望获得最大短上下文保真度的工作负载,可以从随附的
config.json.pre_yarn备份中恢复rope_parameters.rope_type为"default"。
复现工具测试框架
该测试框架是一个约 150 行的 Python 文件:
python_executor(code)— 在子进程中运行 Python(12 秒超时,捕获 stdout/stderr)web_search(query, max_results)— 通过ddgs包使用 DuckDuckGo
将两者作为 tools= 传递给 apply_chat_template,并从模型输出中解析 <tool_call> 块。该解析器处理 Qwen3.5 的聊天模板格式:
{
"type": "function",
"function": {
"name": "...",
"arguments": "..."
}
}
Empero 将在 GitHub 上发布参考测试框架。
https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#sampling-recommendations 采样建议
Qwythos 是作为推理模型训练的,并继承了 Qwen3.5 的思考模式行为。使用以下设置为默认值:
gen_kwargs = dict(
do_sample=True,
temperature=0.6, # Qwen3.5 思考模式推荐
top_p=0.95,
top_k=20,
repetition_penalty=1.05,
max_new_tokens=16384, # 为推理块 + 最终答案提供充足的预算
)
为什么选择这些参数: 在受控的重测中(见 evals/retest_outputs.md (https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M/blob/main/evals/retest_outputs.md)),我们针对三个最困难的事实提示评估了多种采样配置。贪心解码和极低温度采样 (T≤0.3) 退化为重复循环——这是推理模型在这类提示上已知的失败模式。Qwen3.5 推荐的设置 (T=0.6) 干净地避免了这个问题,并提供了我们测量到的最佳事实可靠性:在三个重测提示中,闭卷审查中标记的六个错误在 T=0.6 时全部未再出现——包括与安全相关的毒扁豆碱说法、错误归属的 CVE 以及不正确的 hashcat 哈希模式。使用 repetition_penalty=1.05 — 与 Qwen 默认的 1.0 略有不同,可防止在长生成中出现罕见的非终止推理循环。
https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#domain-coverage 领域覆盖
Qwythos 是一个通用推理模型,特别强调网络安全、生物医学和定量推理。通过对这些领域内 25 个提示的定性样本生成审查(完整记录见 evals/sample_generations.md (https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M/blob/main/evals/sample_generations.md)):
- 网络安全 — 生成面向防御者的详细 SQL 注入缓解措施、TLS 握手结构、EDR/进程注入检测、Linux 加固、MITRE ATT&CK 勒索软件杀伤链的演练。
- 红队方法论 — 清晰解释参与阶段、范围界定、交战规则、证据处理、报告撰写。在社工借口分析和防钓鱼防御方面特别强大。
- 生物学 / 生物化学 — CRISPR-Cas9、mRNA 疫苗、SARS-CoV-2 刺突蛋白、抗生素耐药机制、有机磷 AChE 抑制的逐步机制。
- 药理学 — 在受体药理学基础(激动、拮抗、部分激动及实例)、他汀类药物机制、阿片类药物脑干水平呼吸抑制、β-受体阻滞剂适应症、窄治疗指数药物的治疗窗口推理方面表现强劲。
- 临床医学 — ACS 胸痛鉴别诊断及检查流程、2 型糖尿病病理生理学及药物类别靶点、脓毒症识别 (qSOFA) 及集束化治疗。
- 数学 — 在 gsm8k 风格的多步应用题、minerva 风格的竞赛数学方面表现强劲;gsm8k 准确率 86%,调用
python_executor后验证了整数算术。
无审查的基础模型意味着 Qwythos 能够实质性地参与这些提示的讨论,而不是拒绝、含糊其辞或将答案埋没在免责声明模板中。推理过程显示在 <thinking> 块中;最终答案紧随其后。
https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#model-details 模型详情
- 基础模型:
Qwen/Qwen3.5-9B(https://huggingface.co/Qwen/Qwen3.5-9B) — 一个密集的、原生多模态架构,具有混合注意力栈(3:1 的 Gated DeltaNet 线性注意力与 Gated 全注意力)、约 152k 词汇表、较长的原生上下文。 - 微调类型: 全参数(所有文本骨干网络权重均被训练)。视觉塔被冻结 — 训练仅限文本,因此视觉行为继承自基础模型,未经过调优或测试。
- 目标: 监督式微调,仅助手损失(模型仅根据助手/补全令牌评分;提示被屏蔽)。
- 上下文长度: 1,048,576 令牌 (≈1M) — YaRN 绳索缩放默认在
config.json中启用。 原生架构上下文为 262,144 令牌;YaRN 因子 4.0 将其扩展至完整的 1M 窗口,无需任何重新训练或运行时标志,与 Qwen 的官方长上下文方案一致。 - 许可协议: Apache 2.0。
https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#training-data 训练数据
Qwythos 在超过 5 亿 tokens 的高质量推理数据上进行了后训练,这些数据来源于:
- Claude Mythos 和 Claude Fable 轨迹 — 涵盖代码、数学、科学推理、生物医学分析和智能体工具使用的长篇幅、多轮问题解决对话。
- 由 Empero AI 的内部 CoT 生成工具
rethink内部生成的思维链。rethink产生结构化的<thinking>块推理,在给出最终答案之前逐步走过假设、验证和结论——直接塑造了 Qwythos 的“先推理后回答”行为。
所有数据均归一化为 Qwen3.5 的聊天格式。训练使用了仅助手损失,因此模型仅根据补全令牌评分。
https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#training-procedure 训练过程
使用 TRL (https://github.com/huggingface/trl) 进行全参数监督式微调:
| 超参数 | 值 |
|---|---|
| 时间表 | 2 阶段课程:广泛推理语料库 → 聚焦智能体/编码 |
| 有效批量大小 | 16 |
| 最大序列长度 | 128,000 (无截断) |
| 学习率 | 1e-5 → 5e-6 余弦衰减跨阶段 |
| 优化器 | paged AdamW (8-bit) |
| 精度 | bf16 |
| 损失 | 分块 NLL,仅助手 |
两个阶段的保留验证损失均单调下降(最终 eval_loss ≈ 0.709,在精心挑选的保留集上平均令牌准确率为 0.799)。未观察到过拟合。
https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#how-to-use 如何使用
基础模型是多模态的;对于仅文本推理,使用 AutoModelForImageTextToText 加载:
import torch
from transformers import AutoModelForImageTextToText, AutoTokenizer
model_id = "empero-ai/Qwythos-9B-Claude-Mythos-5-1M"
tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
model_id,
dtype="bfloat16",
device_map="auto"
)
messages = [
{"role": "user", "content": "逐步解释有机磷神经毒剂如何抑制乙酰胆碱酯酶的生物化学机制、由此产生的胆碱能毒性症状以及医学解毒剂。"}
]
text = tok.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tok(text, return_tensors="pt").to(model.device)
out = model.generate(
**inputs,
max_new_tokens=16384,
do_sample=True,
temperature=0.6,
top_p=0.95,
top_k=20,
repetition_penalty=1.05,
)
# 输出以 <thinking> 推理开始,然后是最终答案。
print(tok.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))
相似文章
empero-ai/Qwythos-9B-Claude-Mythos-5-1M-GGUF
Empero AI 发布了 Qwythos-9B-Claude-Mythos-5-1M-GGUF,这是一个基于 5 亿以上 tokens 的 Claude Mythos/Fable 轨迹(包含思维链)微调而成的 9B 参数推理模型,相比 Qwen3.5-9B 取得了显著提升,并通过 YaRN 旋度缩放支持 100 万 token 上下文。GGUF 量化版本支持在 llama.cpp 及兼容运行时上进行本地推理。
@uzairansar: Qwythos-9B-Claude-Mythos-5 1M上下文微调版本发布!Empero刚刚发布了基于Claude Mythos的微调模型…
Empero发布了Qwythos-9B-Claude-Mythos-5,这是一个基于Fable-5和Mythos-5会话日志的合成思维链数据,使用1M上下文微调的全参数推理模型。
hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
一个 35B 参数的 Qwen3.6 模型,使用 Claude-Opus 风格的思维链蒸馏数据微调,并以 GGUF 量化格式发布,可在本地高效推理。
DavidAU/Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF
DavidAU 发布了一款基于 Qwen 3.6 的自定义 40B 参数模型,该模型经过扩展并使用 Claude 4.6 Opus 蒸馏和 Deckard 数据集进行微调,具有优化的 GGUF 量化,以提升精度和无审查能力。
Qwen/Qwen3.6-35B-A3B
Qwen 发布 Qwen3.6-35B-A3B,一款开源权重的混合专家(MoE)模型,总参数量 35B,激活参数量 3B,在智能体编码和推理能力保持方面实现显著提升。