empero-ai/Qwythos-9B-Claude-Mythos-5-1M

Hugging Face Models Trending 2026/06/19 14:01 模型

reasoning-model uncensored long-context fine-tuned open-weight 9b-parameters function-calling

摘要

Empero AI 发布了 Qwythos-9B，这是一个经过微调的推理模型，具有100万令牌的上下文和无审查能力，在基准测试中相比于其基础模型 Qwen3.5-9B 有显著提升。

任务：文本生成标签：transformers, safetensors, qwen3_5, image-text-to-text, qwen3.5, 推理, 无审查, 长上下文, 1M上下文, 函数调用, 工具使用, SFT, 全微调, 网络安全, 生物医学, 代理, 文本生成, 对话, en, 基础模型:Qwen/Qwen3.5-9B, 基础模型:微调:Qwen/Qwen3.5-9B, 许可证:apache-2.0, 端点兼容, 区域:us

查看原文

查看缓存全文

缓存时间: 2026/06/22 13:32

empero-ai/Qwythos-9B-Claude-Mythos-5-1M · Hugging Face 来源：https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M Qwythos-9B ## https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#qwythos-9b Qwythos-9B

由 Empero (https://empero.org/) 开发

Qwythos-9B 是一个全参数推理模型，基于深度无审查的 Qwen3.5-9B 基础模型构建，并在超过 5 亿 tokens 的高质量 Claude Mythos 和 Claude Fable 轨迹数据上进行了后训练，其中思维链由 Empero AI 的内部工具 rethink 生成。结果是得到一个紧凑、快速、能力显著更强的 9B 推理模型。

核心能力：

🔭 1,048,576 令牌上下文 — Qwythos 默认启用 YaRN 绳索缩放，开箱即用即可获得完整的 1M 令牌上下文窗口。这是任何 9B 级开源权重模型中可用的最长上下文窗口之一，适用于整个代码库推理、多文档研究以及长智能体轨迹。
**📈 在匹配的评估中主导基础模型：**MMLU 提升 +34 分，gsm8k-strict 提升 +30 分，gsm8k-flex 提升 +19 分。
🛠 原生函数调用 — 遵循 Qwen3.5 规范，无需额外包装器，无需特定工具微调。
🎯 使用工具自我纠正 — 当赋予 Python 执行器和网络搜索工具时，Qwythos 在涵盖数学、网络安全、临床药理学和生物化学的7 个测试提示中的 7 个上生成了有来源引用、事实正确的答案。

Qwythos 是故意无审查的。它旨在认真处理网络安全、红队方法论、生物学、药理学和临床医学等领域的专业技术问题——在这些领域中，过度对齐的模型往往会拒绝回答、含糊其辞或给出空洞的免责声明，而不是实质内容。

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#headline-results 核心结果

Qwythos 与基础模型 Qwen3.5-9B 在七个基准测试上的对比

相同的测试框架。相同的采样。相同的提示。胜利是真实的。

任务	指标	基础 Qwen3.5-9B	Qwythos-9B	Δ
gsm8k	exact_match (灵活)	0.670	0.860	+0.190
gsm8k	exact_match (严格)	0.510	0.810	+0.300
mmlu	acc	0.232	0.575	+0.343
arc_challenge	acc	0.470	0.490	+0.020
arc_challenge	acc_norm	0.400	0.410	+0.010
gpqa_diamond (CoT, 0-shot)	exact_match (灵活)	0.630	0.580	−0.050

所有数字均使用 lm-evaluation-harness (https://github.com/EleutherAI/lm-evaluation-harness) 生成，后端为 HF，使用 --apply_chat_template，Qwen3.5 采样参数 (temperature=0.6, top_p=0.95, top_k=20)，--limit 100。完整的按任务和按学科（MMLU）细分见 evals/lm_eval_results.md (https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M/blob/main/evals/lm_eval_results.md)。原始 results*.json 和按样本的 samples_*.jsonl 文件可按需提供。

MMLU 提升 +34.3 是核心亮点。Qwythos 在 57 个学科中的平均得分为 0.575，其中在政府/政治上达到 0.78，大学生物学上达到 0.77，概念物理学上达到 0.74——这使其远高于大多数 9B 推理模型在相同评估条件下的表现。任何 9B 模型的绝对 MMLU 分数对测试框架、少样本数量和聊天模板处理都很敏感；本次对比中重要的是两个模型在完全相同的设置下进行评估。

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#capability-native-tool-use-with-self-correction 能力：原生工具使用与自我纠正

Qwythos 支持开箱即用的 OpenAI/Qwen3.5 风格函数调用 — 无需额外包装器，无需针对工具进行微调。将 tools=[...] 传递给聊天模板，模型便会根据 Qwen3.5 规范生成有效的 <tool_call> 块，并尊重所需参数。

我们在一个包含 7 个提示的测试框架上评估了工具使用能力，该框架结合了功能演示和刻意设置的高难度事实回忆提示，并设置了闭卷采样失败的情况：

提示	工具选择	结果
计算 `sin(π/7) × cos(π/11)` 到 10 位小数	`python_executor`	✅ `0.4163083990` (正确，单次调用)
统计 100,000 以下的素数个数	`python_executor`	✅ `9592` (正确，编写并运行了筛法)
最新的稳定版 CPython 3 版本	`web_search`	✅ 找到了 3.14.6 (2026年6月)，3.15 处于测试版，有来源引用
Hashcat 破解 Kerberos TGS-REP 的模式	`web_search`	✅ `-m 13100` 并有 4 个证实来源
PrintNightmare 的 CVE 编号	`web_search`	✅ CVE-2021-34527 (并正确区分了 CVE-2021-1675 / CVE-2021-34481 变体)
毒扁豆碱是否适用于有机磷中毒？	`web_search`	✅ “不适用——会有害。毒扁豆碱用于抗胆碱能中毒综合征。” 引用了 LITFL 毒理学资料。
DPP-4 在 GLP-1 / 司美格鲁肽修饰中的切割位点	`web_search`	✅ Ala8–Glu9 切割，司美格鲁肽第 8 位的 α-氨基异丁酸 (Aib) — 引用了维基百科和制药来源

7 个提示全部成功。 工具选择始终合理（数学 → Python；事实 → 搜索）。底部四行尤其重要：它们是需要闭卷回忆的四个最难的专业事实——而 Qwythos，在获得适当工具后，每次都搜索、整合了多个来源，并生成了有来源引用的正确答案。

包含模型推理、所有工具调用、所有返回结果以及最终集成答案的完整记录见 evals/tool_test_outputs.md (https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M/blob/main/evals/tool_test_outputs.md)。

这使得 Qwythos 可以部署在检索增强的智能体环境中，模型能够验证其细节而非捏造。

能力：1,048,576 令牌上下文窗口

Qwythos 默认配置了 YaRN 绳索缩放，以获得 1,048,576 (≈1M) 令牌的上下文窗口 — 这是对原生 262,144 令牌架构的 4 倍扩展。该配置已内置在 config.json 中，并在加载时自动应用；无需单独的标志、后处理步骤或 YaRN 特定的分词器：

"rope_parameters": {
    "rope_type": "yarn",
    "factor": 4.0,
    "original_max_position_embeddings": 262144,
    "mrope_interleaved": true,
    "mrope_section": [11, 11, 10],
    "rope_theta": 10000000
},
"max_position_embeddings": 1048576

这是 Qwen3.5 官方 1M 上下文方案，与 Qwen 自己的模型卡以及 vLLM/SGLang 部署指南中记录的配置一致。我们已通过内部冒烟测试在约 137k 令牌规模上验证了该检查点的长上下文推理能力。

1M 上下文解锁的能力：

整个代码库推理。 1M 令牌窗口可以轻松容纳数十万行代码的仓库——实现无需 RAG 分块的跨文件重构、缺陷发现和架构审查。
长智能体轨迹。 多轮工具使用会话，包含详细工具输出（大量网络搜索结果、分页的 API 响应、长的 Python 回溯信息），可以在数十轮交互中保持在上下文内。
多文档研究。 典型的研究会话（10-20 篇论文 + 笔记 + 用户的工作草稿）可容纳在一个提示中——通过一次前向传播综合所有这些信息。
长篇幅科学推理。 针对多篇论文的生物医学或药理学语料库进行长链 <thinking> 推理。

在 1M 上下文下提供服务：

# vLLM
vllm serve empero-ai/Qwythos-9B-Claude-Mythos-5-1M --max-model-len 1010000

# SGLang
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server \
    --model-path empero-ai/Qwythos-9B-Claude-Mythos-5-1M --context-length 1010000

实用提示：

完整的 1M 窗口受益于张量并行多 GPU 或激进的 KV 缓存卸载——单个 H100/H200 可以舒适地处理 256k–512k。在约 256k 令牌上下文以下，混合 Gated-DeltaNet 注意力栈使内存增长保持次二次方，因此长上下文的成本远低于同等规模的纯全注意力模型。
因子为 4.0 的静态 YaRN 会带来较小的短上下文质量损失（这是整个行业中已知的 YaRN 权衡）。对于从不超过原生 262k 窗口且希望获得最大短上下文保真度的工作负载，可以从随附的 config.json.pre_yarn 备份中恢复 rope_parameters.rope_type 为 "default"。

复现工具测试框架

该测试框架是一个约 150 行的 Python 文件：

python_executor(code) — 在子进程中运行 Python（12 秒超时，捕获 stdout/stderr）
web_search(query, max_results) — 通过 ddgs 包使用 DuckDuckGo

将两者作为 tools= 传递给 apply_chat_template，并从模型输出中解析 <tool_call> 块。该解析器处理 Qwen3.5 的聊天模板格式：

{
   "type": "function",
   "function": {
     "name": "...",
     "arguments": "..."
   }
}

Empero 将在 GitHub 上发布参考测试框架。

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#sampling-recommendations 采样建议

Qwythos 是作为推理模型训练的，并继承了 Qwen3.5 的思考模式行为。使用以下设置为默认值：

gen_kwargs = dict(
    do_sample=True,
    temperature=0.6,          # Qwen3.5 思考模式推荐
    top_p=0.95,
    top_k=20,
    repetition_penalty=1.05,
    max_new_tokens=16384,     # 为推理块 + 最终答案提供充足的预算
)

为什么选择这些参数： 在受控的重测中（见 evals/retest_outputs.md (https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M/blob/main/evals/retest_outputs.md)），我们针对三个最困难的事实提示评估了多种采样配置。贪心解码和极低温度采样 (T≤0.3) 退化为重复循环——这是推理模型在这类提示上已知的失败模式。Qwen3.5 推荐的设置 (T=0.6) 干净地避免了这个问题，并提供了我们测量到的最佳事实可靠性：在三个重测提示中，闭卷审查中标记的六个错误在 T=0.6 时全部未再出现——包括与安全相关的毒扁豆碱说法、错误归属的 CVE 以及不正确的 hashcat 哈希模式。使用 repetition_penalty=1.05 — 与 Qwen 默认的 1.0 略有不同，可防止在长生成中出现罕见的非终止推理循环。

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#domain-coverage 领域覆盖

Qwythos 是一个通用推理模型，特别强调网络安全、生物医学和定量推理。通过对这些领域内 25 个提示的定性样本生成审查（完整记录见 evals/sample_generations.md (https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M/blob/main/evals/sample_generations.md)）：

网络安全 — 生成面向防御者的详细 SQL 注入缓解措施、TLS 握手结构、EDR/进程注入检测、Linux 加固、MITRE ATT&CK 勒索软件杀伤链的演练。
红队方法论 — 清晰解释参与阶段、范围界定、交战规则、证据处理、报告撰写。在社工借口分析和防钓鱼防御方面特别强大。
生物学 / 生物化学 — CRISPR-Cas9、mRNA 疫苗、SARS-CoV-2 刺突蛋白、抗生素耐药机制、有机磷 AChE 抑制的逐步机制。
药理学 — 在受体药理学基础（激动、拮抗、部分激动及实例）、他汀类药物机制、阿片类药物脑干水平呼吸抑制、β-受体阻滞剂适应症、窄治疗指数药物的治疗窗口推理方面表现强劲。
临床医学 — ACS 胸痛鉴别诊断及检查流程、2 型糖尿病病理生理学及药物类别靶点、脓毒症识别 (qSOFA) 及集束化治疗。
数学 — 在 gsm8k 风格的多步应用题、minerva 风格的竞赛数学方面表现强劲；gsm8k 准确率 86%，调用 python_executor 后验证了整数算术。

无审查的基础模型意味着 Qwythos 能够实质性地参与这些提示的讨论，而不是拒绝、含糊其辞或将答案埋没在免责声明模板中。推理过程显示在 <thinking> 块中；最终答案紧随其后。

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#model-details 模型详情

基础模型： Qwen/Qwen3.5-9B (https://huggingface.co/Qwen/Qwen3.5-9B) — 一个密集的、原生多模态架构，具有混合注意力栈（3:1 的 Gated DeltaNet 线性注意力与 Gated 全注意力）、约 152k 词汇表、较长的原生上下文。
微调类型： 全参数（所有文本骨干网络权重均被训练）。视觉塔被冻结 — 训练仅限文本，因此视觉行为继承自基础模型，未经过调优或测试。
目标： 监督式微调，仅助手损失（模型仅根据助手/补全令牌评分；提示被屏蔽）。
上下文长度： 1,048,576 令牌 (≈1M) — YaRN 绳索缩放默认在 config.json 中启用。 原生架构上下文为 262,144 令牌；YaRN 因子 4.0 将其扩展至完整的 1M 窗口，无需任何重新训练或运行时标志，与 Qwen 的官方长上下文方案一致。
许可协议： Apache 2.0。

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#training-data 训练数据

Qwythos 在超过 5 亿 tokens 的高质量推理数据上进行了后训练，这些数据来源于：

Claude Mythos 和 Claude Fable 轨迹 — 涵盖代码、数学、科学推理、生物医学分析和智能体工具使用的长篇幅、多轮问题解决对话。
由 Empero AI 的内部 CoT 生成工具 rethink 内部生成的思维链。rethink 产生结构化的 <thinking> 块推理，在给出最终答案之前逐步走过假设、验证和结论——直接塑造了 Qwythos 的“先推理后回答”行为。

所有数据均归一化为 Qwen3.5 的聊天格式。训练使用了仅助手损失，因此模型仅根据补全令牌评分。

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#training-procedure 训练过程

使用 TRL (https://github.com/huggingface/trl) 进行全参数监督式微调：

超参数	值
时间表	2 阶段课程：广泛推理语料库 → 聚焦智能体/编码
有效批量大小	16
最大序列长度	128,000 (无截断)
学习率	1e-5 → 5e-6 余弦衰减跨阶段
优化器	paged AdamW (8-bit)
精度	bf16
损失	分块 NLL，仅助手

两个阶段的保留验证损失均单调下降（最终 eval_loss ≈ 0.709，在精心挑选的保留集上平均令牌准确率为 0.799）。未观察到过拟合。

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#how-to-use 如何使用

基础模型是多模态的；对于仅文本推理，使用 AutoModelForImageTextToText 加载：

import torch
from transformers import AutoModelForImageTextToText, AutoTokenizer

model_id = "empero-ai/Qwythos-9B-Claude-Mythos-5-1M"

tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
    model_id,
    dtype="bfloat16",
    device_map="auto"
)

messages = [
    {"role": "user", "content": "逐步解释有机磷神经毒剂如何抑制乙酰胆碱酯酶的生物化学机制、由此产生的胆碱能毒性症状以及医学解毒剂。"}
]

text = tok.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tok(text, return_tensors="pt").to(model.device)

out = model.generate(
    **inputs,
    max_new_tokens=16384,
    do_sample=True,
    temperature=0.6,
    top_p=0.95,
    top_k=20,
    repetition_penalty=1.05,
)
# 输出以 <thinking> 推理开始，然后是最终答案。
print(tok.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))

empero-ai/Qwythos-9B-Claude-Mythos-5-1M

empero-ai/Qwythos-9B-Claude-Mythos-5-1M · Hugging Face 来源：https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M Qwythos-9B ## https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#qwythos-9b Qwythos-9B

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#headline-results 核心结果

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#capability-native-tool-use-with-self-correction 能力：原生工具使用与自我纠正

能力：1,048,576 令牌上下文窗口

复现工具测试框架

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#sampling-recommendations 采样建议

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#domain-coverage 领域覆盖

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#model-details 模型详情

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#training-data 训练数据

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#training-procedure 训练过程

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#how-to-use 如何使用

相似文章

empero-ai/Qwythos-9B-Claude-Mythos-5-1M-GGUF

@uzairansar: Qwythos-9B-Claude-Mythos-5 1M上下文微调版本发布！Empero刚刚发布了基于Claude Mythos的微调模型…

hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

DavidAU/Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF

Qwen/Qwen3.6-35B-A3B

提交意见反馈