empero-ai/Qwythos-9B-Claude-Mythos-5-1M

Hugging Face Models Trending 模型

摘要

Empero AI 发布了 Qwythos-9B,这是一个经过微调的推理模型,具有100万令牌的上下文和无审查能力,在基准测试中相比于其基础模型 Qwen3.5-9B 有显著提升。

任务:文本生成 标签:transformers, safetensors, qwen3_5, image-text-to-text, qwen3.5, 推理, 无审查, 长上下文, 1M上下文, 函数调用, 工具使用, SFT, 全微调, 网络安全, 生物医学, 代理, 文本生成, 对话, en, 基础模型:Qwen/Qwen3.5-9B, 基础模型:微调:Qwen/Qwen3.5-9B, 许可证:apache-2.0, 端点兼容, 区域:us
查看原文
查看缓存全文

缓存时间: 2026/06/22 13:32

empero-ai/Qwythos-9B-Claude-Mythos-5-1M · Hugging Face 来源:https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M Qwythos-9B ## https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#qwythos-9b Qwythos-9B

由 Empero (https://empero.org/) 开发

Qwythos-9B 是一个全参数推理模型,基于深度无审查的 Qwen3.5-9B 基础模型构建,并在超过 5 亿 tokens 的高质量 Claude Mythos 和 Claude Fable 轨迹数据上进行了后训练,其中思维链由 Empero AI 的内部工具 rethink 生成。结果是得到一个紧凑、快速、能力显著更强的 9B 推理模型。

核心能力:

  • 🔭 1,048,576 令牌上下文 — Qwythos 默认启用 YaRN 绳索缩放,开箱即用即可获得完整的 1M 令牌上下文窗口。这是任何 9B 级开源权重模型中可用的最长上下文窗口之一,适用于整个代码库推理、多文档研究以及长智能体轨迹。
  • **📈 在匹配的评估中主导基础模型:**MMLU 提升 +34 分,gsm8k-strict 提升 +30 分,gsm8k-flex 提升 +19 分。
  • 🛠 原生函数调用 — 遵循 Qwen3.5 规范,无需额外包装器,无需特定工具微调。
  • 🎯 使用工具自我纠正 — 当赋予 Python 执行器和网络搜索工具时,Qwythos 在涵盖数学、网络安全、临床药理学和生物化学的7 个测试提示中的 7 个上生成了有来源引用、事实正确的答案。

Qwythos 是故意无审查的。它旨在认真处理网络安全、红队方法论、生物学、药理学和临床医学等领域的专业技术问题——在这些领域中,过度对齐的模型往往会拒绝回答、含糊其辞或给出空洞的免责声明,而不是实质内容。


https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#headline-results 核心结果

Qwythos 与基础模型 Qwen3.5-9B 在七个基准测试上的对比

相同的测试框架。相同的采样。相同的提示。胜利是真实的。

任务指标基础 Qwen3.5-9BQwythos-9BΔ
gsm8kexact_match (灵活)0.6700.860+0.190
gsm8kexact_match (严格)0.5100.810+0.300
mmluacc0.2320.575+0.343
arc_challengeacc0.4700.490+0.020
arc_challengeacc_norm0.4000.410+0.010
gpqa_diamond (CoT, 0-shot)exact_match (灵活)0.6300.580−0.050

所有数字均使用 lm-evaluation-harness (https://github.com/EleutherAI/lm-evaluation-harness) 生成,后端为 HF,使用 --apply_chat_template,Qwen3.5 采样参数 (temperature=0.6, top_p=0.95, top_k=20),--limit 100。完整的按任务和按学科(MMLU)细分见 evals/lm_eval_results.md (https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M/blob/main/evals/lm_eval_results.md)。原始 results*.json 和按样本的 samples_*.jsonl 文件可按需提供。

MMLU 提升 +34.3 是核心亮点。Qwythos 在 57 个学科中的平均得分为 0.575,其中在政府/政治上达到 0.78,大学生物学上达到 0.77,概念物理学上达到 0.74——这使其远高于大多数 9B 推理模型在相同评估条件下的表现。任何 9B 模型的绝对 MMLU 分数对测试框架、少样本数量和聊天模板处理都很敏感;本次对比中重要的是两个模型在完全相同的设置下进行评估。


https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#capability-native-tool-use-with-self-correction 能力:原生工具使用与自我纠正

Qwythos 支持开箱即用的 OpenAI/Qwen3.5 风格函数调用 — 无需额外包装器,无需针对工具进行微调。将 tools=[...] 传递给聊天模板,模型便会根据 Qwen3.5 规范生成有效的 <tool_call> 块,并尊重所需参数。

我们在一个包含 7 个提示的测试框架上评估了工具使用能力,该框架结合了功能演示和刻意设置的高难度事实回忆提示,并设置了闭卷采样失败的情况:

提示工具选择结果
计算 sin(π/7) × cos(π/11) 到 10 位小数python_executor0.4163083990 (正确,单次调用)
统计 100,000 以下的素数个数python_executor9592 (正确,编写并运行了筛法)
最新的稳定版 CPython 3 版本web_search✅ 找到了 3.14.6 (2026年6月),3.15 处于测试版,有来源引用
Hashcat 破解 Kerberos TGS-REP 的模式web_search-m 13100 并有 4 个证实来源
PrintNightmare 的 CVE 编号web_searchCVE-2021-34527 (并正确区分了 CVE-2021-1675 / CVE-2021-34481 变体)
毒扁豆碱是否适用于有机磷中毒?web_search“不适用——会有害。毒扁豆碱用于抗胆碱能中毒综合征。” 引用了 LITFL 毒理学资料。
DPP-4 在 GLP-1 / 司美格鲁肽修饰中的切割位点web_searchAla8–Glu9 切割,司美格鲁肽第 8 位的 α-氨基异丁酸 (Aib) — 引用了维基百科和制药来源

7 个提示全部成功。 工具选择始终合理(数学 → Python;事实 → 搜索)。底部四行尤其重要:它们是需要闭卷回忆的四个最难的专业事实——而 Qwythos,在获得适当工具后,每次都搜索、整合了多个来源,并生成了有来源引用的正确答案

包含模型推理、所有工具调用、所有返回结果以及最终集成答案的完整记录见 evals/tool_test_outputs.md (https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M/blob/main/evals/tool_test_outputs.md)。

这使得 Qwythos 可以部署在检索增强的智能体环境中,模型能够验证其细节而非捏造。


能力:1,048,576 令牌上下文窗口

Qwythos 默认配置了 YaRN 绳索缩放,以获得 1,048,576 (≈1M) 令牌的上下文窗口 — 这是对原生 262,144 令牌架构的 4 倍扩展。该配置已内置在 config.json 中,并在加载时自动应用;无需单独的标志、后处理步骤或 YaRN 特定的分词器:

"rope_parameters": {
    "rope_type": "yarn",
    "factor": 4.0,
    "original_max_position_embeddings": 262144,
    "mrope_interleaved": true,
    "mrope_section": [11, 11, 10],
    "rope_theta": 10000000
},
"max_position_embeddings": 1048576

这是 Qwen3.5 官方 1M 上下文方案,与 Qwen 自己的模型卡以及 vLLM/SGLang 部署指南中记录的配置一致。我们已通过内部冒烟测试在约 137k 令牌规模上验证了该检查点的长上下文推理能力。

1M 上下文解锁的能力:

  • 整个代码库推理。 1M 令牌窗口可以轻松容纳数十万行代码的仓库——实现无需 RAG 分块的跨文件重构、缺陷发现和架构审查。
  • 长智能体轨迹。 多轮工具使用会话,包含详细工具输出(大量网络搜索结果、分页的 API 响应、长的 Python 回溯信息),可以在数十轮交互中保持在上下文内。
  • 多文档研究。 典型的研究会话(10-20 篇论文 + 笔记 + 用户的工作草稿)可容纳在一个提示中——通过一次前向传播综合所有这些信息。
  • 长篇幅科学推理。 针对多篇论文的生物医学或药理学语料库进行长链 <thinking> 推理。

在 1M 上下文下提供服务:

# vLLM
vllm serve empero-ai/Qwythos-9B-Claude-Mythos-5-1M --max-model-len 1010000

# SGLang
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server \
    --model-path empero-ai/Qwythos-9B-Claude-Mythos-5-1M --context-length 1010000

实用提示:

  • 完整的 1M 窗口受益于张量并行多 GPU 或激进的 KV 缓存卸载——单个 H100/H200 可以舒适地处理 256k–512k。在约 256k 令牌上下文以下,混合 Gated-DeltaNet 注意力栈使内存增长保持次二次方,因此长上下文的成本远低于同等规模的纯全注意力模型。
  • 因子为 4.0 的静态 YaRN 会带来较小的短上下文质量损失(这是整个行业中已知的 YaRN 权衡)。对于从不超过原生 262k 窗口且希望获得最大短上下文保真度的工作负载,可以从随附的 config.json.pre_yarn 备份中恢复 rope_parameters.rope_type"default"

复现工具测试框架

该测试框架是一个约 150 行的 Python 文件:

  • python_executor(code) — 在子进程中运行 Python(12 秒超时,捕获 stdout/stderr)
  • web_search(query, max_results) — 通过 ddgs 包使用 DuckDuckGo

将两者作为 tools= 传递给 apply_chat_template,并从模型输出中解析 <tool_call> 块。该解析器处理 Qwen3.5 的聊天模板格式:

{
   "type": "function",
   "function": {
     "name": "...",
     "arguments": "..."
   }
}

Empero 将在 GitHub 上发布参考测试框架。


https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#sampling-recommendations 采样建议

Qwythos 是作为推理模型训练的,并继承了 Qwen3.5 的思考模式行为。使用以下设置为默认值:

gen_kwargs = dict(
    do_sample=True,
    temperature=0.6,          # Qwen3.5 思考模式推荐
    top_p=0.95,
    top_k=20,
    repetition_penalty=1.05,
    max_new_tokens=16384,     # 为推理块 + 最终答案提供充足的预算
)

为什么选择这些参数: 在受控的重测中(见 evals/retest_outputs.md (https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M/blob/main/evals/retest_outputs.md)),我们针对三个最困难的事实提示评估了多种采样配置。贪心解码和极低温度采样 (T≤0.3) 退化为重复循环——这是推理模型在这类提示上已知的失败模式。Qwen3.5 推荐的设置 (T=0.6) 干净地避免了这个问题,并提供了我们测量到的最佳事实可靠性:在三个重测提示中,闭卷审查中标记的六个错误在 T=0.6 时全部未再出现——包括与安全相关的毒扁豆碱说法、错误归属的 CVE 以及不正确的 hashcat 哈希模式。使用 repetition_penalty=1.05 — 与 Qwen 默认的 1.0 略有不同,可防止在长生成中出现罕见的非终止推理循环。


https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#domain-coverage 领域覆盖

Qwythos 是一个通用推理模型,特别强调网络安全、生物医学和定量推理。通过对这些领域内 25 个提示的定性样本生成审查(完整记录见 evals/sample_generations.md (https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M/blob/main/evals/sample_generations.md)):

  • 网络安全 — 生成面向防御者的详细 SQL 注入缓解措施、TLS 握手结构、EDR/进程注入检测、Linux 加固、MITRE ATT&CK 勒索软件杀伤链的演练。
  • 红队方法论 — 清晰解释参与阶段、范围界定、交战规则、证据处理、报告撰写。在社工借口分析和防钓鱼防御方面特别强大。
  • 生物学 / 生物化学 — CRISPR-Cas9、mRNA 疫苗、SARS-CoV-2 刺突蛋白、抗生素耐药机制、有机磷 AChE 抑制的逐步机制。
  • 药理学 — 在受体药理学基础(激动、拮抗、部分激动及实例)、他汀类药物机制、阿片类药物脑干水平呼吸抑制、β-受体阻滞剂适应症、窄治疗指数药物的治疗窗口推理方面表现强劲。
  • 临床医学 — ACS 胸痛鉴别诊断及检查流程、2 型糖尿病病理生理学及药物类别靶点、脓毒症识别 (qSOFA) 及集束化治疗。
  • 数学 — 在 gsm8k 风格的多步应用题、minerva 风格的竞赛数学方面表现强劲;gsm8k 准确率 86%,调用 python_executor 后验证了整数算术。

无审查的基础模型意味着 Qwythos 能够实质性地参与这些提示的讨论,而不是拒绝、含糊其辞或将答案埋没在免责声明模板中。推理过程显示在 <thinking> 块中;最终答案紧随其后。


https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#model-details 模型详情

  • 基础模型: Qwen/Qwen3.5-9B (https://huggingface.co/Qwen/Qwen3.5-9B) — 一个密集的、原生多模态架构,具有混合注意力栈(3:1 的 Gated DeltaNet 线性注意力与 Gated 全注意力)、约 152k 词汇表、较长的原生上下文。
  • 微调类型: 全参数(所有文本骨干网络权重均被训练)。视觉塔被冻结 — 训练仅限文本,因此视觉行为继承自基础模型,未经过调优或测试。
  • 目标: 监督式微调,仅助手损失(模型仅根据助手/补全令牌评分;提示被屏蔽)。
  • 上下文长度: 1,048,576 令牌 (≈1M) — YaRN 绳索缩放默认在 config.json 中启用。 原生架构上下文为 262,144 令牌;YaRN 因子 4.0 将其扩展至完整的 1M 窗口,无需任何重新训练或运行时标志,与 Qwen 的官方长上下文方案一致。
  • 许可协议: Apache 2.0。

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#training-data 训练数据

Qwythos 在超过 5 亿 tokens 的高质量推理数据上进行了后训练,这些数据来源于:

  • Claude Mythos 和 Claude Fable 轨迹 — 涵盖代码、数学、科学推理、生物医学分析和智能体工具使用的长篇幅、多轮问题解决对话。
  • 由 Empero AI 的内部 CoT 生成工具 rethink 内部生成的思维链rethink 产生结构化的 <thinking> 块推理,在给出最终答案之前逐步走过假设、验证和结论——直接塑造了 Qwythos 的“先推理后回答”行为。

所有数据均归一化为 Qwen3.5 的聊天格式。训练使用了仅助手损失,因此模型仅根据补全令牌评分。

https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#training-procedure 训练过程

使用 TRL (https://github.com/huggingface/trl) 进行全参数监督式微调:

超参数
时间表2 阶段课程:广泛推理语料库 → 聚焦智能体/编码
有效批量大小16
最大序列长度128,000 (无截断)
学习率1e-5 → 5e-6 余弦衰减跨阶段
优化器paged AdamW (8-bit)
精度bf16
损失分块 NLL,仅助手

两个阶段的保留验证损失均单调下降(最终 eval_loss ≈ 0.709,在精心挑选的保留集上平均令牌准确率为 0.799)。未观察到过拟合。


https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M#how-to-use 如何使用

基础模型是多模态的;对于仅文本推理,使用 AutoModelForImageTextToText 加载:

import torch
from transformers import AutoModelForImageTextToText, AutoTokenizer

model_id = "empero-ai/Qwythos-9B-Claude-Mythos-5-1M"

tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
    model_id,
    dtype="bfloat16",
    device_map="auto"
)

messages = [
    {"role": "user", "content": "逐步解释有机磷神经毒剂如何抑制乙酰胆碱酯酶的生物化学机制、由此产生的胆碱能毒性症状以及医学解毒剂。"}
]

text = tok.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tok(text, return_tensors="pt").to(model.device)

out = model.generate(
    **inputs,
    max_new_tokens=16384,
    do_sample=True,
    temperature=0.6,
    top_p=0.95,
    top_k=20,
    repetition_penalty=1.05,
)
# 输出以 <thinking> 推理开始,然后是最终答案。
print(tok.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))

相似文章

empero-ai/Qwythos-9B-Claude-Mythos-5-1M-GGUF

Hugging Face Models Trending

Empero AI 发布了 Qwythos-9B-Claude-Mythos-5-1M-GGUF,这是一个基于 5 亿以上 tokens 的 Claude Mythos/Fable 轨迹(包含思维链)微调而成的 9B 参数推理模型,相比 Qwen3.5-9B 取得了显著提升,并通过 YaRN 旋度缩放支持 100 万 token 上下文。GGUF 量化版本支持在 llama.cpp 及兼容运行时上进行本地推理。

Qwen/Qwen3.6-35B-A3B

Hugging Face Models Trending

Qwen 发布 Qwen3.6-35B-A3B,一款开源权重的混合专家(MoE)模型,总参数量 35B,激活参数量 3B,在智能体编码和推理能力保持方面实现显著提升。