Gryphe/Pantheon-Reasoning-27B · Hugging Face

Reddit r/LocalLLaMA 2026/05/30 09:56 模型

model-release reasoning roleplay qwen uncensored huggingface fine-tuning

摘要

Gryphe 发布了 Pantheon-Reasoning-27B，这是一款未经审查的密集 Qwen 3.6 27B 模型，通过推理轨迹微调，增强了角色扮演和叙事生成。它结合角色扮演数据与完整思维轨迹，以提升角色沉浸感和叙事规划能力。

来自 Gryphe：一次为 Pantheon 角色扮演系列引入推理能力的实验，采用未经审查的密集 Qwen 3.6 27B 模型。可将此模型视为 Pantheon 系列和一次性 Codex 版本的共同继承者，因为这次我使用了海量多样化的数据。本次测试的另一个理论是：将构建 Pantheon 的数据与完整思维轨迹配对，让模型通过推理完成角色工作——权衡语气、规划叙事节奏、在确定台词前考虑角色实际会如何回应。这是否能有效提升角色扮演质量（相较于非推理模型），希望你也能帮我回答这个问题。GGUF 量化版本[可在此获取](https://huggingface.co/bartowski/Gryphe_Pantheon-Reasoning-27B-GGUF)。 # [](https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#model-details)模型详情基础模型为 [llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved](https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved)，据我所知，这在拒绝降低和写作能力方面效果非常出色。我曾考虑过 Gemma 4 31B，但该模型的训练极为棘手。某种特殊雪花架构带来的麻烦。（嘀嘀咕咕）所有训练源均包含完整推理轨迹，且每个助手轮次均启用思考： * **Pantheon 数据**（约 28%）——核心 Pantheon 角色扮演语料库，使用下文所述方法反向生成推理轨迹 * **Opus-4.6-Reasoning-24k**（约 21%）——经过清洗和去重的 Claude Opus 4.6 推理轨迹集合，涵盖通用指令遵循、STEM 和编程，提供了广泛的推理基础 * **WorldSim 数据**（约 16%）——Opus 4.6 的长时间叙事角色扮演，带有原生推理轨迹，侧重于扩展性故事讲述、角色沉浸感和涌现世界逻辑，通过各种实验拼凑而成——主要为第三人称现在时，但也包含各类内容，并清洗了陈词滥调！ * **文本冒险数据**（约 16%）——高风险交互式小说和文本冒险内容，带有反向生成的推理轨迹，赋予模型更接地气、注重文笔的写作风格 * **通用角色扮演数据**（约 16%）——广泛多样的角色扮演记录集，带有反向生成的推理轨迹，帮助模型泛化到任意角色设定 * **Tiamat 数据**（约 3%）——最初为 [Tiamat-24B-Magistral](https://huggingface.co/Gryphe/Tiamat-24B-Magistral) 构建的角色与角色扮演数据集，采用多步生成/扩展/改进流水线，通过评论家-改进器重写减少 AI 陈词滥调，并针对每次交流反向生成推理轨迹模型使用 `preserve_thinking: true` 进行训练，因此思考标签在多轮对话的每个助手轮次中均保持激活，而不仅限于第一轮。

查看原文

查看缓存全文

缓存时间: 2026/05/30 11:18

Gryphe/Pantheon-Reasoning-27B · Hugging Face

来源：https://huggingface.co/Gryphe/Pantheon-Reasoning-27B

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#pantheon-reasoning-27bPantheon-Reasoning-27B

image/jpg (https://huggingface.co/Gryphe/Pantheon-Reasoning-27B/blob/main/Pantheon-Reasoning.jpg)

这是一次实验，旨在以未经审查的密集 Qwen 3.6 27B 模型为 Pantheon 角色扮演系列引入推理能力。此特定模型可被视为 Pantheon 系列和一次性 Codex 发布的继任者，因为这次我使用了种类繁多的数据。

这次尝试的另一个理论是：将 Pantheon 构建所用的数据配合完整的思维轨迹，让模型推理处理角色塑造——在落笔之前权衡语气、规划叙事节拍、思考角色实际应有的反应。这能否相较于非推理模型有意义地提升角色扮演质量，希望你能帮我解答这个问题。

GGUF 量化版本可在此处获取 (https://huggingface.co/bartowski/Gryphe_Pantheon-Reasoning-27B-GGUF)。

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#model-details模型详情

基座模型为 llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved (https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved)，在我看来自动拒答减少和写作能力方面的表现非常、非常出色。

我曾考虑过 Gemma 4 31B，但那个模型训练起来极其麻烦。真是独特的雪崩式架构。（牢骚，牢骚）

所有训练来源均包含完整的推理轨迹，每个助手回复轮次都启用思考过程：

Pantheon 数据 (~28%) — 核心 Pantheon 角色扮演语料库，推理轨迹通过下面描述的方法反向生成
Opus-4.6-Reasoning-24k (~21%) — 经过清洗和去重的 Claude Opus 4.6 推理轨迹聚合，覆盖通用指令遵循、STEM 和编程领域；提供广泛的推理主干
WorldSim 数据 (~16%) — Opus 4.6 的长篇叙事角色扮演，带有原生推理轨迹，聚焦于扩展故事叙中、角色沉浸和新兴世界逻辑，通过各种实验拼凑而成——主要以第三人称现在时为主，但也包含各类内容，当然也清理了陈词滥调！
文本冒险数据 (~16%) — 高风险的互动小说和文本冒险内容，带有反向生成的推理轨迹，赋予模型更扎实、更注重散文的写作风格
通用角色扮演数据 (~16%) — 广泛收集的多样化角色扮演对话记录，带有反向生成的推理轨迹，帮助模型更好地泛化到任意角色设定
Tiamat 数据 (~3%) — 最初为 Tiamat-24B-Magistral (https://huggingface.co/Gryphe/Tiamat-24B-Magistral) 构建的角色和角色扮演数据集，采用多步生成/扩展/改进流程，包含批评-改进者重写以减少 AI 陈词滥调，每次交互都反向生成了推理轨迹

模型使用 preserve_thinking: true 训练，因此在多轮对话中，思考标签在所有助手回复轮次中保持激活，而不仅仅是第一轮。

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#reasoning-back-generation推理反向生成

对于 Pantheon、文本冒险、Tiamat 和通用角色扮演数据，思维轨迹是事后使用 DeepSeek 3.2 生成的，并非源数据原生。我也尝试过 V4 Flash，但事实证明它在此特定任务上表现糟糕。该方法提示模型以作家的身份规划下一个回复——在写作之前——而不是对已存在的回复进行注释。这个区别很重要：目标是真正的前瞻性规划（考虑角色心理、语气和叙事方向），而非事后解释。

每个生成的轨迹在保留前都会由评判模型进行验证。那些滑向角色口吻、纯粹复述或读起来像是分析而非规划的轨迹会被拒绝并重新尝试。结果产生的思考反映了真正的创作决策，而非对回复内容的总结。

理论是这种推理能够半无缝地融入 Qwen 3.6 27B 的原生训练，从而增强而非粗暴地覆盖其能力。

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#what-is-pantheon什么是 Pantheon？

Pantheon 是我持续进行的角色扮演微调系列，构建于一组多样化的人物形象——具有鲜明个性、语态、口音和举止的角色。虽然我过去会确保详细列出这些角色是哪些，但实际上通常只有我自己在使用它们（笑），所以这次我就不费心列一大串了。

简而言之：十个人物形象被置于数百种场景中，从好到坏以及介于两者之间的各种情况。

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#inference推理

这些设置对我来说一直效果不错：

"temperature": 1.0, "repetition_penalty": 1.0, "min_p": 0.05

推理模型在无重复惩罚的情况下似乎表现更好——可能是因为它也会影响思维轨迹，尽管这些在输出中不可见。

我显然建议保持思考功能启用，理想情况下开启 preserve_thinking。话虽如此，我也非常好奇非推理模式下的表现！

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#prompt-format提示词格式

该模型使用 ChatML 通过 Qwen3.6 的聊天模板进行训练，此模板应自动应用。

由于推理与启用角色名称前缀通常不太兼容，我倾向于建议不要使用它们。

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#notes注意事项

这与我如今大多数发布版本一样，是一个研究性发布，除基本健全性检查外，未经过广泛的质量测试。核心问题——推理是否真的有助于角色扮演，还是仅仅增加了延迟？——这是我真正感到好奇的，您的反馈将比我自己的偏见更具启发性。请告诉我您的发现！

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#credits致谢

Anthracite (https://huggingface.co/anthracite-org) 的各位！大家好！
Latitude (https://huggingface.co/LatitudeGames)，我仍在定期为其制作微调模型，这帮助我保持技能精湛和与时俱进！
Opus 4.6 推理数据背后所有原始数据集作者——完整鸣谢见数据集卡 (https://huggingface.co/datasets/Gryphe/Opus-4.6-Reasoning-24k)
所有在 Discord 上每天与我聊天的小伙伴们！你们懂的。
以防万一，还包括我忘记提到的任何人！

Gryphe/Pantheon-Reasoning-27B · Hugging Face

Gryphe/Pantheon-Reasoning-27B · Hugging Face

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#pantheon-reasoning-27bPantheon-Reasoning-27B

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#model-details模型详情

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#reasoning-back-generation推理反向生成

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#what-is-pantheon什么是 Pantheon？

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#inference推理

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#prompt-format提示词格式

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#notes注意事项

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#credits致谢

相似文章

Qwen/Qwen3.6-27B-FP8

Qwen/Qwen3.6-27B

Qwen3.6-27B-GGUF 重磅发布！

hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

提交意见反馈