Gryphe/Pantheon-Reasoning-27B · Hugging Face

Reddit r/LocalLLaMA 模型

摘要

Gryphe 发布了 Pantheon-Reasoning-27B,这是一款未经审查的密集 Qwen 3.6 27B 模型,通过推理轨迹微调,增强了角色扮演和叙事生成。它结合角色扮演数据与完整思维轨迹,以提升角色沉浸感和叙事规划能力。

来自 Gryphe:一次为 Pantheon 角色扮演系列引入推理能力的实验,采用未经审查的密集 Qwen 3.6 27B 模型。可将此模型视为 Pantheon 系列和一次性 Codex 版本的共同继承者,因为这次我使用了海量多样化的数据。本次测试的另一个理论是:将构建 Pantheon 的数据与完整思维轨迹配对,让模型通过推理完成角色工作——权衡语气、规划叙事节奏、在确定台词前考虑角色实际会如何回应。这是否能有效提升角色扮演质量(相较于非推理模型),希望你也能帮我回答这个问题。GGUF 量化版本[可在此获取](https://huggingface.co/bartowski/Gryphe_Pantheon-Reasoning-27B-GGUF)。 # [](https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#model-details)模型详情 基础模型为 [llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved](https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved),据我所知,这在拒绝降低和写作能力方面效果非常出色。我曾考虑过 Gemma 4 31B,但该模型的训练极为棘手。某种特殊雪花架构带来的麻烦。(嘀嘀咕咕) 所有训练源均包含完整推理轨迹,且每个助手轮次均启用思考: * **Pantheon 数据**(约 28%)——核心 Pantheon 角色扮演语料库,使用下文所述方法反向生成推理轨迹 * **Opus-4.6-Reasoning-24k**(约 21%)——经过清洗和去重的 Claude Opus 4.6 推理轨迹集合,涵盖通用指令遵循、STEM 和编程,提供了广泛的推理基础 * **WorldSim 数据**(约 16%)——Opus 4.6 的长时间叙事角色扮演,带有原生推理轨迹,侧重于扩展性故事讲述、角色沉浸感和涌现世界逻辑,通过各种实验拼凑而成——主要为第三人称现在时,但也包含各类内容,并清洗了陈词滥调! * **文本冒险数据**(约 16%)——高风险交互式小说和文本冒险内容,带有反向生成的推理轨迹,赋予模型更接地气、注重文笔的写作风格 * **通用角色扮演数据**(约 16%)——广泛多样的角色扮演记录集,带有反向生成的推理轨迹,帮助模型泛化到任意角色设定 * **Tiamat 数据**(约 3%)——最初为 [Tiamat-24B-Magistral](https://huggingface.co/Gryphe/Tiamat-24B-Magistral) 构建的角色与角色扮演数据集,采用多步生成/扩展/改进流水线,通过评论家-改进器重写减少 AI 陈词滥调,并针对每次交流反向生成推理轨迹 模型使用 `preserve_thinking: true` 进行训练,因此思考标签在多轮对话的每个助手轮次中均保持激活,而不仅限于第一轮。
查看原文
查看缓存全文

缓存时间: 2026/05/30 11:18

Gryphe/Pantheon-Reasoning-27B · Hugging Face

来源:https://huggingface.co/Gryphe/Pantheon-Reasoning-27B

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#pantheon-reasoning-27bPantheon-Reasoning-27B

image/jpg (https://huggingface.co/Gryphe/Pantheon-Reasoning-27B/blob/main/Pantheon-Reasoning.jpg)

这是一次实验,旨在以未经审查的密集 Qwen 3.6 27B 模型为 Pantheon 角色扮演系列引入推理能力。此特定模型可被视为 Pantheon 系列和一次性 Codex 发布的继任者,因为这次我使用了种类繁多的数据。

这次尝试的另一个理论是:将 Pantheon 构建所用的数据配合完整的思维轨迹,让模型推理处理角色塑造——在落笔之前权衡语气、规划叙事节拍、思考角色实际应有的反应。这能否相较于非推理模型有意义地提升角色扮演质量,希望你能帮我解答这个问题。

GGUF 量化版本可在此处获取 (https://huggingface.co/bartowski/Gryphe_Pantheon-Reasoning-27B-GGUF)。

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#model-details模型详情

基座模型为 llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved (https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved),在我看来自动拒答减少和写作能力方面的表现非常、非常出色。

我曾考虑过 Gemma 4 31B,但那个模型训练起来极其麻烦。真是独特的雪崩式架构。(牢骚,牢骚)

所有训练来源均包含完整的推理轨迹,每个助手回复轮次都启用思考过程:

  • Pantheon 数据 (~28%) — 核心 Pantheon 角色扮演语料库,推理轨迹通过下面描述的方法反向生成
  • Opus-4.6-Reasoning-24k (~21%) — 经过清洗和去重的 Claude Opus 4.6 推理轨迹聚合,覆盖通用指令遵循、STEM 和编程领域;提供广泛的推理主干
  • WorldSim 数据 (~16%) — Opus 4.6 的长篇叙事角色扮演,带有原生推理轨迹,聚焦于扩展故事叙中、角色沉浸和新兴世界逻辑,通过各种实验拼凑而成——主要以第三人称现在时为主,但也包含各类内容,当然也清理了陈词滥调!
  • 文本冒险数据 (~16%) — 高风险的互动小说和文本冒险内容,带有反向生成的推理轨迹,赋予模型更扎实、更注重散文的写作风格
  • 通用角色扮演数据 (~16%) — 广泛收集的多样化角色扮演对话记录,带有反向生成的推理轨迹,帮助模型更好地泛化到任意角色设定
  • Tiamat 数据 (~3%) — 最初为 Tiamat-24B-Magistral (https://huggingface.co/Gryphe/Tiamat-24B-Magistral) 构建的角色和角色扮演数据集,采用多步生成/扩展/改进流程,包含批评-改进者重写以减少 AI 陈词滥调,每次交互都反向生成了推理轨迹

模型使用 preserve_thinking: true 训练,因此在多轮对话中,思考标签在所有助手回复轮次中保持激活,而不仅仅是第一轮。

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#reasoning-back-generation推理反向生成

对于 Pantheon、文本冒险、Tiamat 和通用角色扮演数据,思维轨迹是事后使用 DeepSeek 3.2 生成的,并非源数据原生。我也尝试过 V4 Flash,但事实证明它在此特定任务上表现糟糕。该方法提示模型以作家的身份规划下一个回复——在写作之前——而不是对已存在的回复进行注释。这个区别很重要:目标是真正的前瞻性规划(考虑角色心理、语气和叙事方向),而非事后解释。

每个生成的轨迹在保留前都会由评判模型进行验证。那些滑向角色口吻、纯粹复述或读起来像是分析而非规划的轨迹会被拒绝并重新尝试。结果产生的思考反映了真正的创作决策,而非对回复内容的总结。

理论是这种推理能够半无缝地融入 Qwen 3.6 27B 的原生训练,从而增强而非粗暴地覆盖其能力。

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#what-is-pantheon什么是 Pantheon?

Pantheon 是我持续进行的角色扮演微调系列,构建于一组多样化的人物形象——具有鲜明个性、语态、口音和举止的角色。虽然我过去会确保详细列出这些角色是哪些,但实际上通常只有我自己在使用它们(笑),所以这次我就不费心列一大串了。

简而言之:十个人物形象被置于数百种场景中,从好到坏以及介于两者之间的各种情况。

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#inference推理

这些设置对我来说一直效果不错:

"temperature": 1.0, "repetition_penalty": 1.0, "min_p": 0.05

推理模型在无重复惩罚的情况下似乎表现更好——可能是因为它也会影响思维轨迹,尽管这些在输出中不可见。

我显然建议保持思考功能启用,理想情况下开启 preserve_thinking。话虽如此,我也非常好奇非推理模式下的表现!

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#prompt-format提示词格式

该模型使用 ChatML 通过 Qwen3.6 的聊天模板进行训练,此模板应自动应用。

由于推理与启用角色名称前缀通常不太兼容,我倾向于建议不要使用它们。

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#notes注意事项

这与我如今大多数发布版本一样,是一个研究性发布,除基本健全性检查外,未经过广泛的质量测试。核心问题——推理是否真的有助于角色扮演,还是仅仅增加了延迟?——这是我真正感到好奇的,您的反馈将比我自己的偏见更具启发性。请告诉我您的发现!

https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#credits致谢

  • Anthracite (https://huggingface.co/anthracite-org) 的各位!大家好!
  • Latitude (https://huggingface.co/LatitudeGames),我仍在定期为其制作微调模型,这帮助我保持技能精湛和与时俱进!
  • Opus 4.6 推理数据背后所有原始数据集作者——完整鸣谢见数据集卡 (https://huggingface.co/datasets/Gryphe/Opus-4.6-Reasoning-24k)
  • 所有在 Discord 上每天与我聊天的小伙伴们!你们懂的。
  • 以防万一,还包括我忘记提到的任何人!

相似文章

Qwen/Qwen3.6-27B-FP8

Hugging Face Models Trending

阿里巴巴发布 Qwen3.6-27B-FP8,一款 27B 参数的 FP8 量化模型,在代理式编码与推理基准上表现强劲,现已上架 Hugging Face。

Qwen/Qwen3.6-27B

Hugging Face Models Trending

Qwen 在 Hugging Face 上发布了开源权重模型 Qwen3.6-27B,该模型具备更高的稳定性、强大的智能体编程能力以及思维链保留特性,有助于提升开发者的工作效率。

Qwen3.6-27B-GGUF 重磅发布!

Reddit r/LocalLLaMA

社区 GGUF 版本上线,Qwen 27B 混合架构模型支持 262K 上下文、多模态输入、工具调用,并保留“思考过程”,专为智能体编程而生。

Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

Hugging Face Models Trending

Jackrong 发布了 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,这是一个经过微调的 27B 参数模型,具有改进的推理能力和稳定性,并在 GitHub 上提供了使用 Unsloth 框架的全面训练指南和代码。