Gryphe/Pantheon-Reasoning-27B · Hugging Face
摘要
Gryphe 发布了 Pantheon-Reasoning-27B,这是一款未经审查的密集 Qwen 3.6 27B 模型,通过推理轨迹微调,增强了角色扮演和叙事生成。它结合角色扮演数据与完整思维轨迹,以提升角色沉浸感和叙事规划能力。
查看缓存全文
缓存时间: 2026/05/30 11:18
Gryphe/Pantheon-Reasoning-27B · Hugging Face
来源:https://huggingface.co/Gryphe/Pantheon-Reasoning-27B
https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#pantheon-reasoning-27bPantheon-Reasoning-27B
image/jpg (https://huggingface.co/Gryphe/Pantheon-Reasoning-27B/blob/main/Pantheon-Reasoning.jpg)
这是一次实验,旨在以未经审查的密集 Qwen 3.6 27B 模型为 Pantheon 角色扮演系列引入推理能力。此特定模型可被视为 Pantheon 系列和一次性 Codex 发布的继任者,因为这次我使用了种类繁多的数据。
这次尝试的另一个理论是:将 Pantheon 构建所用的数据配合完整的思维轨迹,让模型推理处理角色塑造——在落笔之前权衡语气、规划叙事节拍、思考角色实际应有的反应。这能否相较于非推理模型有意义地提升角色扮演质量,希望你能帮我解答这个问题。
GGUF 量化版本可在此处获取 (https://huggingface.co/bartowski/Gryphe_Pantheon-Reasoning-27B-GGUF)。
https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#model-details模型详情
基座模型为 llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved (https://huggingface.co/llmfan46/Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved),在我看来自动拒答减少和写作能力方面的表现非常、非常出色。
我曾考虑过 Gemma 4 31B,但那个模型训练起来极其麻烦。真是独特的雪崩式架构。(牢骚,牢骚)
所有训练来源均包含完整的推理轨迹,每个助手回复轮次都启用思考过程:
- Pantheon 数据 (~28%) — 核心 Pantheon 角色扮演语料库,推理轨迹通过下面描述的方法反向生成
- Opus-4.6-Reasoning-24k (~21%) — 经过清洗和去重的 Claude Opus 4.6 推理轨迹聚合,覆盖通用指令遵循、STEM 和编程领域;提供广泛的推理主干
- WorldSim 数据 (~16%) — Opus 4.6 的长篇叙事角色扮演,带有原生推理轨迹,聚焦于扩展故事叙中、角色沉浸和新兴世界逻辑,通过各种实验拼凑而成——主要以第三人称现在时为主,但也包含各类内容,当然也清理了陈词滥调!
- 文本冒险数据 (~16%) — 高风险的互动小说和文本冒险内容,带有反向生成的推理轨迹,赋予模型更扎实、更注重散文的写作风格
- 通用角色扮演数据 (~16%) — 广泛收集的多样化角色扮演对话记录,带有反向生成的推理轨迹,帮助模型更好地泛化到任意角色设定
- Tiamat 数据 (~3%) — 最初为 Tiamat-24B-Magistral (https://huggingface.co/Gryphe/Tiamat-24B-Magistral) 构建的角色和角色扮演数据集,采用多步生成/扩展/改进流程,包含批评-改进者重写以减少 AI 陈词滥调,每次交互都反向生成了推理轨迹
模型使用 preserve_thinking: true 训练,因此在多轮对话中,思考标签在所有助手回复轮次中保持激活,而不仅仅是第一轮。
https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#reasoning-back-generation推理反向生成
对于 Pantheon、文本冒险、Tiamat 和通用角色扮演数据,思维轨迹是事后使用 DeepSeek 3.2 生成的,并非源数据原生。我也尝试过 V4 Flash,但事实证明它在此特定任务上表现糟糕。该方法提示模型以作家的身份规划下一个回复——在写作之前——而不是对已存在的回复进行注释。这个区别很重要:目标是真正的前瞻性规划(考虑角色心理、语气和叙事方向),而非事后解释。
每个生成的轨迹在保留前都会由评判模型进行验证。那些滑向角色口吻、纯粹复述或读起来像是分析而非规划的轨迹会被拒绝并重新尝试。结果产生的思考反映了真正的创作决策,而非对回复内容的总结。
理论是这种推理能够半无缝地融入 Qwen 3.6 27B 的原生训练,从而增强而非粗暴地覆盖其能力。
https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#what-is-pantheon什么是 Pantheon?
Pantheon 是我持续进行的角色扮演微调系列,构建于一组多样化的人物形象——具有鲜明个性、语态、口音和举止的角色。虽然我过去会确保详细列出这些角色是哪些,但实际上通常只有我自己在使用它们(笑),所以这次我就不费心列一大串了。
简而言之:十个人物形象被置于数百种场景中,从好到坏以及介于两者之间的各种情况。
https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#inference推理
这些设置对我来说一直效果不错:
"temperature": 1.0, "repetition_penalty": 1.0, "min_p": 0.05
推理模型在无重复惩罚的情况下似乎表现更好——可能是因为它也会影响思维轨迹,尽管这些在输出中不可见。
我显然建议保持思考功能启用,理想情况下开启 preserve_thinking。话虽如此,我也非常好奇非推理模式下的表现!
https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#prompt-format提示词格式
该模型使用 ChatML 通过 Qwen3.6 的聊天模板进行训练,此模板应自动应用。
由于推理与启用角色名称前缀通常不太兼容,我倾向于建议不要使用它们。
https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#notes注意事项
这与我如今大多数发布版本一样,是一个研究性发布,除基本健全性检查外,未经过广泛的质量测试。核心问题——推理是否真的有助于角色扮演,还是仅仅增加了延迟?——这是我真正感到好奇的,您的反馈将比我自己的偏见更具启发性。请告诉我您的发现!
https://huggingface.co/Gryphe/Pantheon-Reasoning-27B#credits致谢
- Anthracite (https://huggingface.co/anthracite-org) 的各位!大家好!
- Latitude (https://huggingface.co/LatitudeGames),我仍在定期为其制作微调模型,这帮助我保持技能精湛和与时俱进!
- Opus 4.6 推理数据背后所有原始数据集作者——完整鸣谢见数据集卡 (https://huggingface.co/datasets/Gryphe/Opus-4.6-Reasoning-24k)
- 所有在 Discord 上每天与我聊天的小伙伴们!你们懂的。
- 以防万一,还包括我忘记提到的任何人!
相似文章
Qwen/Qwen3.6-27B-FP8
阿里巴巴发布 Qwen3.6-27B-FP8,一款 27B 参数的 FP8 量化模型,在代理式编码与推理基准上表现强劲,现已上架 Hugging Face。
Qwen/Qwen3.6-27B
Qwen 在 Hugging Face 上发布了开源权重模型 Qwen3.6-27B,该模型具备更高的稳定性、强大的智能体编程能力以及思维链保留特性,有助于提升开发者的工作效率。
Qwen3.6-27B-GGUF 重磅发布!
社区 GGUF 版本上线,Qwen 27B 混合架构模型支持 262K 上下文、多模态输入、工具调用,并保留“思考过程”,专为智能体编程而生。
hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
一个 35B 参数的 Qwen3.6 模型,使用 Claude-Opus 风格的思维链蒸馏数据微调,并以 GGUF 量化格式发布,可在本地高效推理。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled
Jackrong 发布了 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,这是一个经过微调的 27B 参数模型,具有改进的推理能力和稳定性,并在 GitHub 上提供了使用 Unsloth 框架的全面训练指南和代码。