POLARIS：引导小模型写长篇故事

arXiv cs.CL 2026/06/04 04:00 论文

摘要

POLARIS 是一套训练方案，结合 GRPO 与 LLM-as-judge 奖励机制及人类参考注入技术，旨在提升小模型的长篇故事生成能力。将其应用于 Qwen3.5-9B 后，所得到的 POLARIS-9B 模型在创意写作基准测试中达到了 Qwen3.5-27B 的水平，同时在遵循长度指令方面表现更佳。

arXiv:2606.04095v1 Announce Type: new Abstract: 小型开放权重模型在长篇创意写作方面表现欠佳：生成的故事要么远达不到要求的长度，要么随着长度增加质量显著下降，与前沿模型相比尤为明显。我们提出 POLARIS（基于 LLM-as-a-judge 奖励与锚定参考注入的故事写作策略优化方法），这是一套计算开销较低的 GRPO 方案，包含两个核心要素：以前沿 LLM 作为评判者，采用结构化故事质量评分标准作为在线奖励；以及人类参考注入（HRI）机制——在每个 GRPO 组内，将经过教师强制的人类撰写故事作为高奖励锚点。我们将该训练方案应用于 Qwen3.5-9B，使用从 100 部短篇小说选集中提取的约 1.4K 条提示-故事对作为数据集，并借助 4 块 A100 GPU 进行训练，最终得到 POLARIS-9B。在涵盖分布内与分布外提示及评分标准的五项基准测试中，POLARIS-9B 在更严格遵循长度指令的同时，与体量大得多的开放权重模型相比仍具有竞争力。盲测人工评估进一步证实，POLARIS-9B 优于基础版 Qwen3.5-9B，并与 Qwen3.5-27B 不相上下。尽管训练数据仅包含不超过 4k 词的故事，POLARIS-9B 在处理要求长度达训练长度 3 倍的提示时仍能保持较高质量——而在这一区间，大多数开放权重模型的质量、长度遵循度或两者均会大幅下降。更广泛地看，我们的实验结果表明，长度泛化能力是评估创意写作模型的一项有意义的压力测试，也是区分性能相近模型的有效视角。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:12

# POLARIS：引导小模型创作长篇故事
来源：https://arxiv.org/abs/2606.04095
查看PDF (https://arxiv.org/pdf/2606.04095)

> **摘要：** 小型开放权重模型在长篇创意写作方面表现欠佳：生成的故事要么远未达到要求的长度，要么随着长度增加质量显著下滑，与前沿模型相比尤为明显。我们提出了 POLARIS（基于 LLM 评判奖励与锚定参考注入的故事写作策略优化，Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting），这是一种低算力的 GRPO 训练方案，包含两个核心要素：以前沿 LLM 作为评判者，采用结构化故事质量评分标准作为在线奖励；以及人类参考注入（HRI），即在每个 GRPO 组内将经过教师强制的人类书写故事作为高奖励锚点。我们将该训练方案应用于 Qwen3.5-9B，使用从 100 部短篇小说选集中提取的约 1,400 个提示-故事对数据集，并借助 4 块 A100 GPU，最终得到 POLARIS-9B。在涵盖分布内和分布外提示与评分标准的五个基准测试中，POLARIS-9B 在与更大规模开放权重模型相比具有竞争力的同时，也能更好地遵循长度指令。盲测人类评估结果证实，POLARIS-9B 优于基础版 Qwen3.5-9B，与 Qwen3.5-27B 不相上下。尽管训练时仅使用了不超过 4,000 词的故事，POLARIS-9B 在面对要求生成训练长度最多 3 倍故事的提示时仍能保持质量，而在这一范围内大多数开放权重模型的质量、长度遵从性或两者均会大幅下降。更广泛地来看，我们的结果表明，长度泛化能力是创意写作模型的一项有意义的压力测试，也是区分原本难分伯仲模型的有效视角。

## 提交历史

来自：Rishanth Rajendhran \[查看邮箱 (https://arxiv.org/show-email/70dede27/2606.04095)\] **\[v1\]** 2026年6月2日（周二）18:00:07 UTC（7,952 KB）

POLARIS：引导小模型写长篇故事

相似文章

多模块 GRPO：组合策略梯度与提示优化的语言模型程序方法

@rohanpaul_ai: 冻结的LLM在其隐藏状态深处仍携带可读的行为信号。Proprioceptive AI已创建了Cy…

搭配合适代理后，Qwen3.6-35B 可与云端模型一较高下

StoicLLM：小语言模型中基于哲学对齐的偏好优化

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

提交意见反馈