POLARIS:引导小模型写长篇故事

arXiv cs.CL 论文

摘要

POLARIS 是一套训练方案,结合 GRPO 与 LLM-as-judge 奖励机制及人类参考注入技术,旨在提升小模型的长篇故事生成能力。将其应用于 Qwen3.5-9B 后,所得到的 POLARIS-9B 模型在创意写作基准测试中达到了 Qwen3.5-27B 的水平,同时在遵循长度指令方面表现更佳。

arXiv:2606.04095v1 Announce Type: new Abstract: 小型开放权重模型在长篇创意写作方面表现欠佳:生成的故事要么远达不到要求的长度,要么随着长度增加质量显著下降,与前沿模型相比尤为明显。我们提出 POLARIS(基于 LLM-as-a-judge 奖励与锚定参考注入的故事写作策略优化方法),这是一套计算开销较低的 GRPO 方案,包含两个核心要素:以前沿 LLM 作为评判者,采用结构化故事质量评分标准作为在线奖励;以及人类参考注入(HRI)机制——在每个 GRPO 组内,将经过教师强制的人类撰写故事作为高奖励锚点。我们将该训练方案应用于 Qwen3.5-9B,使用从 100 部短篇小说选集中提取的约 1.4K 条提示-故事对作为数据集,并借助 4 块 A100 GPU 进行训练,最终得到 POLARIS-9B。在涵盖分布内与分布外提示及评分标准的五项基准测试中,POLARIS-9B 在更严格遵循长度指令的同时,与体量大得多的开放权重模型相比仍具有竞争力。盲测人工评估进一步证实,POLARIS-9B 优于基础版 Qwen3.5-9B,并与 Qwen3.5-27B 不相上下。尽管训练数据仅包含不超过 4k 词的故事,POLARIS-9B 在处理要求长度达训练长度 3 倍的提示时仍能保持较高质量——而在这一区间,大多数开放权重模型的质量、长度遵循度或两者均会大幅下降。更广泛地看,我们的实验结果表明,长度泛化能力是评估创意写作模型的一项有意义的压力测试,也是区分性能相近模型的有效视角。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:12

# POLARIS:引导小模型创作长篇故事
来源:https://arxiv.org/abs/2606.04095
查看PDF (https://arxiv.org/pdf/2606.04095)

> **摘要:** 小型开放权重模型在长篇创意写作方面表现欠佳:生成的故事要么远未达到要求的长度,要么随着长度增加质量显著下滑,与前沿模型相比尤为明显。我们提出了 POLARIS(基于 LLM 评判奖励与锚定参考注入的故事写作策略优化,Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting),这是一种低算力的 GRPO 训练方案,包含两个核心要素:以前沿 LLM 作为评判者,采用结构化故事质量评分标准作为在线奖励;以及人类参考注入(HRI),即在每个 GRPO 组内将经过教师强制的人类书写故事作为高奖励锚点。我们将该训练方案应用于 Qwen3.5-9B,使用从 100 部短篇小说选集中提取的约 1,400 个提示-故事对数据集,并借助 4 块 A100 GPU,最终得到 POLARIS-9B。在涵盖分布内和分布外提示与评分标准的五个基准测试中,POLARIS-9B 在与更大规模开放权重模型相比具有竞争力的同时,也能更好地遵循长度指令。盲测人类评估结果证实,POLARIS-9B 优于基础版 Qwen3.5-9B,与 Qwen3.5-27B 不相上下。尽管训练时仅使用了不超过 4,000 词的故事,POLARIS-9B 在面对要求生成训练长度最多 3 倍故事的提示时仍能保持质量,而在这一范围内大多数开放权重模型的质量、长度遵从性或两者均会大幅下降。更广泛地来看,我们的结果表明,长度泛化能力是创意写作模型的一项有意义的压力测试,也是区分原本难分伯仲模型的有效视角。

## 提交历史

来自:Rishanth Rajendhran \[查看邮箱 (https://arxiv.org/show-email/70dede27/2606.04095)\] **\[v1\]** 2026年6月2日(周二)18:00:07 UTC(7,952 KB)

相似文章

多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法

Papers with Code Trending

本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。

StoicLLM:小语言模型中基于哲学对齐的偏好优化

arXiv cs.CL

本研究探讨了在Llama-3.2-3B和Qwen-3-4B等小型语言模型上使用偏好优化方法(ORPO、AlphaPO),通过微小数据集使其与斯多葛哲学对齐。研究发现,尽管300个样本可以有效编码斯多葛美德,但小型模型在处理外向型的宇宙公民义务时仍面临困难。