POLARIS:引导小模型写长篇故事
摘要
POLARIS 是一套训练方案,结合 GRPO 与 LLM-as-judge 奖励机制及人类参考注入技术,旨在提升小模型的长篇故事生成能力。将其应用于 Qwen3.5-9B 后,所得到的 POLARIS-9B 模型在创意写作基准测试中达到了 Qwen3.5-27B 的水平,同时在遵循长度指令方面表现更佳。
查看缓存全文
缓存时间: 2026/06/05 02:12
# POLARIS:引导小模型创作长篇故事 来源:https://arxiv.org/abs/2606.04095 查看PDF (https://arxiv.org/pdf/2606.04095) > **摘要:** 小型开放权重模型在长篇创意写作方面表现欠佳:生成的故事要么远未达到要求的长度,要么随着长度增加质量显著下滑,与前沿模型相比尤为明显。我们提出了 POLARIS(基于 LLM 评判奖励与锚定参考注入的故事写作策略优化,Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting),这是一种低算力的 GRPO 训练方案,包含两个核心要素:以前沿 LLM 作为评判者,采用结构化故事质量评分标准作为在线奖励;以及人类参考注入(HRI),即在每个 GRPO 组内将经过教师强制的人类书写故事作为高奖励锚点。我们将该训练方案应用于 Qwen3.5-9B,使用从 100 部短篇小说选集中提取的约 1,400 个提示-故事对数据集,并借助 4 块 A100 GPU,最终得到 POLARIS-9B。在涵盖分布内和分布外提示与评分标准的五个基准测试中,POLARIS-9B 在与更大规模开放权重模型相比具有竞争力的同时,也能更好地遵循长度指令。盲测人类评估结果证实,POLARIS-9B 优于基础版 Qwen3.5-9B,与 Qwen3.5-27B 不相上下。尽管训练时仅使用了不超过 4,000 词的故事,POLARIS-9B 在面对要求生成训练长度最多 3 倍故事的提示时仍能保持质量,而在这一范围内大多数开放权重模型的质量、长度遵从性或两者均会大幅下降。更广泛地来看,我们的结果表明,长度泛化能力是创意写作模型的一项有意义的压力测试,也是区分原本难分伯仲模型的有效视角。 ## 提交历史 来自:Rishanth Rajendhran \[查看邮箱 (https://arxiv.org/show-email/70dede27/2606.04095)\] **\[v1\]** 2026年6月2日(周二)18:00:07 UTC(7,952 KB)
相似文章
多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法
本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。
@rohanpaul_ai: 冻结的LLM在其隐藏状态深处仍携带可读的行为信号。Proprioceptive AI已创建了Cy…
Proprioceptive AI发布了Cygnus,这是一款为冻结的LLM配备自感知适配器的工具,通过gl(4,R)李代数读取内部隐藏状态以隔离暗模式,将Qwen-32B在ARC-Challenge上的分数从82.2%提升到94.97%,仅使用一张RTX 3090且无需重新训练。
搭配合适代理后,Qwen3.6-35B 可与云端模型一较高下
将 Qwen3.6-35B 与 little-coder 代理框架结合,在 Polyglot 编程基准上达到 78.7%,跻身公开榜前十,直追云端模型。
StoicLLM:小语言模型中基于哲学对齐的偏好优化
本研究探讨了在Llama-3.2-3B和Qwen-3-4B等小型语言模型上使用偏好优化方法(ORPO、AlphaPO),通过微小数据集使其与斯多葛哲学对齐。研究发现,尽管300个样本可以有效编码斯多葛美德,但小型模型在处理外向型的宇宙公民义务时仍面临困难。
在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b,~190k 上下文
作者分享了一种高性能的本地推理配置,使用支持 TurboQuant 的修改版 llama.cpp,在硬件受限(8GB 显存、32GB 内存)的情况下运行 Qwen3.6 35B A3B,实现了 ~37-51 tok/sec 的生成速度,并支持 ~190k 上下文。