long-form-generation

#long-form-generation

POLARIS：引导小模型写长篇故事

arXiv cs.CL ↗ · 5天前缓存

POLARIS 是一套训练方案，结合 GRPO 与 LLM-as-judge 奖励机制及人类参考注入技术，旨在提升小模型的长篇故事生成能力。将其应用于 Qwen3.5-9B 后，所得到的 POLARIS-9B 模型在创意写作基准测试中达到了 Qwen3.5-27B 的水平，同时在遵循长度指令方面表现更佳。

0 人收藏 0 人点赞

#long-form-generation

微宏观检索：减少大型语言模型的长文本幻觉

arXiv cs.CL ↗ · 2026-05-29 缓存

本文介绍了微宏观检索（M2R），一种边检索边生成的框架，通过确保关键信息紧邻生成文本，减少长文本LLM输出中的幻觉。它使用基于课程学习的强化学习来训练检索和接地技能，在长上下文场景中尤其有效。

0 人收藏 0 人点赞

long-form-generation

POLARIS：引导小模型写长篇故事

微宏观检索：减少大型语言模型的长文本幻觉

提交意见反馈