llm-post-training

#llm-post-training

面向强化学习后训练的跨轮次自适应展开优化

arXiv cs.LG ↗ · 2026-06-05 缓存

本文提出了CERO，一种用于LLM强化学习后训练的跨轮次自适应展开优化方法。该方法利用贝叶斯后验方差，在提示和轮次之间分配固定的展开预算，以最大化样本效率，实现了理论遗憾界，并在数学推理任务上优于GRPO。

0 人收藏 0 人点赞

#llm-post-training

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

RUBRIC-ARROW 提出了一种交替式奖励建模框架，通过减少平局并利用成对偏好数据改进了基于评分标准的方法，在非可验证领域为LLM后训练实现了具有竞争力的准确率和收益。

0 人收藏 0 人点赞

#llm-post-training

arXiv cs.AI ↗ · 2026-05-25 缓存

本文提出了EDGE-OPD，一种针对大语言模型的在线策略自蒸馏改进方法，通过引导式采样和证据掩码来内化特权上下文，同时不损害通用能力，在稀有标记身份设定中取得了成功。

0 人收藏 0 人点赞

#llm-post-training

X AI KOLs Following ↗ · 2026-05-15 缓存

Anyscale 推出了一款新的 LLM 后训练 Agent Skill，可自动选择最优的微调方法（SFT、DPO、GRPO 等）并生成可随时启动的配置，帮助避免 GPU 运行浪费。

0 人收藏 0 人点赞

#llm-post-training

X AI KOLs Timeline ↗ · 2026-05-15 缓存

一门开源、动手实践的现代强化学习课程，内容涵盖从经典控制到LLM后训练、RLHF、DPO、GRPO以及agentic RL，现提供免费英文PDF下载。

0 人收藏 0 人点赞

#llm-post-training

arXiv cs.CL ↗ · 2026-05-08 缓存

本文通过证明由于微调期间神经电路的动态演变，静态机制定位并不充分，从而对大模型后训练中的“先定位后更新”范式提出了挑战。它引入了新的指标来分析电路的稳定性，并提出了在机制定位中需要预测性框架。

0 人收藏 0 人点赞

#llm-post-training

arXiv cs.CL ↗ · 2026-04-22 缓存

TRN-R1-Zero 提出一种后训练框架，让大模型在无需监督微调或思维链数据的情况下，仅凭强化学习即可对富文本网络进行零样本推理。

0 人收藏 0 人点赞