llm-post-training

标签

Cards List
#llm-post-training

面向强化学习后训练的跨轮次自适应展开优化

arXiv cs.LG · 2026-06-05 缓存

本文提出了CERO,一种用于LLM强化学习后训练的跨轮次自适应展开优化方法。该方法利用贝叶斯后验方差,在提示和轮次之间分配固定的展开预算,以最大化样本效率,实现了理论遗憾界,并在数学推理任务上优于GRPO。

0 人收藏 0 人点赞
#llm-post-training

RUBRIC-ARROW:非可验证领域中LLM后训练的交替点状评分标准奖励建模

Hugging Face Daily Papers · 2026-05-27 缓存

RUBRIC-ARROW 提出了一种交替式奖励建模框架,通过减少平局并利用成对偏好数据改进了基于评分标准的方法,在非可验证领域为LLM后训练实现了具有竞争力的准确率和收益。

0 人收藏 0 人点赞
#llm-post-training

EDGE-OPD:利用证据引导的在线策略蒸馏内化特权上下文

arXiv cs.AI · 2026-05-25 缓存

本文提出了EDGE-OPD,一种针对大语言模型的在线策略自蒸馏改进方法,通过引导式采样和证据掩码来内化特权上下文,同时不损害通用能力,在稀有标记身份设定中取得了成功。

0 人收藏 0 人点赞
#llm-post-training

@anyscalecompute: LLM 后训练是新的基线。选择错误的方法或 GPU 配置会导致浪费 36 小时的运行。推出…

X AI KOLs Following · 2026-05-15 缓存

Anyscale 推出了一款新的 LLM 后训练 Agent Skill,可自动选择最优的微调方法(SFT、DPO、GRPO 等)并生成可随时启动的配置,帮助避免 GPU 运行浪费。

0 人收藏 0 人点赞
#llm-post-training

@sheriyuo: 大家期待已久的 Hands-on Modern RL 教程终于以英文PDF形式提供下载链接:https://github.com/walkinglabs/hands-on-modern-rl/releases/tag/v0.1.5…

X AI KOLs Timeline · 2026-05-15 缓存

一门开源、动手实践的现代强化学习课程,内容涵盖从经典控制到LLM后训练、RLHF、DPO、GRPO以及agentic RL,现提供免费英文PDF下载。

0 人收藏 0 人点赞
#llm-post-training

循旧图而航:大模型后训练中静态机制定位的陷阱

arXiv cs.CL · 2026-05-08 缓存

本文通过证明由于微调期间神经电路的动态演变,静态机制定位并不充分,从而对大模型后训练中的“先定位后更新”范式提出了挑战。它引入了新的指标来分析电路的稳定性,并提出了在机制定位中需要预测性框架。

0 人收藏 0 人点赞
#llm-post-training

TRN-R1-Zero:仅通过强化学习实现富文本网络推理

arXiv cs.CL · 2026-04-22 缓存

TRN-R1-Zero 提出一种后训练框架,让大模型在无需监督微调或思维链数据的情况下,仅凭强化学习即可对富文本网络进行零样本推理。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈