llm-post-training

#llm-post-training

@anyscalecompute: LLM 后训练是新的基线。选择错误的方法或 GPU 配置会导致浪费 36 小时的运行。推出…

X AI KOLs Following ↗ · 14小时前缓存

Anyscale 推出了一款新的 LLM 后训练 Agent Skill，可自动选择最优的微调方法（SFT、DPO、GRPO 等）并生成可随时启动的配置，帮助避免 GPU 运行浪费。

0 人收藏 0 人点赞

#llm-post-training

X AI KOLs Timeline ↗ · 21小时前缓存

一门开源、动手实践的现代强化学习课程，内容涵盖从经典控制到LLM后训练、RLHF、DPO、GRPO以及agentic RL，现提供免费英文PDF下载。

0 人收藏 0 人点赞

#llm-post-training

arXiv cs.CL ↗ · 2026-05-08 缓存

本文通过证明由于微调期间神经电路的动态演变，静态机制定位并不充分，从而对大模型后训练中的“先定位后更新”范式提出了挑战。它引入了新的指标来分析电路的稳定性，并提出了在机制定位中需要预测性框架。

0 人收藏 0 人点赞

#llm-post-training

arXiv cs.CL ↗ · 2026-04-22 缓存

TRN-R1-Zero 提出一种后训练框架，让大模型在无需监督微调或思维链数据的情况下，仅凭强化学习即可对富文本网络进行零样本推理。

0 人收藏 0 人点赞