llm-post-training

标签

Cards List
#llm-post-training

@anyscalecompute: LLM 后训练是新的基线。选择错误的方法或 GPU 配置会导致浪费 36 小时的运行。推出…

X AI KOLs Following · 14小时前 缓存

Anyscale 推出了一款新的 LLM 后训练 Agent Skill,可自动选择最优的微调方法(SFT、DPO、GRPO 等)并生成可随时启动的配置,帮助避免 GPU 运行浪费。

0 人收藏 0 人点赞
#llm-post-training

@sheriyuo: 大家期待已久的 Hands-on Modern RL 教程终于以英文PDF形式提供下载链接:https://github.com/walkinglabs/hands-on-modern-rl/releases/tag/v0.1.5…

X AI KOLs Timeline · 21小时前 缓存

一门开源、动手实践的现代强化学习课程,内容涵盖从经典控制到LLM后训练、RLHF、DPO、GRPO以及agentic RL,现提供免费英文PDF下载。

0 人收藏 0 人点赞
#llm-post-training

循旧图而航:大模型后训练中静态机制定位的陷阱

arXiv cs.CL · 2026-05-08 缓存

本文通过证明由于微调期间神经电路的动态演变,静态机制定位并不充分,从而对大模型后训练中的“先定位后更新”范式提出了挑战。它引入了新的指标来分析电路的稳定性,并提出了在机制定位中需要预测性框架。

0 人收藏 0 人点赞
#llm-post-training

TRN-R1-Zero:仅通过强化学习实现富文本网络推理

arXiv cs.CL · 2026-04-22 缓存

TRN-R1-Zero 提出一种后训练框架,让大模型在无需监督微调或思维链数据的情况下,仅凭强化学习即可对富文本网络进行零样本推理。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈