@adithya_s_k: 你现在可以直接用 TRL 对模型在智能体轨迹上进行微调：Claude Code 轨迹、Codex 轨迹、OpenClaw 轨迹、Pi 轨迹……

X AI KOLs Following 2026/06/04 15:14 工具

finetuning agent-traces trl huggingface sft training

摘要

TRL 现在支持对来自各种来源（如 Claude Code、Codex、OpenClaw 和 Pi）的智能体轨迹进行模型微调，这正朝着训练智能体模型的标准化栈迈进。

你现在可以直接用 TRL 对智能体轨迹进行模型微调 ✅ Claude Code 轨迹 ✅ Codex 轨迹 ✅ OpenClaw 轨迹 ✅ Pi 轨迹 ……更多感觉我们正在接近微调智能体模型的标准化栈。🤗

查看原文

查看缓存全文

缓存时间: 2026/06/05 11:14

你现在可以直接在 TRL 中对智能体轨迹进行微调了

✅ Claude Code 轨迹
✅ Codex 轨迹
✅ OpenClaw 轨迹
✅ Pi 轨迹
……更多轨迹正在加入

感觉我们离微调智能体模型的标准化工具链越来越近了 🤗

Quentin Lhoest 🤗 (@lhoestq):
智能体轨迹就是新的燃料。

期待宣布 trl 官方支持智能体轨迹训练 💥

（搭配即将发布的 datasets v5？）

选择你的本地、合成或社区轨迹，训练自己的专属智能体

🔜 trl sft --dataset-name julien-c/synthtraces

相似文章

@benhylak：我们构建了第一个本地调试智能体的合理方法。你可以查看你的追踪记录。codex/claude code 也可以。这允许……

X AI KOLs Timeline

一个新的开源工具可以通过查看追踪记录实现AI智能体的本地调试，允许使用codex和Claude code等工具自动编写评估并进行测试。

@ClementDelangue：我们需要开放追踪数据，让每个人都能训练开放的智能体模型！cc @steipete @badlogicgames @thdxr @matanSF @hwchase17

X AI KOLs Following

Clement Delangue 呼吁开放追踪数据，以普及开放智能体模型的训练。

我构建了一个工具，可以将您的 Claude Code 会话转化为用于本地模型的微调数据。

Reddit r/LocalLLaMA

一款名为 claude_converter 的新开源工具，可将 Claude Code 的会话日志转换为兼容 TRL/SFTTrainer、Axolotl 和 LLaMA-Factory 的微调数据集，使开发者能够利用真实的编程对话来训练本地模型。

@ShaokunZhang1: 想用你自己的模型训练你自己的Claude Code/Codex代理吗？我们很高兴推出ProRL Agent V2: Polar。A…

X AI KOLs Timeline

NVIDIA发布了Polar，一个用于黑盒智能体强化学习的开源基础设施，支持使用任何智能体工具或框架训练如Claude Code或Codex等编码智能体。

与您协同进步：将用户修正编译为编码代理的运行时强制

Hugging Face Daily Papers

TRACE 是一个技能层管道，通过从交互式编码代理中挖掘用户修正，编译为运行时检查，在减少重复偏好违反方面显著优于仅靠记忆，这一点在 ClawArena 和 MemoryArena 任务中得到验证。

提交意见反馈