@adithya_s_k: 你现在可以直接用 TRL 对模型在智能体轨迹上进行微调:Claude Code 轨迹、Codex 轨迹、OpenClaw 轨迹、Pi 轨迹……
摘要
TRL 现在支持对来自各种来源(如 Claude Code、Codex、OpenClaw 和 Pi)的智能体轨迹进行模型微调,这正朝着训练智能体模型的标准化栈迈进。
查看缓存全文
缓存时间: 2026/06/05 11:14
你现在可以直接在 TRL 中对智能体轨迹进行微调了
✅ Claude Code 轨迹
✅ Codex 轨迹
✅ OpenClaw 轨迹
✅ Pi 轨迹
……更多轨迹正在加入
感觉我们离微调智能体模型的标准化工具链越来越近了 🤗
Quentin Lhoest 🤗 (@lhoestq):
智能体轨迹就是新的燃料。期待宣布
trl官方支持智能体轨迹训练 💥(搭配即将发布的
datasetsv5?)选择你的本地、合成或社区轨迹,训练自己的专属智能体
🔜
trl sft --dataset-name julien-c/synthtraces
相似文章
@benhylak:我们构建了第一个本地调试智能体的合理方法。你可以查看你的追踪记录。codex/claude code 也可以。这允许……
一个新的开源工具可以通过查看追踪记录实现AI智能体的本地调试,允许使用codex和Claude code等工具自动编写评估并进行测试。
@ClementDelangue:我们需要开放追踪数据,让每个人都能训练开放的智能体模型!cc @steipete @badlogicgames @thdxr @matanSF @hwchase17
Clement Delangue 呼吁开放追踪数据,以普及开放智能体模型的训练。
@ShaokunZhang1: 想用你自己的模型训练你自己的Claude Code/Codex代理吗?我们很高兴推出ProRL Agent V2: Polar。A…
NVIDIA发布了Polar,一个用于黑盒智能体强化学习的开源基础设施,支持使用任何智能体工具或框架训练如Claude Code或Codex等编码智能体。
@shao__meng: Claude Code、Cursor、Codex、Aider、Cline 部分底层模型可能完全相同,但 Agent 表现却不一样,为什么? @addyosmani 认为:是因为模型之上的那层“外壳” —— Harness,它包括「提示词、…
The article discusses how Addy Osmani argues that the performance difference between AI coding agents like Claude Code, Cursor, and Cline stems from their 'Harness'—the layer of prompts, tools, and constraints around the model—rather than the underlying model itself. It details best practices for harness engineering, including hooks, sandboxing, and context management, to bridge the gap between model capability and actual agent performance.
@julien_c:今天我要发布一个名为 SynthTraces 的新项目,它是一个极简的代码库,用于生成合成编码智能体会话轨迹…
Julien Chaumond 发布了 SynthTraces,这是一个极简的代码库,通过让一个开放模型(通过 HF Inference Providers)与一个本地小模型(通过 llama.cpp)在真实开源代码库上交互,生成合成编码智能体会话轨迹,已产出超过 2,000 个 Pi 会话轨迹,可用于训练和微调大语言模型。