@adithya_s_k: 你现在可以直接用 TRL 对模型在智能体轨迹上进行微调:Claude Code 轨迹、Codex 轨迹、OpenClaw 轨迹、Pi 轨迹……

X AI KOLs Following 工具

摘要

TRL 现在支持对来自各种来源(如 Claude Code、Codex、OpenClaw 和 Pi)的智能体轨迹进行模型微调,这正朝着训练智能体模型的标准化栈迈进。

你现在可以直接用 TRL 对智能体轨迹进行模型微调 ✅ Claude Code 轨迹 ✅ Codex 轨迹 ✅ OpenClaw 轨迹 ✅ Pi 轨迹 ……更多 感觉我们正在接近微调智能体模型的标准化栈。🤗
查看原文
查看缓存全文

缓存时间: 2026/06/05 11:14

你现在可以直接在 TRL 中对智能体轨迹进行微调了

✅ Claude Code 轨迹
✅ Codex 轨迹
✅ OpenClaw 轨迹
✅ Pi 轨迹
……更多轨迹正在加入

感觉我们离微调智能体模型的标准化工具链越来越近了 🤗

Quentin Lhoest 🤗 (@lhoestq):
智能体轨迹就是新的燃料。

期待宣布 trl 官方支持智能体轨迹训练 💥

(搭配即将发布的 datasets v5?)

选择你的本地、合成或社区轨迹,训练自己的专属智能体

🔜 trl sft --dataset-name julien-c/synthtraces

相似文章

@shao__meng: Claude Code、Cursor、Codex、Aider、Cline 部分底层模型可能完全相同,但 Agent 表现却不一样,为什么? @addyosmani 认为:是因为模型之上的那层“外壳” —— Harness,它包括「提示词、…

X AI KOLs Timeline

The article discusses how Addy Osmani argues that the performance difference between AI coding agents like Claude Code, Cursor, and Cline stems from their 'Harness'—the layer of prompts, tools, and constraints around the model—rather than the underlying model itself. It details best practices for harness engineering, including hooks, sandboxing, and context management, to bridge the gap between model capability and actual agent performance.

@julien_c:今天我要发布一个名为 SynthTraces 的新项目,它是一个极简的代码库,用于生成合成编码智能体会话轨迹…

X AI KOLs Following

Julien Chaumond 发布了 SynthTraces,这是一个极简的代码库,通过让一个开放模型(通过 HF Inference Providers)与一个本地小模型(通过 llama.cpp)在真实开源代码库上交互,生成合成编码智能体会话轨迹,已产出超过 2,000 个 Pi 会话轨迹,可用于训练和微调大语言模型。