标签
TRL 现在支持对来自各种来源(如 Claude Code、Codex、OpenClaw 和 Pi)的智能体轨迹进行模型微调,这正朝着训练智能体模型的标准化栈迈进。
介绍推理原语诱导(Reasoning Primitive Induction)方法,该方法从成功的ReAct轨迹中挖掘,将重复出现的推理动作聚类为类型化的伪工具,在基准测试上比原始智能体高出数十个百分点。
已发布用于在 Hugging Face Hub 上渲染 Agent Traces 的新文档页面。
一个名为teich的库可以将代理轨迹转换为有监督微调(SFT)数据集,简化了AI训练的数据集准备。
ZenithDB是一款新的开源Rust数据库,专为存储和查询AI智能体跟踪而设计。通过在压缩过程中将同一跟踪的所有跨度放在同一个位置,它在10亿行数据上实现了亚毫秒级的跟踪获取延迟,并内置了全文搜索和延迟物化功能。