将您的编程会话捐赠至开放的CC-BY-4.0数据集，以帮助训练开放权重和开源模型

Reddit r/LocalLLaMA 2026/06/16 09:58 新闻

open-source open-weight coding-agent dataset training-data community-initiative

摘要

一项名为Trace Commons的新倡议旨在将编码智能体的追踪记录收集到开放CC-BY-4.0数据集中，以帮助训练开放权重和开源模型，从而对抗来自Anthropic和OpenAI的专有模型的数据优势。

Anthropic和OpenAI正在从Claude Code和Codex的使用中获得大量数据，我非常担心这会造成寡头垄断，因为只有他们的模型会基于这些数据进行训练，而开放权重和开源模型将被抛在后面。因此，我试图发起一项名为Trace Commons的小倡议，鼓励大家将他们的编码智能体追踪记录捐赠到一个开放数据集中（[https://trace-commons-web.hf.space/](https://trace-commons-web.hf.space/)），以便其他模型实验室也能基于这些数据进行训练。如果你有任何反馈，请告诉我，希望我们很快能拥有一个优秀的开放数据集！

查看原文

将您的编程会话捐赠至开放的CC-BY-4.0数据集，以帮助训练开放权重和开源模型

相似文章

@ClementDelangue：我们需要开放追踪数据，让每个人都能训练开放的智能体模型！cc @steipete @badlogicgames @thdxr @matanSF @hwchase17

@kevin_x_li: 介绍 SWE-ZERO-12M-trajectories：公开中最大的智能体追踪数据集，比之前最大的大5.7倍…

LocalLLaMA 众包编程数据集

OpenAI：只需这样做，每日获赠免费令牌

@ClementDelangue: 我们是否应该尝试训练一个开源AI构建模型？我们显然有有趣的数据集，如HF、MLintern、tran…

提交意见反馈