将您的编程会话捐赠至开放的CC-BY-4.0数据集,以帮助训练开放权重和开源模型

Reddit r/LocalLLaMA 新闻

摘要

一项名为Trace Commons的新倡议旨在将编码智能体的追踪记录收集到开放CC-BY-4.0数据集中,以帮助训练开放权重和开源模型,从而对抗来自Anthropic和OpenAI的专有模型的数据优势。

Anthropic和OpenAI正在从Claude Code和Codex的使用中获得大量数据,我非常担心这会造成寡头垄断,因为只有他们的模型会基于这些数据进行训练,而开放权重和开源模型将被抛在后面。因此,我试图发起一项名为Trace Commons的小倡议,鼓励大家将他们的编码智能体追踪记录捐赠到一个开放数据集中([https://trace-commons-web.hf.space/](https://trace-commons-web.hf.space/)),以便其他模型实验室也能基于这些数据进行训练。如果你有任何反馈,请告诉我,希望我们很快能拥有一个优秀的开放数据集!
查看原文

相似文章

LocalLLaMA 众包编程数据集

Reddit r/LocalLLaMA

一位社区成员提议为本地大语言模型创建一个众包编程数据集,以实现协作模型训练和微调,并回应了关于未来开源权重模型可用性的担忧。

OpenAI:只需这样做,每日获赠免费令牌

Reddit r/artificial

OpenAI 通过其数据共享计划提供每日免费 API 令牌(轻量模型最高 250 万令牌),只需在仪表盘中切换一个设置即可启用;代价是提示词和输出可能被用于训练。