@yacinelearning: 很棒的资源,来自Hugging Face,附有幻灯片,介绍了他们如何生成1万亿合成数据,非常酷…
摘要
Hugging Face 分享了幻灯片,详细介绍了他们如何生成1万亿个token的合成数据来训练基础模型。
非常棒的资源来自Hugging Face,附有幻灯片,关于他们如何生成1万亿合成数据
一个非常酷的预览,展示了我们供基础模型使用的数据 https://t.co/OBmFw8YXbV
查看缓存全文
缓存时间: 2026/05/26 16:55
来自 Hugging Face 的极好资源,附有幻灯片,介绍了他们如何生成了 1T 的合成数据
关于我们向基础模型输入的内容,这真是一个很酷的抢先预览 https://t.co/OBmFw8YXbV
相似文章
Hugging Face 数据集突破 100 万!
庆祝 Hugging Face 社区达成 100 万个数据集的里程碑,彰显社区通过开放数据协作推动 AI 发展的共同努力。
@Thom_Wolf:超爱 Aksel 和 Hugging Face 后训练团队的这项工作!原来 HF 生态(论文、数据集、模型全部一条 CLI 就能拉,还有 skills 和 md 文件)天生就是跑 SOTA ML 智能体的土壤:能让智能体把任意 AI 模型自动训到顶尖性能。
Hugging Face 后训练团队展示 HF 生态如何让 ML 智能体自主把任何 AI 模型训到巅峰性能。
按需生成合成训练数据时,什么才是关键?
Abliteration 推出了一种按需定制的合成训练数据工作流,可为分类器生成负样本、罕见样本和对抗性样本,包含模式、真实世界事实、标签、来源追溯,并支持导出到 Hugging Face 等平台。
@huggingface: 我们刚刚在 Hugging Face Hub 上达到了 100 万个开放数据集。开放模型需要开放数据。今天我们达成了这一里程碑,共同……
Hugging Face 宣布其 Hub 上的开放数据集数量已达到 100 万个的里程碑,强调了开放数据对于开放模型的重要性。
@neural_avb:观看这个45分钟的视频,学习如何创建合成数据集并训练针对狭窄任务的小型(1亿参数)本地语言模型…
一个45分钟的视频教程,关于创建合成数据集并训练针对狭窄任务的小型(1亿参数)本地语言模型,提供了代码和资源。