@cjzafir: 这是我的微调数据集生成流程:> Codex 5.5 作为编排器 > Deepseek v4 Pro 作为生成器 简而言之…
摘要
本文描述了一个微调数据集生成流程,使用 Codex 5.5 作为编排器,Deepseek v4 Pro 作为生成器,通过自主质量门控和迭代改进,以低成本生成高质量合成数据。
这是我的微调数据集生成流程:
> Codex 5.5 作为编排器
> Deepseek v4 Pro 作为生成器
简言之,我用 Codex 充当大脑,Deepseek 充当肌肉,手工打造每一条数据集。正是这种“手工打造”带来了高质量。
用 Python 脚本通过同义改写来生成合成数据集并不难,但产出的数据质量低。
低质量数据 = 低质量模型性能
但借助这个流程,Codex 为 Deepseek 设计了一套完整的工作流。因此 Deepseek 不需要自己思考,只需按照 Codex 的规范逐批执行即可。
生成后,每批数据都会经过 Codex 构建的严格“质量门控”,过滤掉所有弱数据行,只保留高质量行。
最棒的是:每批数据都会让 Codex 改进其为 Deepseek 设计的生成规范以及质量门控。这个循环使得流程更快、更便宜,并产出越来越好的数据。
Deepseek v4 Pro 目前非常便宜。我生成了一个 100M+ 参数的数据集,花费 80 美元,并且用掉了 95% 的每周 Codex 20x Pro 订阅额度。
在我批准 Codex 工作流后,这个流程完全是自动化的。只需将这张图片粘贴到 Codex 中,让它针对你的用例生成一个数据集生成流程(详细说明:你要微调什么模型?你有原始数据集吗?等等),剩下的 Codex 会处理。告诉我你的体验。
相似文章
@cjzafir: 359M Token 在 72 小时内烧掉。成本:约 78 美元。结果:新的 240M 微调数据集。过程:> Codex 5.5 作为编排器。…
一位开发者使用 Codex 5.5 作为编排器、Deepseek v4 pro 作为执行器,生成了一个 240M Token 的微调数据集,烧掉了 359M Token,成本仅为 78 美元。
@cjzafir:在 Claude Fable 5 被禁之前,我把我所有的微调研究和实验变成了一个产品:http://Finetuner…
开发者 @cjzafir 宣布推出 Finetuner.dev,一个 CLI 工具,利用 Codex 5.5 等编排模型以及中国模型生成高质量、手工精制的数据集,用于微调小语言模型(1B-30B),声称成本降低 10 倍,质量提升 5 倍。
@cjzafir: 我日常使用的模型:> Codex 5.5 high (fast) > Deepseek v4 pro via API > Kimi 2.6 via API 我正在微调的模型...
用户分享了一份日常使用的AI模型列表(Codex 5.5、Deepseek v4 pro、Kimi 2.6)以及用于微调的模型(Qwen 3.5系列、Gemma4 E4B、GPT-oss 20B),目标是微调小型语言模型(SLM)成为专家语言模型(ELM)。
DeepSeek 开源推理优化,生成速度提升 60–85% [pdf]
DeepSeek 开源了 DeepSpec,这是一个用于训练和评估推测解码草稿模型的全栈代码库,可实现 60-85% 的生成速度提升。它包含数据准备、训练和评估脚本,支持多种草稿模型算法(DSpark、DFlash、Eagle3)。
@reach_vb: https://x.com/reach_vb/status/2057880274348695995
一名用户演示了使用OpenAI的Codex自动生成一个Colab笔记本,该笔记本在JAX/Flax/Optax中训练一个约1000万参数的transformer进行加法运算,在T4 GPU上经过4000步后达到了高准确率。