@cjzafir: 这是我的微调数据集生成流程：> Codex 5.5 作为编排器 > Deepseek v4 Pro 作为生成器简而言之…

X AI KOLs Timeline 2026/05/13 15:15 工具

fine-tuning dataset-generation synthetic-data codex deepseek pipeline

摘要

本文描述了一个微调数据集生成流程，使用 Codex 5.5 作为编排器，Deepseek v4 Pro 作为生成器，通过自主质量门控和迭代改进，以低成本生成高质量合成数据。

这是我的微调数据集生成流程： > Codex 5.5 作为编排器 > Deepseek v4 Pro 作为生成器简言之，我用 Codex 充当大脑，Deepseek 充当肌肉，手工打造每一条数据集。正是这种“手工打造”带来了高质量。用 Python 脚本通过同义改写来生成合成数据集并不难，但产出的数据质量低。低质量数据 = 低质量模型性能但借助这个流程，Codex 为 Deepseek 设计了一套完整的工作流。因此 Deepseek 不需要自己思考，只需按照 Codex 的规范逐批执行即可。生成后，每批数据都会经过 Codex 构建的严格“质量门控”，过滤掉所有弱数据行，只保留高质量行。最棒的是：每批数据都会让 Codex 改进其为 Deepseek 设计的生成规范以及质量门控。这个循环使得流程更快、更便宜，并产出越来越好的数据。 Deepseek v4 Pro 目前非常便宜。我生成了一个 100M+ 参数的数据集，花费 80 美元，并且用掉了 95% 的每周 Codex 20x Pro 订阅额度。在我批准 Codex 工作流后，这个流程完全是自动化的。只需将这张图片粘贴到 Codex 中，让它针对你的用例生成一个数据集生成流程（详细说明：你要微调什么模型？你有原始数据集吗？等等），剩下的 Codex 会处理。告诉我你的体验。

查看原文

@cjzafir: 这是我的微调数据集生成流程：> Codex 5.5 作为编排器 > Deepseek v4 Pro 作为生成器简而言之…

相似文章

@cjzafir: 359M Token 在 72 小时内烧掉。成本：约 78 美元。结果：新的 240M 微调数据集。过程：> Codex 5.5 作为编排器。…

@cjzafir：在 Claude Fable 5 被禁之前，我把我所有的微调研究和实验变成了一个产品：http://Finetuner…

@cjzafir: 我日常使用的模型：> Codex 5.5 high (fast) > Deepseek v4 pro via API > Kimi 2.6 via API 我正在微调的模型...

DeepSeek 开源推理优化，生成速度提升 60–85% [pdf]

@reach_vb: https://x.com/reach_vb/status/2057880274348695995

提交意见反馈