@cjzafir: 这是我的微调数据集生成流程:> Codex 5.5 作为编排器 > Deepseek v4 Pro 作为生成器 简而言之…
摘要
本文描述了一个微调数据集生成流程,使用 Codex 5.5 作为编排器,Deepseek v4 Pro 作为生成器,通过自主质量门控和迭代改进,以低成本生成高质量合成数据。
这是我的微调数据集生成流程:
> Codex 5.5 作为编排器
> Deepseek v4 Pro 作为生成器
简言之,我用 Codex 充当大脑,Deepseek 充当肌肉,手工打造每一条数据集。正是这种“手工打造”带来了高质量。
用 Python 脚本通过同义改写来生成合成数据集并不难,但产出的数据质量低。
低质量数据 = 低质量模型性能
但借助这个流程,Codex 为 Deepseek 设计了一套完整的工作流。因此 Deepseek 不需要自己思考,只需按照 Codex 的规范逐批执行即可。
生成后,每批数据都会经过 Codex 构建的严格“质量门控”,过滤掉所有弱数据行,只保留高质量行。
最棒的是:每批数据都会让 Codex 改进其为 Deepseek 设计的生成规范以及质量门控。这个循环使得流程更快、更便宜,并产出越来越好的数据。
Deepseek v4 Pro 目前非常便宜。我生成了一个 100M+ 参数的数据集,花费 80 美元,并且用掉了 95% 的每周 Codex 20x Pro 订阅额度。
在我批准 Codex 工作流后,这个流程完全是自动化的。只需将这张图片粘贴到 Codex 中,让它针对你的用例生成一个数据集生成流程(详细说明:你要微调什么模型?你有原始数据集吗?等等),剩下的 Codex 会处理。告诉我你的体验。
相似文章
@OpenAI:切换到 Codex 的另一个理由。
OpenAI 推广切换到 Codex,强调采用其 AI 代码生成模型的另一个理由。
NVIDIA 工程师与研究人员如何利用 Codex 进行构建
NVIDIA 的工程师和研究人员正在使用由 GPT-5.5 驱动的 OpenAI Codex,作为处理复杂工程任务和端到端机器学习工作流的默认工具。本文重点介绍了通过在该 NVIDIA 基础设施上集成 Codex 所取得的显著生产力提升、自主系统构建以及研究自动化成果。
Codex 升级功能介绍
OpenAI 发布 GPT-5-Codex,这是 GPT-5 的优化版本,专为代理软件工程任务设计,可通过 API 和 Codex 集成开发环境获取,具有改进的代码审查功能和长形式任务执行能力。
@cjzafir:为什么 Codex 5.5 medium 的表现优于 Codex 5.5 extra high?在 Agents.md 中添加此规则:"不要与错误纠缠!每当遇到两次相同的错误时,上网搜索并找到 3-5 种解决方法。然后选择最高效的方案并实施。"
一位用户分享了一种优化 OpenAI Codex 5.5 的策略:使用 'extra high' 变体进行规划,使用 'medium' 变体执行任务,并辅以特定的错误处理规则,从而提高效率。
DataArc-SynData-Toolkit:用于多路径、多模态和多语言数据合成的统一闭环框架
本文介绍了 DataArc-SynData-Toolkit,这是一个开源框架,旨在简化多路径、多模态和多语言合成数据的生成。它通过统一的、基于配置的流水线,旨在降低技术门槛并提高在训练大型语言模型过程中的可用性。