微调 API 功能改进和自定义模型项目扩展
摘要
OpenAI 推出微调 API 的功能改进,包括基于轮次的检查点、用于模型评估的对比体验区、第三方集成和增强的仪表板功能。该公司还扩展了其自定义模型项目,为开发者提供更多对构建领域特定 AI 解决方案的控制和灵活性。
我们正在添加新功能,帮助开发者更好地控制微调过程,同时宣布使用 OpenAI 构建自定义模型的新方式。
查看缓存全文
缓存时间: 2026/04/20 14:47
# 推出微调 API 改进和扩展我们的自定义模型项目
来源:https://openai.com/index/introducing-improvements-to-the-fine-tuning-api-and-expanding-our-custom-models-program/
开发者可以使用各种技术(https://www.youtube.com/watch?v=ahnGLM-RC1Y&list=PLOXw6I10VTv-exVCRuRjbT6bqkfO74rWz&index=4)来提高模型性能,以降低延迟、提高准确性和降低成本。无论是通过检索增强生成 (RAG) 扩展模型知识,通过微调自定义模型行为,还是通过新的领域特定知识构建自定义训练模型,我们都为客户的 AI 实施提供了一系列选项。今天,我们推出新功能,让开发者对 API 微调拥有更多控制权,同时引入更多方式来与我们的 AI 专家和研究人员团队合作构建自定义模型。
我们在 2023 年 8 月为 GPT-3.5 推出了自助式微调 API(https://platform.openai.com/docs/guides/fine-tuning)。此后,数千个组织已使用我们的 API 训练了数十万个模型。微调可以帮助模型深入理解内容,并为特定任务增强模型的现有知识和能力。我们的微调 API 还支持比单个提示中可容纳的数量更多的示例,以实现更高质量的结果,同时降低成本和延迟。微调的常见用例包括训练模型以在特定编程语言中生成更好的代码、以特定格式总结文本,或根据用户行为生成个性化内容。
例如,全球招聘匹配平台 Indeed(https://www.indeed.com/)希望简化招聘流程。为此,Indeed 推出了一项功能,向求职者发送个性化推荐,根据他们的技能、经验和偏好突出相关职位。他们对 GPT-3.5 Turbo 进行了微调,以生成更高质量和更准确的解释。结果,Indeed 通过将提示中的令牌数量减少 80% 来改进成本和延迟。这让他们能够从每月不到一百万条信息扩展到大约 2000 万条发送给求职者的信息。
今天,我们推出新功能(https://platform.openai.com/docs/guides/fine-tuning/create-a-fine-tuned-model),让开发者对微调任务拥有更多控制权,包括:
- **基于轮次的检查点创建:** 在每个训练轮次期间自动生成一个完整的微调模型检查点,减少后续重新训练的需求,特别是在过拟合的情况下
- **比较 Playground:** 新的并排 Playground UI,用于比较模型质量和性能,允许对多个模型或微调快照的输出与单个提示进行人工评估
- **第三方集成:** 支持与第三方平台的集成(本周开始支持 Weights and Biases(https://wandb.ai/site)),让开发者能够将详细的微调数据共享到其他堆栈
- **全面的验证指标:** 能够计算整个验证数据集上的指标(如损失和准确度),而不仅仅是采样批次,提供对模型质量的更好洞察
- **超参数配置:** 能够从仪表板(https://platform.openai.com/finetune)配置可用超参数(而不仅仅通过 API 或 SDK)
- **微调仪表板改进:** 包括配置超参数、查看更详细的训练指标以及从之前的配置重新运行任务的能力
fine-tuning-in-api
去年 11 月的 DevDay 上,我们宣布(https://openai.com/blog/new-models-and-developer-products-announced-at-devday)了自定义模型计划,旨在为特定领域训练和优化模型,与专门的 OpenAI 研究人员团队合作。此后,我们与数十个客户会面,以评估他们的自定义模型需求,并演进我们的计划以进一步最大化性能。
今天,我们正式宣布我们的辅助微调产品作为自定义模型计划的一部分。辅助微调是与我们的技术团队的协作,利用超越微调 API 的技术,如额外的超参数和大规模的各种参数高效微调 (PEFT) 方法。它特别适合需要支持建立高效训练数据管道、评估系统以及自定义参数和方法来最大化特定用例或任务的模型性能的组织。
例如,为韩国超过 3000 万用户提供服务的电信运营商 SK Telecom(https://www.sktelecom.com/index_en.html)希望自定义一个模型成为电信领域的专家,初期重点是客户服务。他们与 OpenAI 合作微调 GPT-4,以改进其在韩语电信相关对话中的性能。在几周的过程中,SKT 和 OpenAI 在电信客户服务任务上实现了有意义的性能改进——对话总结质量提高 35%,意图识别准确度提高 33%,与 GPT-4 相比,满意度评分从 3.6 分提高到 4.5 分(满分 5 分)。
在某些情况下,组织需要从头开始训练一个专门构建的模型,使其理解他们的业务、行业或领域。完全自定义训练的模型通过使用新颖的中期训练和后期训练技术修改模型训练过程的关键步骤,从特定领域注入新知识。看到完全自定义训练模型成功的组织通常拥有大量专有数据——数百万个示例或数十亿个令牌——他们想用它来教会模型新知识或复杂的、独特的行为以应对高度特定的用例。
例如,AI 本地法律工具 Harvey(https://www.harvey.ai/)与 OpenAI 合作创建了一个用于案例法的自定义训练大语言模型(https://openai.com/customer-stories/harvey)。虽然基础模型在推理方面表现强劲,但它们缺乏法律判例历史和法律工作所需的其他知识的广泛知识。在测试了提示工程、RAG 和微调后,Harvey 与我们的团队合作将所需的深层上下文添加到模型中——相当于 100 亿令牌的数据。我们的团队修改了模型训练过程的每一步,从领域特定的中期训练到自定义后期训练过程并纳入律师专家反馈。最终模型实现了因果反应增加 83%,律师对自定义模型的输出比 GPT-4 的偏好率达到 97%。
Index > Introducing Improvements > Media Item > Gif 2
我们相信,未来绝大多数组织将开发针对其行业、业务或用例进行个性化的自定义模型。通过提供的各种构建自定义模型的技术,各种规模的组织都可以开发个性化模型,从 AI 实施中实现更有意义、更具体的影响。关键是清楚地界定用例、设计和实施评估系统、选择正确的技术,并准备好随时间迭代,使模型达到最优性能。
通过 OpenAI,大多数组织可以使用自助式微调 API 快速看到有意义的结果。对于任何需要更深入地微调模型或将新的领域特定知识注入模型的组织,我们的自定义模型计划可以提供帮助。
访问我们的微调 API(https://platform.openai.com/docs/guides/fine-tuning)文档开始微调我们的模型。
相似文章
为微调 API 引入视觉功能
OpenAI 为 GPT-4o 推出视觉微调功能,允许开发者使用图像数据和文本对模型进行定制,以在视觉搜索、物体检测和医学影像分析等视觉任务中提升性能。
GPT-3.5 Turbo 微调和 API 更新
OpenAI 推出了 GPT-3.5 Turbo 的微调功能,允许开发者为特定用例定制模型,以获得更好的性能、可控性和输出格式。该更新使得经过微调的 GPT-3.5 Turbo 能够在某些任务上匹配 GPT-4 的性能,同时可将提示词大小减少 90%。
GPT-4o 现已支持微调
OpenAI 推出了 GPT-4o 和 GPT-4o mini 的微调功能,允许开发者使用自己的数据集以更低成本自定义模型。该功能包括免费的训练代币(GPT-4o 每天 1M,GPT-4o mini 每天 2M,有效期至 9 月 23 日),面向所有付费层级的开发者提供。
为 API 客户推出更多企业级功能
OpenAI 为 API 客户推出企业级功能,包括 Private Link、多因素认证、用于精细控制的 Projects,以及 Assistants API 的重大改进,包括增强的文件检索(提升 500 倍)、流式传输支持和微调模型支持。
OpenAI 与 Scale 合作为企业提供模型微调支持
OpenAI 与 Scale 合作,为企业提供微调模型的支持,使公司能够在 Scale 的数据增强和评估专业技术帮助下,安全地在专有数据上自定义 GPT-3.5 和 GPT-4。