打造可持续AI优势的三个要点

OpenAI Blog 2025/07/30 00:00 新闻

ai-strategy customer-service model-evaluation gpt-4 intercom fin-agent enterprise-ai

摘要

Intercom分享了他们快速采用AI来改造客户服务平台的三个经验：深度测试模型、从一开始就以AI为中心的架构而非后期集成、以及使用严格的评估流程快速采用GPT-4.1等新模型。

了解Intercom如何通过评估、架构等3个关键要点构建可扩展的AI平台，并领导客户支持的未来发展。

查看缓存全文

缓存时间: 2026/04/20 14:48

# Intercom 创造可持续 AI 优势的三个经验来源：https://openai.com/index/intercom/ 当 ChatGPT 在 2022 年推出时，Intercom（https://www.intercom.com/）不仅仅是观察新闻标题——他们迅速行动。在 GPT-3.5 发布几小时内，这家客户服务软件公司就开始了实验，仅四个月后，他们推出了 Fin——他们的 AI Agent，现在每月解决数百万个客户查询。这种早期动力并非偶然。随着大语言模型的快速发展，Intercom 认识到 AI 将重塑客户体验。领导层迅速采取行动，组建了跨职能工作小组，取消了非 AI 项目，并投入 1 亿美元重新打造围绕 AI 的业务平台。这一决策引发了公司范围内的变化：产品团队重组、新的 AI-first 帮助台战略，以及为 Fin 处理大量复杂客户查询而构建的平台。以下是 Intercom 旅程中的三个经验，任何团队——无论从哪里开始——都可以立即应用。 > "AI-first 必须内置其中；你不能事后再添加它。" Paul Adams，Intercom 首席产品官 **Intercom 早期、频繁地测试模型，并从工作中深入学习。** 团队早期就开始了生成式模型实验，他们的实际操作经验帮助他们找出了模型的局限性和机遇。当 GPT-4 在 2023 年初推出时，他们已做好准备。四个月内，他们推出了 Fin——之后就没有放慢过步伐。 Intercom 工程副总裁 Jordan Neill 表示："我们能够利用 GPT-3.5 进行流畅的对话，虽然有些地方展现了魔力，但还不足以信任处理我们的客户服务。正因为我们做过功课，当 GPT-4 问世时，我们知道它已经准备好了，于是我们推出了 Fin。" 这种流畅的理解也帮助 Intercom 设计了 Fin Tasks——一个自动化复杂工作流的系统，例如退款和技术支持。虽然团队最初计划基于推理模型的堆栈，但他们的评估表明 GPT-4.1 单独就能胜任这项工作——具有高可靠性和更低延迟。如今，GPT-4.1 支撑了 Intercom AI 使用量不断增长的部分，包括 Fin Tasks 内的关键逻辑。团队还发现，向非推理查询添加思维链提示词可以弥补性能差距。 **Intercom 的收获：你对模型了解得越深，你适应技术进步的速度就越快。** 在 Intercom 的评估中，GPT-4.1 在完成任务时表现出最高的可靠性，同时相比 GPT-4o 降低了 20% 的成本。完整性数字是通过 5 次独立运行（使用 Pass@k）的平均值得出的；只有在所有 5 次运行中都成功的结果才被计为"完整"，以减少方差。 **要快速行动，你必须衡量什么有效——以及为什么有效。** Intercom 快速采用新模型、模态和架构的能力源于他们的**严格评估流程**。每个新的 OpenAI 模型——无论是用于 Fin Voice（由 Realtime API 驱动）还是用于 Fin Tasks（由 GPT-4.1 驱动）——都要经历结构化离线测试和实时 A/B 试验，以评估指令跟随能力、工具调用准确性和整体连贯性，然后才能部署。例如，团队根据实际支持交互的转录本对模型进行基准测试，评估它们如何处理多步骤指令（如退款）、保持 Fin 的品牌声音以及可靠地执行函数调用。这些结果为实时 A/B 测试提供依据，比较 GPT-4 和 GPT-4.1 等模型在解决率和客户满意度上的表现。这种方法帮助 Intercom 仅在几天内就从 GPT-4 迁移到了 GPT-4.1。在确认了指令处理和函数执行的改进后，他们在 Fin Tasks 中推出了 GPT-4.1，并立即看到了性能和用户满意度的提升。 Intercom 的首席机器学习科学家 Pedro Tabacof 表示："当 GPT-4.1 发布时，我们在 48 小时内就有了评估结果，随后立即制定了推出计划。我们立即看到 GPT-4.1 对客户需求来说有着很好的智能和延迟平衡。" 对于 Fin Voice，同样的评估流程帮助 Intercom 验证了新的语音模型快照，并指出了延迟、函数执行和脚本遵循方面的改进：这些都对实现高质量电话支持至关重要。 Intercom 扩展了他们的评估范围，以捕捉语音为交互带来的额外维度。他们系统地评估 Fin Voice 的个性、语调、中断处理和背景噪声等因素，确保高质量的客户体验。 **Intercom 从第一天起就为变化而设计，构建了足够灵活的架构以随着所依赖的模型一起演进。** Fin 的系统在设计上是模块化的，支持多种模态，如聊天、邮件和语音，每种都有不同的延迟和复杂性权衡。该架构允许 Intercom 将查询路由到最合适的模型，并在不重新设计底层系统的情况下交换模型。这种灵活性是刻意的，并在不断演进。Fin 的架构现在已是第三代主要迭代，下一代已在开发中。随着模型的改进，团队在需要的地方增加复杂性以解锁新功能，在可能的地方简化。这种适应性在 Fin Tasks 中被证明至关重要。最初，团队假设他们需要基于推理的模型来支持 Fin Tasks——这使 Fin 能够解决复杂的客户查询并执行多步骤流程，如发放退款、进行账户更改或技术故障排除。但在测试中，GPT-4.1 的指令跟随能力表现超出预期，以更低的延迟和成本提供相同的可靠性。 Intercom 的首席机器学习工程师 Pratik Bothra 表示："老实说，我认为人们对 GPT-4.1 的讨论还不够。我们对其延迟和成本特性感到真正惊讶。它让我们能够改变架构方向，并移除大量复杂性。" 团队才刚刚开始。由先进模型驱动，建立在模块化、与模型无关的架构之上，Intercom 正在扩展超越客户支持范围，为整个业务的工作流程提供支持，实现更快的解决和更好的客户体验： - **支持团队：**通过 Fin AI Agent 解决跨聊天、邮件、语音等渠道的大部分入站查询 - **运营团队：**通过 Fin Tasks 自动化复杂工作流，如退款、账户更改和订阅更新 - **产品团队：**使用 Intercom 的 MCP Server，AI 工具如 ChatGPT 可以访问客户对话、工单和用户数据——帮助整个业务的团队发现漏洞、塑造路线图、优化消息，并为季度业务评审做准备。 Intercom 通过在评估上保持严谨、在性能上脚踏实地、在设计上保持灵活，构建了一个可扩展的 AI 平台——重新定义了支持，并为任何利用 AI 构建的公司提供了经验教训。

打造可持续AI优势的三个要点

相似文章

将 AI 投入实际应用：数百个成功部署的经验教训

利用人工智能进行教学

AI 的负责任和安全使用

扩展我们构建和测试最先进 AI 的方式

使用 GPT-4 树立新的客户服务标准

提交意见反馈