打造可持续AI优势的三个要点
摘要
Intercom分享了他们快速采用AI来改造客户服务平台的三个经验:深度测试模型、从一开始就以AI为中心的架构而非后期集成、以及使用严格的评估流程快速采用GPT-4.1等新模型。
了解Intercom如何通过评估、架构等3个关键要点构建可扩展的AI平台,并领导客户支持的未来发展。
查看缓存全文
缓存时间: 2026/04/20 14:48
# Intercom 创造可持续 AI 优势的三个经验
来源:https://openai.com/index/intercom/
当 ChatGPT 在 2022 年推出时,Intercom(https://www.intercom.com/)不仅仅是观察新闻标题——他们迅速行动。在 GPT-3.5 发布几小时内,这家客户服务软件公司就开始了实验,仅四个月后,他们推出了 Fin——他们的 AI Agent,现在每月解决数百万个客户查询。
这种早期动力并非偶然。随着大语言模型的快速发展,Intercom 认识到 AI 将重塑客户体验。领导层迅速采取行动,组建了跨职能工作小组,取消了非 AI 项目,并投入 1 亿美元重新打造围绕 AI 的业务平台。
这一决策引发了公司范围内的变化:产品团队重组、新的 AI-first 帮助台战略,以及为 Fin 处理大量复杂客户查询而构建的平台。
以下是 Intercom 旅程中的三个经验,任何团队——无论从哪里开始——都可以立即应用。
> "AI-first 必须内置其中;你不能事后再添加它。"
Paul Adams,Intercom 首席产品官
**Intercom 早期、频繁地测试模型,并从工作中深入学习。**
团队早期就开始了生成式模型实验,他们的实际操作经验帮助他们找出了模型的局限性和机遇。当 GPT-4 在 2023 年初推出时,他们已做好准备。四个月内,他们推出了 Fin——之后就没有放慢过步伐。
Intercom 工程副总裁 Jordan Neill 表示:"我们能够利用 GPT-3.5 进行流畅的对话,虽然有些地方展现了魔力,但还不足以信任处理我们的客户服务。正因为我们做过功课,当 GPT-4 问世时,我们知道它已经准备好了,于是我们推出了 Fin。"
这种流畅的理解也帮助 Intercom 设计了 Fin Tasks——一个自动化复杂工作流的系统,例如退款和技术支持。虽然团队最初计划基于推理模型的堆栈,但他们的评估表明 GPT-4.1 单独就能胜任这项工作——具有高可靠性和更低延迟。
如今,GPT-4.1 支撑了 Intercom AI 使用量不断增长的部分,包括 Fin Tasks 内的关键逻辑。团队还发现,向非推理查询添加思维链提示词可以弥补性能差距。
**Intercom 的收获:你对模型了解得越深,你适应技术进步的速度就越快。**
在 Intercom 的评估中,GPT-4.1 在完成任务时表现出最高的可靠性,同时相比 GPT-4o 降低了 20% 的成本。完整性数字是通过 5 次独立运行(使用 Pass@k)的平均值得出的;只有在所有 5 次运行中都成功的结果才被计为"完整",以减少方差。
**要快速行动,你必须衡量什么有效——以及为什么有效。**
Intercom 快速采用新模型、模态和架构的能力源于他们的**严格评估流程**。每个新的 OpenAI 模型——无论是用于 Fin Voice(由 Realtime API 驱动)还是用于 Fin Tasks(由 GPT-4.1 驱动)——都要经历结构化离线测试和实时 A/B 试验,以评估指令跟随能力、工具调用准确性和整体连贯性,然后才能部署。
例如,团队根据实际支持交互的转录本对模型进行基准测试,评估它们如何处理多步骤指令(如退款)、保持 Fin 的品牌声音以及可靠地执行函数调用。这些结果为实时 A/B 测试提供依据,比较 GPT-4 和 GPT-4.1 等模型在解决率和客户满意度上的表现。
这种方法帮助 Intercom 仅在几天内就从 GPT-4 迁移到了 GPT-4.1。在确认了指令处理和函数执行的改进后,他们在 Fin Tasks 中推出了 GPT-4.1,并立即看到了性能和用户满意度的提升。
Intercom 的首席机器学习科学家 Pedro Tabacof 表示:"当 GPT-4.1 发布时,我们在 48 小时内就有了评估结果,随后立即制定了推出计划。我们立即看到 GPT-4.1 对客户需求来说有着很好的智能和延迟平衡。"
对于 Fin Voice,同样的评估流程帮助 Intercom 验证了新的语音模型快照,并指出了延迟、函数执行和脚本遵循方面的改进:这些都对实现高质量电话支持至关重要。
Intercom 扩展了他们的评估范围,以捕捉语音为交互带来的额外维度。他们系统地评估 Fin Voice 的个性、语调、中断处理和背景噪声等因素,确保高质量的客户体验。
**Intercom 从第一天起就为变化而设计,构建了足够灵活的架构以随着所依赖的模型一起演进。**
Fin 的系统在设计上是模块化的,支持多种模态,如聊天、邮件和语音,每种都有不同的延迟和复杂性权衡。该架构允许 Intercom 将查询路由到最合适的模型,并在不重新设计底层系统的情况下交换模型。
这种灵活性是刻意的,并在不断演进。Fin 的架构现在已是第三代主要迭代,下一代已在开发中。随着模型的改进,团队在需要的地方增加复杂性以解锁新功能,在可能的地方简化。
这种适应性在 Fin Tasks 中被证明至关重要。最初,团队假设他们需要基于推理的模型来支持 Fin Tasks——这使 Fin 能够解决复杂的客户查询并执行多步骤流程,如发放退款、进行账户更改或技术故障排除。
但在测试中,GPT-4.1 的指令跟随能力表现超出预期,以更低的延迟和成本提供相同的可靠性。
Intercom 的首席机器学习工程师 Pratik Bothra 表示:"老实说,我认为人们对 GPT-4.1 的讨论还不够。我们对其延迟和成本特性感到真正惊讶。它让我们能够改变架构方向,并移除大量复杂性。"
团队才刚刚开始。由先进模型驱动,建立在模块化、与模型无关的架构之上,Intercom 正在扩展超越客户支持范围,为整个业务的工作流程提供支持,实现更快的解决和更好的客户体验:
- **支持团队:**通过 Fin AI Agent 解决跨聊天、邮件、语音等渠道的大部分入站查询
- **运营团队:**通过 Fin Tasks 自动化复杂工作流,如退款、账户更改和订阅更新
- **产品团队:**使用 Intercom 的 MCP Server,AI 工具如 ChatGPT 可以访问客户对话、工单和用户数据——帮助整个业务的团队发现漏洞、塑造路线图、优化消息,并为季度业务评审做准备。
Intercom 通过在评估上保持严谨、在性能上脚踏实地、在设计上保持灵活,构建了一个可扩展的 AI 平台——重新定义了支持,并为任何利用 AI 构建的公司提供了经验教训。
相似文章
将 AI 投入实际应用:数百个成功部署的经验教训
OpenAI 举办了一场网络研讨会,分享了来自数百个生产环境中成功 AI 部署的经验和见解,为实施 AI 解决方案的组织提供实用指导。
利用人工智能进行教学
OpenAI分享了教育工作者关于将ChatGPT等人工智能工具融入教学的观点,包括利用AI提供语言支持以及教导学生批判性思考AI生成内容的方法。
AI 的负责任和安全使用
OpenAI 发布了一份关于 AI 负责任和安全使用的指南,为 ChatGPT 用户提供最佳实践,包括保持人类参与、验证信息、警惕偏见和在 AI 使用中保持透明度。
扩展我们构建和测试最先进 AI 的方式
随着 AI 模型变得越来越强大且个性化,本文探讨了可靠性、安全性以及用户保护日益增长的重要性。
使用 GPT-4 树立新的客户服务标准
Ada 利用 GPT-4 和由 OpenAI API 驱动的多智能体系统来提升客户服务质量,将问题解决率从 30% 提高到 60-80%,同时保持高解决率,建立了超越传统指标的新行业标准。