在复杂监管领域扩展领域专业知识

OpenAI Blog 产品

摘要

Blue J 展示了如何通过将 GPT-4.1 与基于精选税务文档的检索增强生成相结合,在复杂监管领域扩展 AI 专业知识,实现低于 0.14% 的错误率和 70% 的周用户参与度,并通过严格的反馈循环和领域特定优化来优化性能。

了解 Blue J 如何通过基于 GPT-4.1 的 AI 驱动工具改变税务研究。通过将领域专业知识与检索增强生成相结合,Blue J 提供快速、准确且完整引注的税务答案——受到美国、加拿大和英国专业人士的信任。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:53

# Blue J 在复杂、受监管领域快速扩展的方法 来源:https://openai.com/index/blue-j/ 传统税务研究从筛选数百个资料来源开始,甚至在开始解释之前。税务专业人士随后需要花费数小时来解析法定条文、法规、裁决、判例法和专家评论,以理解规则之间的相互作用,并将其提炼为答案。 根据问题的复杂程度,这个过程可能需要数小时、数天,甚至数周——而且仍然可能产生不一致或过时的结果,每一个遗漏的细节都可能带来真实的成本。 Blue J(https://www.bluej.com/) 由税务法教授和从业者在 2015 年创立,他们看到了税务研究需要更好工具的必要性。基于早期在利用人工智能预测税法案件结果的探索,该团队继续开发了多种产品,以支持各种规模的税务和会计事务所。 当 ChatGPT 推出时,Blue J 看到了一个机会来创造全新的东西:将对密集法规的高级推理与结构化检索相结合,在几秒内提供专家级的税务答案,附带内联引用和专业人士可信赖的来源列表。 Blue J 的首席技术官 Brett Janssen 表示:"我们迅速行动,因为我们已经知道问题所在以及如何解决它。OpenAI 为我们提供了将这种专业知识扩展化所需的模型质量。" 在 ChatGPT 推出后的两年内,Blue J 在美国、加拿大和英国推出了采用 GPT-4.1 的税务研究引擎。他们在 ChatGPT 发布后仅 6 个月就推出了首个产品,随后进行快速迭代,从反馈中学习并构建了一个强大的评估框架。 如今,超过 70% 的用户每周登录,不同意率低于每 700 个回复中的 1 个。他们分享了进入复杂领域并通过将信任、准确性和速度视为不可妥协来快速扩展的经验。 Blue J 的税务研究解决方案采用检索增强生成(RAG)系统构建,将 GPT-4.1 与包含权威主要来源和来自 Tax Notes 等来源的专家评论的数百万精心整理文档的专有库相结合。 当用户提出税务问题时,如"OBBBA 创建的 SALT 鱼雷是什么,如何缓解它?"Blue J 会立即检索源材料,GPT-4.1 将其综合为清晰、完整引用的答案,感觉更像是来自信任同事的指导,而不是模型输出。这是一个只有同时精通税务和技术的团队才能构建的系统。 Janssen 表示:"我们测试了许多模型,GPT-4.1 是一个始终能做我们需要的事的模型。它遵循指令,尊重上下文,并比我们见过的任何其他工具更好地处理边界情况。" 在税务中,即使是很小的错误也可能触发审计、延迟申报或给客户造成真实的金钱损失。Blue J 的团队从经验中知道,即使是罕见的边界情况也可能损害信任,如果不能及时发现和修复。因此,从一开始,他们就设计了该产品来捕获反馈并大规模改进,由其税务研究团队的专业知识指导。 为了通过每次使用使系统更好,Blue J 为想贡献于产品改进的客户推出了可选的数据共享。每个 Blue J 答案都包含一个"不同意"按钮,当标记时,响应会按问题类型、税务主题和可能的根本原因系统性地分类。 这个反馈循环捕捉一次性错误并揭示模式。如果合伙税务查询表现不佳,团队会进行调查。如果一个提示产生不一致的完成,他们会对其进行调整。GPT-4.1 为这个分类层提供支持,分析数千个反馈点,聚集相关问题,并帮助 Blue J 的产品和税务研究团队将其努力集中在将产生最大影响的地方。 由于 GPT-4.1 响应一致,即使很小的改进也会复合增长。结果是一个从每次互动中学习的系统,推动更快的迭代、更高质量的答案,以及与用户需求同步演进的产品。这个飞轮帮助 Blue J 将他们的不同意率降低到每 700 个答案中少于 1 个。 迭代产品开发也帮助 Blue J 保持领先于变化。当一项全面的美国税法在 2025 年通过时,该团队已经花费了 6 周时间在整个代码库中映射其影响。在法案签署后的几小时内,用户已在生产中看到更新的答案。 在一个规则变化且精确度至关重要的领域,这个闭环系统是让 Blue J 保持快速、受信任和领先市场的关键。 模型质量不仅仅是一个功能,它是一个门控函数。Blue J 使用包含美国、加拿大和英国税法的 350 多个提示的基准套件来评估每个新模型发布。每个模型都针对指令遵循、来源对齐和答案清晰度进行测试,确保对提示或检索逻辑的改进由可预测的真实世界行为强化。 Janssen 表示:"尽管我们测试了所有模型,但我们从未推出过非 OpenAI 模型。OpenAI 模型始终在我们的内部基准上表现更好,特别是在指令遵循和提供满足我们实际使用标准答案方面。" 客户全年依赖 Blue J 作为其默认税务研究工具,而不仅仅是在税季期间。超过 70% 的用户每周登录,每个用户每周节省 2.7 小时的研究和客户沟通时间——他们将这些时间重新投入到更高利润的规划和咨询工作中。 Blue J 通过专注于他们唯一知道最好的东西来赢得了这种程度的参与:税务专业人士的真实世界需求。GPT-4.1 通过其结构化输出、一致的指令遵循和可靠的结果放大了他们的专业知识。对于创始人来说,要点很明确:利用你特定的专业知识作为你的核心优势,并使用正确的模型来扩展。

相似文章

利用 OpenAI 扩展会计产能

OpenAI Blog

AI 初创公司 Basis 成立于 2023 年,利用 OpenAI 模型(o3、o3-Pro、GPT-4.1 和 GPT-5)扩展会计自动化,构建多智能体系统,帮助会计师事务所自动化对账、日记账分录和财务汇总,可节省高达 30% 的时间。该公司的多智能体架构根据复杂程度将任务分配给专门的智能体,GPT-5 作为监督智能体,因其卓越的推理和可解释性能力而被选中。