在复杂监管领域扩展领域专业知识

OpenAI Blog 2025/08/21 10:00 产品

tax-research rag-system gpt-4 regulated-domain ai-application case-study enterprise

摘要

Blue J 展示了如何通过将 GPT-4.1 与基于精选税务文档的检索增强生成相结合，在复杂监管领域扩展 AI 专业知识，实现低于 0.14% 的错误率和 70% 的周用户参与度，并通过严格的反馈循环和领域特定优化来优化性能。

了解 Blue J 如何通过基于 GPT-4.1 的 AI 驱动工具改变税务研究。通过将领域专业知识与检索增强生成相结合，Blue J 提供快速、准确且完整引注的税务答案——受到美国、加拿大和英国专业人士的信任。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:53

# Blue J 在复杂、受监管领域快速扩展的方法来源：https://openai.com/index/blue-j/ 传统税务研究从筛选数百个资料来源开始，甚至在开始解释之前。税务专业人士随后需要花费数小时来解析法定条文、法规、裁决、判例法和专家评论，以理解规则之间的相互作用，并将其提炼为答案。根据问题的复杂程度，这个过程可能需要数小时、数天，甚至数周——而且仍然可能产生不一致或过时的结果，每一个遗漏的细节都可能带来真实的成本。 Blue J(https://www.bluej.com/) 由税务法教授和从业者在 2015 年创立，他们看到了税务研究需要更好工具的必要性。基于早期在利用人工智能预测税法案件结果的探索，该团队继续开发了多种产品，以支持各种规模的税务和会计事务所。当 ChatGPT 推出时，Blue J 看到了一个机会来创造全新的东西：将对密集法规的高级推理与结构化检索相结合，在几秒内提供专家级的税务答案，附带内联引用和专业人士可信赖的来源列表。 Blue J 的首席技术官 Brett Janssen 表示："我们迅速行动，因为我们已经知道问题所在以及如何解决它。OpenAI 为我们提供了将这种专业知识扩展化所需的模型质量。" 在 ChatGPT 推出后的两年内，Blue J 在美国、加拿大和英国推出了采用 GPT-4.1 的税务研究引擎。他们在 ChatGPT 发布后仅 6 个月就推出了首个产品，随后进行快速迭代，从反馈中学习并构建了一个强大的评估框架。如今，超过 70% 的用户每周登录，不同意率低于每 700 个回复中的 1 个。他们分享了进入复杂领域并通过将信任、准确性和速度视为不可妥协来快速扩展的经验。 Blue J 的税务研究解决方案采用检索增强生成（RAG）系统构建，将 GPT-4.1 与包含权威主要来源和来自 Tax Notes 等来源的专家评论的数百万精心整理文档的专有库相结合。当用户提出税务问题时，如"OBBBA 创建的 SALT 鱼雷是什么，如何缓解它？"Blue J 会立即检索源材料，GPT-4.1 将其综合为清晰、完整引用的答案，感觉更像是来自信任同事的指导，而不是模型输出。这是一个只有同时精通税务和技术的团队才能构建的系统。 Janssen 表示："我们测试了许多模型，GPT-4.1 是一个始终能做我们需要的事的模型。它遵循指令，尊重上下文，并比我们见过的任何其他工具更好地处理边界情况。" 在税务中，即使是很小的错误也可能触发审计、延迟申报或给客户造成真实的金钱损失。Blue J 的团队从经验中知道，即使是罕见的边界情况也可能损害信任，如果不能及时发现和修复。因此，从一开始，他们就设计了该产品来捕获反馈并大规模改进，由其税务研究团队的专业知识指导。为了通过每次使用使系统更好，Blue J 为想贡献于产品改进的客户推出了可选的数据共享。每个 Blue J 答案都包含一个"不同意"按钮，当标记时，响应会按问题类型、税务主题和可能的根本原因系统性地分类。这个反馈循环捕捉一次性错误并揭示模式。如果合伙税务查询表现不佳，团队会进行调查。如果一个提示产生不一致的完成，他们会对其进行调整。GPT-4.1 为这个分类层提供支持，分析数千个反馈点，聚集相关问题，并帮助 Blue J 的产品和税务研究团队将其努力集中在将产生最大影响的地方。由于 GPT-4.1 响应一致，即使很小的改进也会复合增长。结果是一个从每次互动中学习的系统，推动更快的迭代、更高质量的答案，以及与用户需求同步演进的产品。这个飞轮帮助 Blue J 将他们的不同意率降低到每 700 个答案中少于 1 个。迭代产品开发也帮助 Blue J 保持领先于变化。当一项全面的美国税法在 2025 年通过时，该团队已经花费了 6 周时间在整个代码库中映射其影响。在法案签署后的几小时内，用户已在生产中看到更新的答案。在一个规则变化且精确度至关重要的领域，这个闭环系统是让 Blue J 保持快速、受信任和领先市场的关键。模型质量不仅仅是一个功能，它是一个门控函数。Blue J 使用包含美国、加拿大和英国税法的 350 多个提示的基准套件来评估每个新模型发布。每个模型都针对指令遵循、来源对齐和答案清晰度进行测试，确保对提示或检索逻辑的改进由可预测的真实世界行为强化。 Janssen 表示："尽管我们测试了所有模型，但我们从未推出过非 OpenAI 模型。OpenAI 模型始终在我们的内部基准上表现更好，特别是在指令遵循和提供满足我们实际使用标准答案方面。" 客户全年依赖 Blue J 作为其默认税务研究工具，而不仅仅是在税季期间。超过 70% 的用户每周登录，每个用户每周节省 2.7 小时的研究和客户沟通时间——他们将这些时间重新投入到更高利润的规划和咨询工作中。 Blue J 通过专注于他们唯一知道最好的东西来赢得了这种程度的参与：税务专业人士的真实世界需求。GPT-4.1 通过其结构化输出、一致的指令遵循和可靠的结果放大了他们的专业知识。对于创始人来说，要点很明确：利用你特定的专业知识作为你的核心优势，并使用正确的模型来扩展。

在复杂监管领域扩展领域专业知识

相似文章

@AlexGDimakis: 我对这项研究非常兴奋：我们展示了两个结果：1. 如果只进行随机采样（即独立尝试解决一个问题多次……

探索用于模型特化的自主代理数据工程

OpenAI 与 Scale 合作为企业提供模型微调支持

扩展我们构建和测试最先进 AI 的方式

利用 OpenAI 扩展会计产能

提交意见反馈