@levie: 我们一直在用Anthropic的Claude Sonnet 5运行Box AI Complex Work Eval，这是我们用于评估模型在复杂企业文档工作中表现的智能体基准测试…

X AI KOLs Following 2026/06/30 19:55 模型

anthropic claude-sonnet-5 enterprise agentic-benchmark box ai-evaluation

摘要

Box在其智能体基准测试中运行了Claude Sonnet 5，发现它在尽职调查、成本分析等复杂企业任务上超越了Sonnet 4.6。Sonnet 5即将在Box AI Studio中可用。

我们一直在用Anthropic的Claude Sonnet 5运行Box AI Complex Work Eval，这是一个智能体基准测试，让模型端到端地完成真实的企业文档工作。 Sonnet 5在复杂多步骤工作中达到前沿水平，在多个核心企业领域（如Energy (+4.7pp)、Retail (+4.4pp)和Professional Services (+2.6pp)）以及非结构化数据高度复杂的其他领域，均超越了Sonnet 4.6。以下是相比Sonnet 4.6的一些胜出示例，可让你了解Sonnet 5更高级的推理能力： * 融资尽职调查：它根据原始资产负债表计算了公司的流动性和杠杆比率，并发现源报告自身列出的债务权益比低估了杠杆率，指出所有三项贷款契约均被违反，而不仅仅是文档所承认的那些。 * 检修成本分析：它根据公司自己的KPI定义界定“总成本”，正确地将“产量损失成本”单独列出，因为指导要求单独跟踪它，而不是简单地将表上的每个数字相加。它还发现并处理了电子表格中的一个损坏引用单元格。 * SKU收入分析：在分段销售数据上，它根据正确的子类别分母计算了每个产品的贡献，避免了除以类别总计的常见错误，并指出了为什么没有宠物类别的SKU进入前9名。 Sonnet 5即将在Box AI Studio中提供，客户可以借此构建自定义智能体。

查看原文

查看缓存全文

缓存时间: 2026/07/01 20:14

我们一直在通过 Box AI 复杂工作评估（Box AI Complex Work Eval）对 Anthropic 的 Claude Sonnet 5 进行测试。这是我们的一项智能体基准测试，能够端到端地评估模型处理真实企业文档工作的能力。

Sonnet 5 在复杂的多步骤工作任务中保持了前沿水平的质量，并且在多个核心企业领域领先于 Sonnet 4.6，例如能源（+4.7个百分点）、零售（+4.4个百分点）、专业服务（+2.6个百分点）以及其他非结构化数据高度复杂的领域。

以下是一些与 Sonnet 4.6 相比的胜出示例，从中可以感受到 Sonnet 5 更高级的推理能力：

融资尽职调查：它根据原始资产负债表计算了公司的流动性和杠杆比率，并发现源报告自身列出的债务股本比低估了杠杆水平，从而标记出所有三项贷款契约均被违反，而不仅仅是文档中承认的那些。
检修成本分析：它按照公司自己的 KPI 定义界定了“总成本”的范围，正确地将生产损失成本单独列出，因为指南要求单独跟踪该成本，而不是简单地将工作表上的所有数字相加。此外，它还发现并处理了电子表格中一个损坏的引用单元格。
SKU 收入分析：在细分销售数据上，它计算了每个产品相对于正确子类别分母的贡献，避开了除以类别总数这一常见错误，并指出了为何没有宠物类别的 SKU 进入前 9 名。

Sonnet 5 将很快在 Box AI Studio 中上线，供客户构建自定义智能体。

Claude（@claudeai）： 推出 Claude Sonnet 5，这是我们迄今为止最具代理能力的 Sonnet。

它能够制定计划、使用浏览器和终端等工具，并以仅在几个月前还需要更大、更昂贵模型才能达到的水平自主运行。

@levie: 我们一直在用Anthropic的Claude Sonnet 5运行Box AI Complex Work Eval，这是我们用于评估模型在复杂企业文档工作中表现的智能体基准测试…

相似文章

Claude Sonnet 5

Claude Sonnet 5 基准测试

Claude Sonnet 5 已发布，与 Opus 4.8 的差距比我预想的要小

@github: @AnthropicAI 的 Claude Sonnet 5 现已全面可用，正在 GitHub Copilot 中推出。早期测试显示 Claude S…

Claude Sonnet 5 发布

提交意见反馈