@levie: 我们一直在用Anthropic的Claude Sonnet 5运行Box AI Complex Work Eval,这是我们用于评估模型在复杂企业文档工作中表现的智能体基准测试…
摘要
Box在其智能体基准测试中运行了Claude Sonnet 5,发现它在尽职调查、成本分析等复杂企业任务上超越了Sonnet 4.6。Sonnet 5即将在Box AI Studio中可用。
查看缓存全文
缓存时间: 2026/07/01 20:14
我们一直在通过 Box AI 复杂工作评估(Box AI Complex Work Eval)对 Anthropic 的 Claude Sonnet 5 进行测试。这是我们的一项智能体基准测试,能够端到端地评估模型处理真实企业文档工作的能力。
Sonnet 5 在复杂的多步骤工作任务中保持了前沿水平的质量,并且在多个核心企业领域领先于 Sonnet 4.6,例如能源(+4.7个百分点)、零售(+4.4个百分点)、专业服务(+2.6个百分点)以及其他非结构化数据高度复杂的领域。
以下是一些与 Sonnet 4.6 相比的胜出示例,从中可以感受到 Sonnet 5 更高级的推理能力:
-
融资尽职调查:它根据原始资产负债表计算了公司的流动性和杠杆比率,并发现源报告自身列出的债务股本比低估了杠杆水平,从而标记出所有三项贷款契约均被违反,而不仅仅是文档中承认的那些。
-
检修成本分析:它按照公司自己的 KPI 定义界定了“总成本”的范围,正确地将生产损失成本单独列出,因为指南要求单独跟踪该成本,而不是简单地将工作表上的所有数字相加。此外,它还发现并处理了电子表格中一个损坏的引用单元格。
-
SKU 收入分析:在细分销售数据上,它计算了每个产品相对于正确子类别分母的贡献,避开了除以类别总数这一常见错误,并指出了为何没有宠物类别的 SKU 进入前 9 名。
Sonnet 5 将很快在 Box AI Studio 中上线,供客户构建自定义智能体。
Claude(@claudeai): 推出 Claude Sonnet 5,这是我们迄今为止最具代理能力的 Sonnet。
它能够制定计划、使用浏览器和终端等工具,并以仅在几个月前还需要更大、更昂贵模型才能达到的水平自主运行。
相似文章
Claude Sonnet 5
Anthropic 发布了 Claude Sonnet 5,这是一款高度自主的 AI 模型,在推理、工具使用和编码能力上有所提升,以更低的价格缩小了与 Opus 级别模型的差距。该模型现已面向所有套餐提供,并采用首发优惠定价。
Claude Sonnet 5 基准测试
Anthropic的Claude Sonnet 5模型基准测试已发布,显示出性能提升。
Claude Sonnet 5 已发布,与 Opus 4.8 的差距比我预想的要小
Anthropic 发布了 Claude Sonnet 5,其基准测试得分非常接近 Opus 4.8,但价格大幅降低,使其成为代理任务的诱人选择,尽管可能存在实际差距。
@github: @AnthropicAI 的 Claude Sonnet 5 现已全面可用,正在 GitHub Copilot 中推出。早期测试显示 Claude S…
Claude Sonnet 5 现已全面可用,正在 GitHub Copilot 中推出。早期测试显示其编码性能强大,尤其在 CLI 任务上表现突出,具有良好的提示缓存利用率和有竞争力的延迟。
Claude Sonnet 5 发布
Anthropic 宣布发布全新 AI 模型 Claude Sonnet 5。