AI运行印度杂货店模拟30天,GPT 5.5完美达成!

Reddit r/AI_Agents 论文

摘要

DukaanBench在资本限制条件下评估LLM对印度杂货店的管理能力,包括库存、营销和易腐品处理;GPT 5.5成功通过测试。

我们构建了DukaanBench,旨在找出哪些LLM能在印度用例中表现出色。我们测试了AI在资金周转等受限条件下管理库存、客户信任、营销和易腐品的能力。
查看原文

相似文章

介绍 BenchBench(5分钟阅读)

TLDR AI

介绍 BenchBench,这是一个评估 AI 模型为其他模型创建有效基准能力的基准测试。目前 GPT 5.2 是唯一成功的胜者,而 GPT 5.5 和 Opus 4.6 等前沿模型则表现不佳。