AI运行印度杂货店模拟30天，GPT 5.5完美达成！

Reddit r/AI_Agents 2026/06/27 10:46 论文

indian-grocery simulation llm-evaluation dukaanbench inventory-management ai-benchmark gpt-5-5

摘要

DukaanBench在资本限制条件下评估LLM对印度杂货店的管理能力，包括库存、营销和易腐品处理；GPT 5.5成功通过测试。

我们构建了DukaanBench，旨在找出哪些LLM能在印度用例中表现出色。我们测试了AI在资金周转等受限条件下管理库存、客户信任、营销和易腐品的能力。

查看原文

相似文章

X AI KOLs Following

GLM 5.2 在 Vending Bench 业务模拟基准测试中排名第二，同时成本不到 Opus 的一半，以更低的成本展现了强劲性能。

X AI KOLs Following

根据早期结果，Mixedbread 的重排序器在 OBLIQ-bench 上达到了 GPT 5.5 级别性能，同时速度快 27 倍。

TLDR AI

介绍 BenchBench，这是一个评估 AI 模型为其他模型创建有效基准能力的基准测试。目前 GPT 5.2 是唯一成功的胜者，而 GPT 5.5 和 Opus 4.6 等前沿模型则表现不佳。

arXiv cs.CL

购物推理基准（Shopping Reasoning Bench）是一个由专家编写的用于评估多轮对话购物助手的基准，包含525个任务和超过10,000个二元评判标准。对GPT、Claude和Gemini的评估显示，当前模型仅能达到57%至77%的通过率，揭示了在专家级购物推理方面存在显著差距。

The Batch

GPT-5.5 在基准测试中达到新水平但存在幻觉问题；Kimi K2.6 领先开源大语言模型；同时探讨 AI 对气候承诺的影响以及大语言模型的战略思维。