AI运行印度杂货店模拟30天,GPT 5.5完美达成!
摘要
DukaanBench在资本限制条件下评估LLM对印度杂货店的管理能力,包括库存、营销和易腐品处理;GPT 5.5成功通过测试。
我们构建了DukaanBench,旨在找出哪些LLM能在印度用例中表现出色。我们测试了AI在资金周转等受限条件下管理库存、客户信任、营销和易腐品的能力。
相似文章
@aisearchio: GLM 5.2 持续让我印象深刻。这是它在 Vending Bench 上的结果,该基准衡量 AI 在长时间运营业务方面的表…
GLM 5.2 在 Vending Bench 业务模拟基准测试中排名第二,同时成本不到 Opus 的一半,以更低的成本展现了强劲性能。
@RuiTheBaker: GPT 5.5级别的排名,但快27倍?!@mixedbreadai
根据早期结果,Mixedbread 的重排序器在 OBLIQ-bench 上达到了 GPT 5.5 级别性能,同时速度快 27 倍。
介绍 BenchBench(5分钟阅读)
介绍 BenchBench,这是一个评估 AI 模型为其他模型创建有效基准能力的基准测试。目前 GPT 5.2 是唯一成功的胜者,而 GPT 5.5 和 Opus 4.6 等前沿模型则表现不佳。
Shopping Reasoning Bench:一个由专家编写的用于多轮对话购物助手的基准
购物推理基准(Shopping Reasoning Bench)是一个由专家编写的用于评估多轮对话购物助手的基准,包含525个任务和超过10,000个二元评判标准。对GPT、Claude和Gemini的评估显示,当前模型仅能达到57%至77%的通过率,揭示了在专家级购物推理方面存在显著差距。
GPT-5.5 性能领先(且出现幻觉),Kimi K2.6 领跑开源大语言模型,AI 给气候承诺带来压力,大语言模型与人类的战略思维比较
GPT-5.5 在基准测试中达到新水平但存在幻觉问题;Kimi K2.6 领先开源大语言模型;同时探讨 AI 对气候承诺的影响以及大语言模型的战略思维。