Evalatro: 一个让大语言模型玩真实Balatro游戏的开源评测基准

Reddit r/LocalLLaMA 2026/06/15 19:32 工具

benchmark balatro llm-evaluation open-source game evaluation-framework

摘要

Evalatro是一个开源评测基准，大语言模型通过基于文本的界面玩真实的Balatro游戏。它使用固定种子、公开排行榜，目标是通关Ante 12。早期结果显示模型表现挣扎，无一达到目标。

嘿！我制作了Evalatro——一个让大语言模型玩真实Balatro游戏的开源评测基准。真正的游戏。起因是我在玩的时候总让Claude帮我过关（是的，我太菜了）。我只是把截图扔给它，然后问战术。后来这个想法演变得更宏大，我决定深入挖掘。一开始我想通过模组构建一个MCP，结果发现已经有人做过了——balatrobot（向作者致敬）。于是就这样开始了。模型连接到游戏，每回合通过文本结构（而非图片）获取状态，并自行决定打什么牌。没有战术提示。目前已具备：\- 固定种子以保证可复现——每个模型看到同样的牌局\- 真实的Balatro + Steamodded + balatrobot\- 实时查看器和公开排行榜\- 运行结束后结果发送至公共仪表盘（零隐私信息——无密钥、无路径；源码开放）\- 分数由服务器而非客户端计算，因此无法伪造\- 评测目标是通关Ante 12（选择有点随意，欢迎讨论），而不仅仅是赢得基础游戏Ante 8\- 自动安装支持Windows/macOS\- 你可以查看模型的推理过程（这部分很有趣）并重放每一次运行\- 运行前会设置独立的游戏档案，解锁所有内容，这样模型不受限制（你的主存档不受影响）我只跑过几个模型，跑得不多，所以请当作初步探索，而非排名。但已经很有趣了：没有人接近Ante 12。领先的mimo-v2.5-pro勉强到了Ante 5。还有deepseek-v4-pro，它没能在ante 8击败Boss，但排行榜更新后我丢失了结果。所以挑战机会很多——来看模型受苦吧。希望得到Balatro玩家和大语言模型社区的意见：Ante 12是合理的标准还是过于苛刻？除了"reached / didn't reach"之外，还有什么值得衡量的？如何堵住漏洞防止作弊？我并不是搭建基准的专家。P.S. 如果您能在GitHub上点个星，我将感激不尽！链接：Github: [https://github.com/alesha-pro/evalatro](https://github.com/alesha-pro/evalatro) 公共仪表盘: [evalatro.dev](https://evalatro.dev/)

查看原文

Evalatro: 一个让大语言模型玩真实Balatro游戏的开源评测基准

相似文章

PlayCoder：让LLM生成的GUI代码可玩

LEVANTE-bench：使用认知任务对VLM与儿童进行多尺度比较（或者，“你的VLM比五年级学生更聪明吗？”）

我构建了一个1v1核战略游戏来基准测试LLM推理（而不仅仅是选择题）——Age of LLM

PreAct-Bench: 对LLM进行预测性监控的基准测试

LinAlg-Bench：揭示大语言模型数学推理中结构性失败模式的诊断性基准

提交意见反馈