Evalatro: 一个让大语言模型玩真实Balatro游戏的开源评测基准
摘要
Evalatro是一个开源评测基准,大语言模型通过基于文本的界面玩真实的Balatro游戏。它使用固定种子、公开排行榜,目标是通关Ante 12。早期结果显示模型表现挣扎,无一达到目标。
嘿!我制作了Evalatro——一个让大语言模型玩真实Balatro游戏的开源评测基准。真正的游戏。起因是我在玩的时候总让Claude帮我过关(是的,我太菜了)。我只是把截图扔给它,然后问战术。后来这个想法演变得更宏大,我决定深入挖掘。一开始我想通过模组构建一个MCP,结果发现已经有人做过了——balatrobot(向作者致敬)。于是就这样开始了。模型连接到游戏,每回合通过文本结构(而非图片)获取状态,并自行决定打什么牌。没有战术提示。目前已具备:\- 固定种子以保证可复现——每个模型看到同样的牌局\- 真实的Balatro + Steamodded + balatrobot\- 实时查看器和公开排行榜\- 运行结束后结果发送至公共仪表盘(零隐私信息——无密钥、无路径;源码开放)\- 分数由服务器而非客户端计算,因此无法伪造\- 评测目标是通关Ante 12(选择有点随意,欢迎讨论),而不仅仅是赢得基础游戏Ante 8\- 自动安装支持Windows/macOS\- 你可以查看模型的推理过程(这部分很有趣)并重放每一次运行\- 运行前会设置独立的游戏档案,解锁所有内容,这样模型不受限制(你的主存档不受影响)
我只跑过几个模型,跑得不多,所以请当作初步探索,而非排名。但已经很有趣了:没有人接近Ante 12。领先的mimo-v2.5-pro勉强到了Ante 5。还有deepseek-v4-pro,它没能在ante 8击败Boss,但排行榜更新后我丢失了结果。所以挑战机会很多——来看模型受苦吧。希望得到Balatro玩家和大语言模型社区的意见:Ante 12是合理的标准还是过于苛刻?除了"reached / didn't reach"之外,还有什么值得衡量的?如何堵住漏洞防止作弊?我并不是搭建基准的专家。P.S. 如果您能在GitHub上点个星,我将感激不尽!链接:Github: [https://github.com/alesha-pro/evalatro](https://github.com/alesha-pro/evalatro) 公共仪表盘: [evalatro.dev](https://evalatro.dev/)
相似文章
PlayCoder:让LLM生成的GUI代码可玩
PlayEval基准与多智能体框架PlayCoder,通过迭代修复LLM生成的GUI应用,端到端可玩代码最高达20.3%。
LEVANTE-bench:使用认知任务对VLM与儿童进行多尺度比较(或者,“你的VLM比五年级学生更聪明吗?”)
本文介绍了LEVANTE-bench,这是一个系统评估视觉-语言模型在六项认知任务上的表现,并将其与5-12岁儿童的表现进行比较的基准测试,发现当前的VLM仅部分与儿童的认知能力相符。
我构建了一个1v1核战略游戏来基准测试LLM推理(而不仅仅是选择题)——Age of LLM
名为Age of LLM的新型开源基准通过回合制核战略游戏(包含战争迷雾、外交和虚张声势)来测试LLM推理,相较于传统的多项选择基准,提供了更动态的评估。
PreAct-Bench: 对LLM进行预测性监控的基准测试
PreAct-Bench是一个包含五个领域、1000对道德与不道德行动轨迹的基准测试,旨在评估LLM从部分轨迹中预测有害结果的能力(预测性监控)。结果表明,虽然人类表现良好,但当前的LLM仍存在困难,凸显了未来导向的风险推理的必要性。
LinAlg-Bench:揭示大语言模型数学推理中结构性失败模式的诊断性基准
介绍了LinAlg-Bench,这是一个诊断性基准,用于评估10个前沿大语言模型在矩阵维度上的结构化线性代数计算,揭示了大语言模型的数学失败在结构上受到约束,并在4x4规模下从执行错误过渡到计算放弃。