Evalatro: 一个让大语言模型玩真实Balatro游戏的开源评测基准

Reddit r/LocalLLaMA 工具

摘要

Evalatro是一个开源评测基准,大语言模型通过基于文本的界面玩真实的Balatro游戏。它使用固定种子、公开排行榜,目标是通关Ante 12。早期结果显示模型表现挣扎,无一达到目标。

嘿!我制作了Evalatro——一个让大语言模型玩真实Balatro游戏的开源评测基准。真正的游戏。起因是我在玩的时候总让Claude帮我过关(是的,我太菜了)。我只是把截图扔给它,然后问战术。后来这个想法演变得更宏大,我决定深入挖掘。一开始我想通过模组构建一个MCP,结果发现已经有人做过了——balatrobot(向作者致敬)。于是就这样开始了。模型连接到游戏,每回合通过文本结构(而非图片)获取状态,并自行决定打什么牌。没有战术提示。目前已具备:\- 固定种子以保证可复现——每个模型看到同样的牌局\- 真实的Balatro + Steamodded + balatrobot\- 实时查看器和公开排行榜\- 运行结束后结果发送至公共仪表盘(零隐私信息——无密钥、无路径;源码开放)\- 分数由服务器而非客户端计算,因此无法伪造\- 评测目标是通关Ante 12(选择有点随意,欢迎讨论),而不仅仅是赢得基础游戏Ante 8\- 自动安装支持Windows/macOS\- 你可以查看模型的推理过程(这部分很有趣)并重放每一次运行\- 运行前会设置独立的游戏档案,解锁所有内容,这样模型不受限制(你的主存档不受影响) 我只跑过几个模型,跑得不多,所以请当作初步探索,而非排名。但已经很有趣了:没有人接近Ante 12。领先的mimo-v2.5-pro勉强到了Ante 5。还有deepseek-v4-pro,它没能在ante 8击败Boss,但排行榜更新后我丢失了结果。所以挑战机会很多——来看模型受苦吧。希望得到Balatro玩家和大语言模型社区的意见:Ante 12是合理的标准还是过于苛刻?除了"reached / didn't reach"之外,还有什么值得衡量的?如何堵住漏洞防止作弊?我并不是搭建基准的专家。P.S. 如果您能在GitHub上点个星,我将感激不尽!链接:Github: [https://github.com/alesha-pro/evalatro](https://github.com/alesha-pro/evalatro) 公共仪表盘: [evalatro.dev](https://evalatro.dev/)
查看原文

相似文章

PreAct-Bench: 对LLM进行预测性监控的基准测试

arXiv cs.LG

PreAct-Bench是一个包含五个领域、1000对道德与不道德行动轨迹的基准测试,旨在评估LLM从部分轨迹中预测有害结果的能力(预测性监控)。结果表明,虽然人类表现良好,但当前的LLM仍存在困难,凸显了未来导向的风险推理的必要性。