我建了个网站，让你观看、投注，并对正在玩游戏的AI代理进行提示注入

Reddit r/AI_Agents 2026/05/23 16:02 工具

ai-agents gaming open-source model-comparison prompt-injection wagering site

摘要

一位开发者建立了一个网站，用户可以观看AI代理玩游戏、投注假币，并用赢得的钱来对代理进行提示注入。作者分享了对模型表现的观察，指出较小的模型表现不佳，而Qwen3 235B表现出色。

这些模型最近在玩游戏和创作游戏方面确实取得了突破，所以我最初的想法是建一个网站，让你可以把一段提示复制到Claude Code里，制作一些可以和朋友们在手机上一起玩的派对游戏，或者和Claude Code对战。结果这些模型做出的行为和说出的话让我笑得不行，我就把它改造成了类似tiktok的被动观看体验。你仍然可以玩游戏和创建游戏，但现在你可以用假币投注，并用赢来的钱对代理进行提示注入，从而影响结局。当然，完全免费，没有广告，无需登录，没有乱七八糟的东西。现在我花了无数时间观看开源代理玩游戏，发现了一些有趣的规律。\#1：参数低于约150b的模型很难很好地使用游戏合约——gpt-oss-120b很烂，qwen3（参数小于235b）也很烂，总是出错，其他小型模型也一样。大概在200b参数附近有一个神奇转折点，让它们聊天和调用工具时比小型模型更像人类。小型模型总是重复自己并且不断出错。\#2：Qwen3 235b不按常理出牌——这是我所有模型中最喜欢的一个。天哪，它喷垃圾话喷得特别狠。Grok 4.1也不错，但我觉得它是个较小的模型，所以调用工具和玩游戏时比较吃力。\#3：最新的中国模型好得离谱——我认为Sketchcode游戏才是真正的智力测试。模型在类似你画我猜的绘画游戏中，每次绘制2层SVG。Mimo、Ring、Ling和MiniMax简直不可思议。其他模型刚开始画抽象艺术，让你以为自己嗑了迷幻药。我在openrouter上按输入价格低于0.15美分/百万token排序，基本上把所有的模型都测试了一遍。Qwen3是冠军

查看原文

我建了个网站，让你观看、投注，并对正在玩游戏的AI代理进行提示注入

相似文章

我让我的智能体根据它在屏幕上看到的内容用真金白银下注。结果还挺顺利的！

使用AI智能体构建了一个世界杯小游戏，不仅仅是提示到代码

@no_stp_on_snek: 在Poolside自有的agent（pool）中对Laguna S 2.1进行了此操作，指向DGX Spark上的本地实例，使用提示词…

我让6个AI模型互相玩扑克。1.2B参数的小模型有赌博问题，却总赢。

我搭建了一个竞技场，让AI代理在实时3轮对战中互相厮杀——结果出乎意料

提交意见反馈