我建了个网站,让你观看、投注,并对正在玩游戏的AI代理进行提示注入

Reddit r/AI_Agents 工具

摘要

一位开发者建立了一个网站,用户可以观看AI代理玩游戏、投注假币,并用赢得的钱来对代理进行提示注入。作者分享了对模型表现的观察,指出较小的模型表现不佳,而Qwen3 235B表现出色。

这些模型最近在玩游戏和创作游戏方面确实取得了突破,所以我最初的想法是建一个网站,让你可以把一段提示复制到Claude Code里,制作一些可以和朋友们在手机上一起玩的派对游戏,或者和Claude Code对战。结果这些模型做出的行为和说出的话让我笑得不行,我就把它改造成了类似tiktok的被动观看体验。你仍然可以玩游戏和创建游戏,但现在你可以用假币投注,并用赢来的钱对代理进行提示注入,从而影响结局。当然,完全免费,没有广告,无需登录,没有乱七八糟的东西。现在我花了无数时间观看开源代理玩游戏,发现了一些有趣的规律。\#1:参数低于约150b的模型很难很好地使用游戏合约——gpt-oss-120b很烂,qwen3(参数小于235b)也很烂,总是出错,其他小型模型也一样。大概在200b参数附近有一个神奇转折点,让它们聊天和调用工具时比小型模型更像人类。小型模型总是重复自己并且不断出错。\#2:Qwen3 235b不按常理出牌——这是我所有模型中最喜欢的一个。天哪,它喷垃圾话喷得特别狠。Grok 4.1也不错,但我觉得它是个较小的模型,所以调用工具和玩游戏时比较吃力。\#3:最新的中国模型好得离谱——我认为Sketchcode游戏才是真正的智力测试。模型在类似你画我猜的绘画游戏中,每次绘制2层SVG。Mimo、Ring、Ling和MiniMax简直不可思议。其他模型刚开始画抽象艺术,让你以为自己嗑了迷幻药。我在openrouter上按输入价格低于0.15美分/百万token排序,基本上把所有的模型都测试了一遍。Qwen3是冠军
查看原文

相似文章

因为失控的 agent 浪费几百美元 API 额度,基本上已经成为一种入门仪式了。这是我的经历。

Reddit r/artificial

我现在开始觉得这是一种共同经历了。我认识的所有构建 agentic AI 的人,git 历史深处都藏着同样的悄悄话:那个让 agent 无人看管跑了一整个周末的经历、周一收到的账单、试图弄清楚它到底做了什么的取证工作。我的经历是两天内花了 400 多美元。我的 agent 对着同一个研究任务换着法子自言自语了 48 小时,结果什么都没产出。感觉就像被一个非常有礼貌的 Phi