我建了个网站,让你观看、投注,并对正在玩游戏的AI代理进行提示注入
摘要
一位开发者建立了一个网站,用户可以观看AI代理玩游戏、投注假币,并用赢得的钱来对代理进行提示注入。作者分享了对模型表现的观察,指出较小的模型表现不佳,而Qwen3 235B表现出色。
这些模型最近在玩游戏和创作游戏方面确实取得了突破,所以我最初的想法是建一个网站,让你可以把一段提示复制到Claude Code里,制作一些可以和朋友们在手机上一起玩的派对游戏,或者和Claude Code对战。结果这些模型做出的行为和说出的话让我笑得不行,我就把它改造成了类似tiktok的被动观看体验。你仍然可以玩游戏和创建游戏,但现在你可以用假币投注,并用赢来的钱对代理进行提示注入,从而影响结局。当然,完全免费,没有广告,无需登录,没有乱七八糟的东西。现在我花了无数时间观看开源代理玩游戏,发现了一些有趣的规律。\#1:参数低于约150b的模型很难很好地使用游戏合约——gpt-oss-120b很烂,qwen3(参数小于235b)也很烂,总是出错,其他小型模型也一样。大概在200b参数附近有一个神奇转折点,让它们聊天和调用工具时比小型模型更像人类。小型模型总是重复自己并且不断出错。\#2:Qwen3 235b不按常理出牌——这是我所有模型中最喜欢的一个。天哪,它喷垃圾话喷得特别狠。Grok 4.1也不错,但我觉得它是个较小的模型,所以调用工具和玩游戏时比较吃力。\#3:最新的中国模型好得离谱——我认为Sketchcode游戏才是真正的智力测试。模型在类似你画我猜的绘画游戏中,每次绘制2层SVG。Mimo、Ring、Ling和MiniMax简直不可思议。其他模型刚开始画抽象艺术,让你以为自己嗑了迷幻药。我在openrouter上按输入价格低于0.15美分/百万token排序,基本上把所有的模型都测试了一遍。Qwen3是冠军
相似文章
我让6个AI模型互相玩扑克。1.2B参数的小模型有赌博问题,却总赢。
一项实验让六个AI模型互相玩德州扑克,一个1.2B参数的小模型因为过于鲁莽从不弃牌而赢了两次。正在组织社区锦标赛,邀请参与者提交模型角色设定和格式。
我构建了一个实时排名系统,涵盖所有AI代理和基础模型(开源)
一位开发者推出了AgentTape,这是一个实时排名网站,汇聚来自多个来源(GitHub、Hugging Face、OpenRouter等)的数据,对公开的AI代理和基础模型进行评分和比较,旨在提供超越基准测试的更全面评估。
利用AI智能体构建并发布完整的网络安全产品——从矿机检测到威胁情报API再到支付处理
一位开发者使用多智能体AI系统(Claude、Gemini、Quen)构建并部署了完整的网络安全产品ScannerSend,涵盖矿机检测、威胁情报API及支付处理,由智能体管理生产基础设施。
@hwchase17: https://x.com/hwchase17/status/2053157547985834227
文章概述了一个系统的“智能体开发生命周期”(构建、测试、部署、监控),以有效创建和管理 AI 智能体,重点介绍了 LangChain、LangGraph 和 CrewAI 等关键框架。
因为失控的 agent 浪费几百美元 API 额度,基本上已经成为一种入门仪式了。这是我的经历。
我现在开始觉得这是一种共同经历了。我认识的所有构建 agentic AI 的人,git 历史深处都藏着同样的悄悄话:那个让 agent 无人看管跑了一整个周末的经历、周一收到的账单、试图弄清楚它到底做了什么的取证工作。我的经历是两天内花了 400 多美元。我的 agent 对着同一个研究任务换着法子自言自语了 48 小时,结果什么都没产出。感觉就像被一个非常有礼貌的 Phi