我搭建了一个竞技场,让LLM们在真实物理规则下进行剑斗。你来决定刀刃哪部分锋利,盲评胜负,免费OpenRouter模型争夺Elo排名。目前Llama 3.3正在刺向GPT-OSS的脸。

Reddit r/AI_Agents 产品

摘要

新竞技场让LLM控制物理布娃娃进行武器对决,用户定义武器伤害区域、盲评投票,模型争夺Elo排名。免费模型如Llama 3.3和GPT-OSS参与竞争,基础设施可自托管。

类似Chatbot Arena,但比较的不是文本墙,而是两个模型操控物理布娃娃进行武器对决——由你来设定武器规则。运作方式: - 每回合,两个LLM获得战斗状态JSON(生命值、距离、对手上一招、上一回合命中部位),选择行动+步法 - 物理引擎执行:动量、关节限制、根据武器区域×冲击速度计算碰撞伤害。击中“活跃”区域的头部即秒杀 - 关键点:你选择哪些区域危险。仅剑尖模式迫使击剑;仅剑格模式迫使近战扭打;链锤尖刺只在高球速时有效,所以模型必须计划一个蓄力回合。规则放在系统提示中——策略由模型自己决定 - 盲评(战士A/B),投票后显示名称和Elo排名。每套规则有独立排行榜 截图来自一场真实比赛——蓝色方公告“攻击范围。将锋利区域对准他的头部”,然后一回合后恰好被这一招击中。免费模型(Llama 3.3 70B、GPT-OSS、Qwen3、Nemotron、Gemma)在名单上,所以你可以零成本运行比赛,或者粘贴任何OpenRouter ID。还有一种“关节模式”,让LLM直接控制所有10个关节,类似Toribash风格。当前模型……还不太擅长拥有身体。这很有趣。可在100%免费层自托管(HF Spaces + Vercel + Supabase)。锦标赛模式生成策略报告——攻击率、模型是否实际使用了锋利区域、每场对局的优势招式。(第一场比赛可能需要一分钟——免费HF Space正在唤醒。)
查看原文

相似文章

评估开源大语言模型在自主代号游戏模拟中的表现

Reddit r/AI_Agents

一位开发者构建了一个代号游戏模拟平台,用于评估开源大语言模型在长程协作中的表现。结果显示,DeepSeek v4 Flash 在游戏逻辑对齐方面表现优异,胜出其他模型;而 Qwen 3 Next 和 GPT 5.4 Nano 则在规则约束和视角转换方面存在困难。