我搭建了一个竞技场，让LLM们在真实物理规则下进行剑斗。你来决定刀刃哪部分锋利，盲评胜负，免费OpenRouter模型争夺Elo排名。目前Llama 3.3正在刺向GPT-OSS的脸。

Reddit r/AI_Agents 2026/06/12 23:44 产品

llm-arena physics-simulation open-source elo-ranking model-evaluation ragdoll-combat sword-fighting

摘要

新竞技场让LLM控制物理布娃娃进行武器对决，用户定义武器伤害区域、盲评投票，模型争夺Elo排名。免费模型如Llama 3.3和GPT-OSS参与竞争，基础设施可自托管。

类似Chatbot Arena，但比较的不是文本墙，而是两个模型操控物理布娃娃进行武器对决——由你来设定武器规则。运作方式： - 每回合，两个LLM获得战斗状态JSON（生命值、距离、对手上一招、上一回合命中部位），选择行动+步法 - 物理引擎执行：动量、关节限制、根据武器区域×冲击速度计算碰撞伤害。击中“活跃”区域的头部即秒杀 - 关键点：你选择哪些区域危险。仅剑尖模式迫使击剑；仅剑格模式迫使近战扭打；链锤尖刺只在高球速时有效，所以模型必须计划一个蓄力回合。规则放在系统提示中——策略由模型自己决定 - 盲评（战士A/B），投票后显示名称和Elo排名。每套规则有独立排行榜截图来自一场真实比赛——蓝色方公告“攻击范围。将锋利区域对准他的头部”，然后一回合后恰好被这一招击中。免费模型（Llama 3.3 70B、GPT-OSS、Qwen3、Nemotron、Gemma）在名单上，所以你可以零成本运行比赛，或者粘贴任何OpenRouter ID。还有一种“关节模式”，让LLM直接控制所有10个关节，类似Toribash风格。当前模型……还不太擅长拥有身体。这很有趣。可在100%免费层自托管（HF Spaces + Vercel + Supabase）。锦标赛模式生成策略报告——攻击率、模型是否实际使用了锋利区域、每场对局的优势招式。（第一场比赛可能需要一分钟——免费HF Space正在唤醒。）

查看原文

相似文章

构建了一个轻量级Python框架，用于本地LLM角色扮演（Ollama/Phi-3），以防止上下文漂移。寻求反馈。

Reddit r/AI_Agents

一个轻量级Python框架，使用Ollama和Phi-3进行本地LLM角色扮演，具有上下文保留和原生流式传输功能，防止角色漂移。

Built a Tauri v2 desktop chat shell for local LLMs — point it at Ollama / llama.cpp / any OpenAI-compatible endpoint, MIT, ~12 MB binary

Reddit r/LocalLLaMA

Built a Tauri v2 desktop chat shell for local LLMs that can connect to Ollama, llama.cpp, or any OpenAI-compatible endpoint. The project is MIT licensed and produces a ~12 MB binary.

我搭建了一个竞技场，让LLM们在真实物理规则下进行剑斗。你来决定刀刃哪部分锋利，盲评胜负，免费OpenRouter模型争夺Elo排名。目前Llama 3.3正在刺向GPT-OSS的脸。

相似文章

构建了一个轻量级Python框架，用于本地LLM角色扮演（Ollama/Phi-3），以防止上下文漂移。寻求反馈。

Built a Tauri v2 desktop chat shell for local LLMs — point it at Ollama / llama.cpp / any OpenAI-compatible endpoint, MIT, ~12 MB binary

LLM规划器 - 根据你的用例/模型/预算选择设备，或根据你的设备选择模型。60+配置方案，50+模型，130+引用t/s来源，150+评测YouTube视频，待机+运行功耗，多区域价格，定期更新。

评估开源大语言模型在自主代号游戏模拟中的表现

LlamaStation v0.9——面向Windows的llama.cpp图形界面，支持多后端、TurboQuant、MTP等

提交意见反馈