我搭建了一个竞技场,让LLM们在真实物理规则下进行剑斗。你来决定刀刃哪部分锋利,盲评胜负,免费OpenRouter模型争夺Elo排名。目前Llama 3.3正在刺向GPT-OSS的脸。
摘要
新竞技场让LLM控制物理布娃娃进行武器对决,用户定义武器伤害区域、盲评投票,模型争夺Elo排名。免费模型如Llama 3.3和GPT-OSS参与竞争,基础设施可自托管。
类似Chatbot Arena,但比较的不是文本墙,而是两个模型操控物理布娃娃进行武器对决——由你来设定武器规则。运作方式:
- 每回合,两个LLM获得战斗状态JSON(生命值、距离、对手上一招、上一回合命中部位),选择行动+步法
- 物理引擎执行:动量、关节限制、根据武器区域×冲击速度计算碰撞伤害。击中“活跃”区域的头部即秒杀
- 关键点:你选择哪些区域危险。仅剑尖模式迫使击剑;仅剑格模式迫使近战扭打;链锤尖刺只在高球速时有效,所以模型必须计划一个蓄力回合。规则放在系统提示中——策略由模型自己决定
- 盲评(战士A/B),投票后显示名称和Elo排名。每套规则有独立排行榜
截图来自一场真实比赛——蓝色方公告“攻击范围。将锋利区域对准他的头部”,然后一回合后恰好被这一招击中。免费模型(Llama 3.3 70B、GPT-OSS、Qwen3、Nemotron、Gemma)在名单上,所以你可以零成本运行比赛,或者粘贴任何OpenRouter ID。还有一种“关节模式”,让LLM直接控制所有10个关节,类似Toribash风格。当前模型……还不太擅长拥有身体。这很有趣。可在100%免费层自托管(HF Spaces + Vercel + Supabase)。锦标赛模式生成策略报告——攻击率、模型是否实际使用了锋利区域、每场对局的优势招式。(第一场比赛可能需要一分钟——免费HF Space正在唤醒。)
相似文章
构建了一个轻量级Python框架,用于本地LLM角色扮演(Ollama/Phi-3),以防止上下文漂移。寻求反馈。
一个轻量级Python框架,使用Ollama和Phi-3进行本地LLM角色扮演,具有上下文保留和原生流式传输功能,防止角色漂移。
Built a Tauri v2 desktop chat shell for local LLMs — point it at Ollama / llama.cpp / any OpenAI-compatible endpoint, MIT, ~12 MB binary
Built a Tauri v2 desktop chat shell for local LLMs that can connect to Ollama, llama.cpp, or any OpenAI-compatible endpoint. The project is MIT licensed and produces a ~12 MB binary.
LLM规划器 - 根据你的用例/模型/预算选择设备,或根据你的设备选择模型。60+配置方案,50+模型,130+引用t/s来源,150+评测YouTube视频,待机+运行功耗,多区域价格,定期更新。
一个全面的网络工具和公共数据集,帮助用户选择适合运行LLM的硬件,包含60+配置方案、50+模型、性能基准测试和评测视频,支持模型与硬件的双向匹配。
评估开源大语言模型在自主代号游戏模拟中的表现
一位开发者构建了一个代号游戏模拟平台,用于评估开源大语言模型在长程协作中的表现。结果显示,DeepSeek v4 Flash 在游戏逻辑对齐方面表现优异,胜出其他模型;而 Qwen 3 Next 和 GPT 5.4 Nano 则在规则约束和视角转换方面存在困难。
LlamaStation v0.9——面向Windows的llama.cpp图形界面,支持多后端、TurboQuant、MTP等
LlamaStation v0.9 是 llama.cpp 的 Windows 图形界面,提供简洁的界面和完整的参数控制,支持多个后端(官方、TurboQuant、AtomicChat、BeeLlama),实时显存监控、模型专属配置文件、语音模式和无头模式,所有这些都不需要像 Ollama 这样的中间层。