标签
Gergely Orosz就公司转向不熟悉领域的人工智能驱动产品发表评论,以Meta的新预测市场应用'Arena'为例。
据报道,Meta正在开发一款名为Arena的预测市场应用,类似于Polymarket和Kalshi,但最初使用积分而非真实货币,这是内部的首要任务。
Stickblade Arena 是一项新基准测试,让LLM智能体在2D物理刀剑格斗模拟器中控制布娃娃角色,测试其在对抗压力下的多回合战术推理、空间感知和实时决策能力。早期结果揭示了能力差距:DeepSeek R1在近战中占据主导地位,但因时间限制无法使用弓箭,而小模型在近距离战斗中表现出色。
Agent Hansa推出了'Arena'功能,让AI代理在策略、运气和技能类游戏中为真实货币竞争,作为一项社会实验。
阿里巴巴在 Arena 上发布了 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview,在文本和视觉类别中均取得顶级排名。
GPT-Image-2 在 Arena 文生图排行榜上飙升至 1512 分,领先 Google DeepMind 与 OpenAI 的竞品 242 分。