@AdinaYakup: Qwen 发布了 WebWorld,一个用于 Web Agent 的开放世界模型系列(8B/14B/32B),附带数据集,采用 Apache 2.0 许可证,在 MiniWob++ 上提升 9.9%,在 W…
摘要
Qwen 发布了 WebWorld,这是一个用于 Web Agent 的开源模型系列(8B/14B/32B),采用 Apache 2.0 许可证,在 MiniWob++ 和 WebArena 基准测试中提升了性能。
查看缓存全文
缓存时间: 2026/05/11 08:35
Qwen 发布了 WebWorld 🌍,这是一个专为 Web 智能体设计的开放世界模型系列
✨ 提供 8B、14B、32B 版本及配套数据集 ✨ Apache 2.0 开源许可证 ✨ 在 MiniWob++ 基准上提升 9.9%,在 WebArena 基准上提升 10.9% ✨ 在事实性方面与 Claude Opus 4.1 和 Gemini 3 Pro 持平,作为世界模型表现优于 GPT-5 ✨ 统一动作空间,支持 30+ 步模拟,涵盖 5 种状态 https://t.co/X6RL4vxIqp
相似文章
Qwen/Qwen3.6-27B
Qwen 在 Hugging Face 上发布了开源权重模型 Qwen3.6-27B,该模型具备更高的稳定性、强大的智能体编程能力以及思维链保留特性,有助于提升开发者的工作效率。
Qwen 3.6 Max Preview 已在 Qwen Chat 网站正式上线。目前该模型在中国大模型中斩获最高的 AA-Intelligence Index 评分(52 分)。(是否将开源?)
Qwen 3.6 Max Preview 已上线 Qwen Chat 网站,以 52 分的 AA-Intelligence Index 评分位居中国模型榜首,但其开源计划尚不明确。
Qwen3.6-27B
阿里巴巴 Qwen 团队发布 270 亿参数新语言模型 Qwen3.6-27B,并公布基准测试结果。
Qwen/Qwen3.6-27B-FP8
阿里巴巴发布 Qwen3.6-27B-FP8,一款 27B 参数的 FP8 量化模型,在代理式编码与推理基准上表现强劲,现已上架 Hugging Face。
(交互式)OpenCode 赛车游戏对比:Qwen3.6 35B vs Qwen3.5 122B vs Qwen3.5 27B vs Qwen3.5 4B vs Gemma 4 31B vs Gemma 4 26B vs Qwen3 Coder Next vs GLM 4.7 Flash
一项非正式基准测试,通过 OpenCode/Playwright MCP 让 8 款 AI 模型(Qwen3.6 35B、Qwen3.5 系列、Gemma 4 系列、GLM 4.7 Flash)开发赛车游戏,以测试其代码生成智能体的能力,并记录了各种实现细节与特殊情况。