@ModelScope2022: Qwen-AgentWorld 刚刚在 ModelScope 上发布了两项更新!一个开放的 35B 总参数量/3B 激活参数的 MoE 世界模型,支持 256K 上下文…
摘要
Qwen-AgentWorld 发布了一个开放的 35B 总参数量/3B 激活参数的 MoE 世界模型,支持 256K 上下文,同时推出了一个涵盖 7 个领域的基准测试,在 AgentWorldBench 上取得了最先进的性能。
查看缓存全文
缓存时间: 2026/06/24 12:24
Qwen-AgentWorld 刚刚在 ModelScope 上发布了两个新版本!一个开放的 35B 总参数量/3B 激活参数的 MoE 世界模型,支持 256K 上下文,以及一个基于真实环境观察的 7 领域基准测试。 https://modelscope.ai/collections/Qwen/Qwen-AgentWorld…
Qwen-AgentWorld-35B-A3B 一个模型覆盖 7 种智能体环境:MCP、搜索、终端、SWE、Web、OS 和 Android 在 AgentWorldBench 上从 47.73 提升到 56.39,超越 Claude Sonnet 4.6 的 56.04 三阶段训练:CPT 注入环境知识,SFT 激活下一状态预测推理,RL 提升模拟保真度
AgentWorldBench 覆盖 7 个领域,共 2,170 个样本,平均 22.8 轮 从格式、事实性、一致性、真实性和质量五个维度对预测进行评分
相似文章
@AdinaYakup: Qwen 发布了 WebWorld,一个用于 Web Agent 的开放世界模型系列(8B/14B/32B),附带数据集,采用 Apache 2.0 许可证,在 MiniWob++ 上提升 9.9%,在 W…
Qwen 发布了 WebWorld,这是一个用于 Web Agent 的开源模型系列(8B/14B/32B),采用 Apache 2.0 许可证,在 MiniWob++ 和 WebArena 基准测试中提升了性能。
Qwen-AgentWorld-35B-A3B:一个3B激活参数的MoE模型,用于模拟MCP、终端、软件工程、安卓、网页和操作系统环境
Qwen发布了Qwen-AgentWorld-35B-A3B,这是一个35B参数的MoE模型,拥有3B激活参数,旨在作为语言世界模型,模拟智能体在七个领域(包括MCP、终端、软件工程、安卓、网页和操作系统)交互时的环境响应。
Qwen/Qwen-AgentWorld-35B-A3B
Qwen 发布 Qwen-AgentWorld-35B-A3B,这是一个原生语言世界模型,能够通过长链思维推理模拟七个领域的智能体环境。该模型采用三阶段流水线训练,支持 MCP、搜索、终端、SWE、Android、Web 和操作系统交互。
Qwen-AgentWorld: 通用智能体的语言世界模型
Qwen-AgentWorld 引入了适用于智能体环境的语言世界模型,涵盖七个领域,并具备长链思维推理能力。该工作包含一个新基准 AgentWorldBench,并且表明世界建模能够提升下游智能体的性能。
Qwen-AgentWorld-397B-A17B
Qwen 发布了新的大语言模型 Qwen-AgentWorld-397B-A17B,详情请见 HuggingFace 和 Qwen 博客。