@ModelScope2022: Qwen-AgentWorld 刚刚在 ModelScope 上发布了两项更新!一个开放的 35B 总参数量/3B 激活参数的 MoE 世界模型,支持 256K 上下文…

X AI KOLs Timeline 模型

摘要

Qwen-AgentWorld 发布了一个开放的 35B 总参数量/3B 激活参数的 MoE 世界模型,支持 256K 上下文,同时推出了一个涵盖 7 个领域的基准测试,在 AgentWorldBench 上取得了最先进的性能。

Qwen-AgentWorld 刚刚在 ModelScope 上发布了两项更新!一个开放的 35B 总参数量/3B 激活参数的 MoE 世界模型,支持 256K 上下文,以及一个基于真实环境观察的 7 领域基准测试。 https://modelscope.ai/collections/Qwen/Qwen-AgentWorld… Qwen-AgentWorld-35B-A3B 一个模型适用于 7 种智能体环境:MCP、搜索、终端、SWE、Web、操作系统和 Android 在 AgentWorldBench 上从 47.73 提升至 56.39,超越 Claude Sonnet 4.6 的 56.04 三阶段训练:CPT 注入环境知识,SFT 激活下一状态预测推理,RL 提升模拟保真度 AgentWorldBench 涵盖 7 个领域,包含 2,170 个样本,平均轮次 22.8 从格式、事实性、一致性、真实性和质量方面对预测进行评分
查看原文
查看缓存全文

缓存时间: 2026/06/24 12:24

Qwen-AgentWorld 刚刚在 ModelScope 上发布了两个新版本!一个开放的 35B 总参数量/3B 激活参数的 MoE 世界模型,支持 256K 上下文,以及一个基于真实环境观察的 7 领域基准测试。 https://modelscope.ai/collections/Qwen/Qwen-AgentWorld…

Qwen-AgentWorld-35B-A3B 一个模型覆盖 7 种智能体环境:MCP、搜索、终端、SWE、Web、OS 和 Android 在 AgentWorldBench 上从 47.73 提升到 56.39,超越 Claude Sonnet 4.6 的 56.04 三阶段训练:CPT 注入环境知识,SFT 激活下一状态预测推理,RL 提升模拟保真度

AgentWorldBench 覆盖 7 个领域,共 2,170 个样本,平均 22.8 轮 从格式、事实性、一致性、真实性和质量五个维度对预测进行评分

相似文章

Qwen/Qwen-AgentWorld-35B-A3B

Hugging Face Models Trending

Qwen 发布 Qwen-AgentWorld-35B-A3B,这是一个原生语言世界模型,能够通过长链思维推理模拟七个领域的智能体环境。该模型采用三阶段流水线训练,支持 MCP、搜索、终端、SWE、Android、Web 和操作系统交互。

Qwen-AgentWorld: 通用智能体的语言世界模型

Hacker News Top

Qwen-AgentWorld 引入了适用于智能体环境的语言世界模型,涵盖七个领域,并具备长链思维推理能力。该工作包含一个新基准 AgentWorldBench,并且表明世界建模能够提升下游智能体的性能。

Qwen-AgentWorld-397B-A17B

Reddit r/LocalLLaMA

Qwen 发布了新的大语言模型 Qwen-AgentWorld-397B-A17B,详情请见 HuggingFace 和 Qwen 博客。