prefeitura-rio/Rio-3.5-Open-397B
摘要
Rio 3.5 Open 397B 是一个开源的前沿AI模型,基于 Qwen 3.5 397B 进行后训练,采用 SwiReasoning 实现动态显式/隐式推理切换,在智能体编程、推理和多语言基准测试中取得了最先进的性能。
查看缓存全文
缓存时间: 2026/06/14 07:35
prefeitura-rio/Rio-3.5-Open-397B · Hugging Face
来源:https://huggingface.co/prefeitura-rio/Rio-3.5-Open-397B Rio 3.5 Open 397B 基准测试结果(https://huggingface.co/prefeitura-rio/Rio-3.5-Open-397B/blob/main/rio-3.5-open-benchmarks.png)
Rio 3.5 Open 397B 是一款由里约热内卢市政IT公司IplanRIO(https://iplanrio.rio.rj.gov.br/)开发的前沿级通用AI模型。基于 Qwen 3.5 397B 进行后训练,Rio 3.5 Open 397B 在智能体编程、数学、STEM、多语言和多模态基准测试中均展现出最先进的开源模型性能,远超其基础模型,并能与全球顶尖的开源和专有模型一较高下。
Rio 3.5 Open 397B 集成了 SwiReasoning 功能,这是一种基于 Shi 等人(2025)(https://arxiv.org/abs/2510.05069)提出的无训练推理框架,能够根据基于熵的置信度信号动态切换显式思维链推理与隐空间推理。这既实现了更高的准确率,也显著提升了Token效率。该模型经过专门训练,旨在最大化从隐式推理中获得的效率优势。
关键特性
- 总参数397B / 激活参数17B(混合专家模型)
- 1,010,000 tokens(1M)上下文窗口
- 集成SwiReasoning — 动态显式/隐式推理切换,实现帕累托更优的准确率与效率
- 通用型 — 强大的智能体编程、推理、指令遵循及多模态性能
- 基于Qwen 3.5 397B进行后训练
- 多语言 — 在葡萄牙语、英语、中文及数十种其他语言中表现出色
- MIT许可证 — 完全开放,可用于商业和研究目的
基准测试结果
智能体编程与软件工程
| 基准测试 | Rio 3.5 Open 397B | Qwen 3.5 397B(基础) | Qwen 3.7 Plus | DeepSeek V4 Pro | Kimi-K2.6 | GPT 5.5 |
|---|---|---|---|---|---|---|
| Terminal-Bench 2.1 | 70.8 | 52.5 | 70.3 | 67.9 | 66.7 | 78.2 |
| DeepSWE | 23.0 | 6.0 | – | 8.0 | 24.0 | 70.0 |
| SWE-Bench Pro | 58.1 | 50.9 | 57.6 | 59.0 | 59.5 | 58.6 |
| SWE-Bench Verified | 80.2 | 76.2 | 77.7 | 80.6 | 80.2 | 82.9 |
| SWE-Bench Multilingual | 77.0 | 69.3 | 75.8 | 76.2 | 76.7 | – |
知识与推理
| 基准测试 | Rio 3.5 Open 397B | Qwen 3.5 397B(基础) | Qwen 3.7 Plus | DeepSeek V4 Pro | Kimi-K2.6 | GPT 5.5 |
|---|---|---|---|---|---|---|
| GPQA Diamond | 90.9 | 88.4 | 90.3 | 90.1 | 90.5 | 93.6 |
| HLE | 36.5 | 28.7 | 34.7 | 37.7 | 36.4 | 41.4 |
| MMLU-Pro | 88.0 | 87.8 | 88.5 | 87.5 | 87.1 | – |
| MMLU-Redux | 94.6 | 94.9 | 94.5 | 94.8 | 95.3 | – |
| SuperGPQA | 72.3 | 70.4 | 71.4 | 69.9 | 71.3 | – |
| Apex | 29.2 | 9.4 | 22.7 | 38.3 | 24.0 | 80.2 |
数学
| 基准测试 | Rio 3.5 Open 397B | Qwen 3.5 397B(基础) | Qwen 3.7 Plus | DeepSeek V4 Pro | Kimi-K2.6 | GPT 5.5 |
|---|---|---|---|---|---|---|
| HMMT 2026 Feb | 93.9 | 87.9 | 92.9 | 95.2 | 92.7 | 98.5 |
| IMOAnswerBench | 89.5 | 80.9 | 86.0 | 89.8 | 86.0 | – |
多语言
| 基准测试 | Rio 3.5 Open 397B | Qwen 3.5 397B(基础) | Qwen 3.7 Plus | DeepSeek V4 Pro | Kimi-K2.6 | GPT 5.5 |
|---|---|---|---|---|---|---|
| MMMLU | 89.8 | 88.5 | 89.0 | 87.9 | 87.5 | – |
| MMLU-ProX | 85.6 | 84.7 | 85.4 | 83.9 | 83.7 | – |
多模态
| 基准测试 | Rio 3.5 Open 397B | Qwen 3.5 397B(基础) | Qwen 3.7 Plus | DeepSeek V4 Pro | Kimi-K2.6 | GPT 5.5 |
|---|---|---|---|---|---|---|
| MMMU-Pro | 78.4 | 79.0 | 79.0 | – | 79.4 | 81.2 |
| MathVision | 89.1 | 88.6 | 90.3 | – | 87.4 | – |
| VideoMMMU | 81.6 | 84.7 | 85.4 | – | – | 86.4 |
智能体与指令遵循
| 基准测试 | Rio 3.5 Open 397B | Qwen 3.5 397B(基础) | Qwen 3.7 Plus | DeepSeek V4 Pro | Kimi-K2.6 | GPT 5.5 |
|---|---|---|---|---|---|---|
| MCP-Atlas | 74.2 | 74.2 | 73.2 | 73.6 | 66.6 | 75.3 |
| IFBench | 78.4 | 76.5 | 79.1 | 77.0 | 76.0 | 76.0 |
| IFEval | 93.4 | 92.6 | 94.6 | 91.9 | 94.5 | – |
经济价值
| 基准测试 | Rio 3.5 Open 397B | Qwen 3.5 397B(基础) | Qwen 3.7 Plus | DeepSeek V4 Pro | Kimi-K2.6 | GPT 5.5 |
|---|---|---|---|---|---|---|
| GDPval(估算) | 1533 | 1200 | 1520 | 1554 | 1482 | 1769 |
相对于基础模型(Qwen 3.5 397B)的提升
| 基准测试 | 基础模型 | Rio 3.5 Open 397B | Δ |
|---|---|---|---|
| Terminal-Bench 2.1 | 52.5 | 70.8 | +18.3 |
| DeepSWE | 6.0 | 23.0 | +17.0 |
| SWE-Bench Pro | 50.9 | 58.1 | +7.2 |
| SWE-Bench Verified | 76.2 | 80.2 | +4.0 |
| SWE-Bench Multilingual | 69.3 | 77.0 | +7.7 |
| GPQA Diamond | 88.4 | 90.9 | +2.5 |
| HLE | 28.7 | 36.5 | +7.8 |
| HMMT 2026 Feb | 87.9 | 93.9 | +6.0 |
| IMOAnswerBench | 80.9 | 89.5 | +8.6 |
| Apex | 9.4 | 29.2 | +19.8 |
| GDPval(估算) | 1200 | 1533 | +333 |
SwiReasoning:隐式/显式推理
Rio 3.5 Open 397B 集成了 SwiReasoning(https://arxiv.org/abs/2510.05069)(Shi 等人,2025),这是一种无训练推理框架,能够在两种推理模式之间动态切换:
- 显式推理 — 标准自然语言思维链,模型将Token提交至单一推理路径
- 隐式推理 — 在隐藏空间中持续推理,模型在不生成Token的情况下同时探索多条隐式路径
切换由逐块置信度控制,该置信度基于下一个Token分布的熵趋势估算得出。当置信度较低(熵呈上升趋势)时,模型进入隐式模式探索替代方案;当置信度恢复时,则切换回显式模式以确定最终方案。
这种方法实现了帕累托更优的权衡:在无限预算下实现更高准确率,同时在有限预算下显著提升Token效率。与之前的Rio系列模型一样,该模型经过后训练,旨在最大化从隐式推理中获得的增益。
使用方法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "prefeitura-rio/Rio-3.5-Open-397B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
# 用户提示
prompt = "写一首关于里约热内卢的诗。"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=81920,
temperature=0.6,
top_p=0.95,
)
response = tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True)
print(response)
与 vLLM 配合使用
vllm serve prefeitura-rio/Rio-3.5-Open-397B \
--tensor-parallel-size 8 \
--max-model-len 1048576 \
--trust-remote-code
与 SGLang 配合使用
python -m sglang.launch_server \
--model-path prefeitura-rio/Rio-3.5-Open-397B \
--tp 8 \
--context-length 1048576 \
--trust-remote-code
模型详细信息
开发者 | IplanRIO — 里约热内卢市政信息与规划公司(Empresa Municipal de Informática e Planejamento S.A.)
基础模型 | Qwen 3.5 397B
架构 | 混合专家(MoE)Transformer
总参数量 | ~397B
激活参数量 | ~17B
上下文长度 | 1,010,000 tokens(1M)
训练方法 | 后训练
推理增强 | SwiReasoning(隐式/显式切换)
许可证 | MIT
语言 | 多语言(英语、葡萄牙语、中文、日语、韩语、法语、德语、西班牙语、阿拉伯语等)
引用
如果使用了 SwiReasoning,请同时引用:
@misc{shi2025swireasoning,
title={SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning LLMs},
author={Dachuan Shi et al.},
year={2025},
eprint={2510.05069},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
致谢
Rio 3.5 Open 397B 基于 Qwen Team(https://github.com/QwenLM)及其 Qwen 3.5 模型系列的卓越工作构建而成。同时感谢 SwiReasoning(https://github.com/sdc17/SwiReasoning)的作者们提供的创新推理框架。
由 IplanRIO(https://iplanrio.rio.rj.gov.br/)在巴西里约热内卢开发 🇧🇷。
相似文章
里约热内卢的“本土”LLM似乎是现有模型的合并
Nex-AGI 发布并开源了 Nex-N2,这是一个具有统一框架的智能体模型,能够实现自适应和连贯的思考,在智能体和编程基准测试中取得了有竞争力的性能。
OpenAI o3-mini
OpenAI 发布 o3-mini,一款成本高效的推理模型,具备强大的 STEM 能力,现已在 ChatGPT 和 API 中可用,支持函数调用、结构化输出和三个推理力度级别。该模型在数学和编码方面与 o1 性能相当,同时更快且更便宜,免费计划用户首次获得推理模型的访问权限。
@mishig25: 开源真的回来了 http://hf.co/mistralai/Mistral-Medium-3.5-128B…
Mistral AI发布了Mistral Medium 3.5,这是一个开源的128B稠密模型,支持256k上下文、多模态输入、可配置推理和智能体能力。
Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF
本文档介绍 Qwen3.5-9B-DeepSeek-V4-Flash,这是一款通过知识蒸馏技术将 DeepSeek-V4 的推理能力迁移至 9B 参数小模型中的 AI 模型,旨在实现高效推理。
Rio 3.5 397B 疑似只是半失败的资金挪用骗局
一项调查揭示,耗资10万美元的 Rio 3.5 397B AI 模型很可能只是 Nex N2 Pro 的简单合并,并未经过任何训练,从而引发了资金挪用的指控。