@mr_r0b0t: 16个本地AI代理同时流式传输！MiniMax M2.7 NVFP4 — 2x GB10，没有云API。

X AI KOLs Timeline 2026/05/25 00:28 模型

local-ai ai-agents streaming minimax nvidia-gb10 nvfp4 real-time

摘要

演示展示了使用MiniMax M2.7 NVFP4在两个Nvidia GB10芯片上同时流式传输16个本地AI代理，无需云API。

16个本地AI代理同时流式传输！ MiniMax M2.7 NVFP4 — 2x GB10，没有云API。https://t.co/vNKByQPjmW

查看原文

查看缓存全文

缓存时间: 2026/05/25 16:55

同时运行16个本地AI代理！MiniMax M2.7 NVFP4 — 2块GB10，无需云API。https://t.co/vNKByQPjmW

相似文章

@rohanpaul_ai: NVIDIA 刚刚发布了首个代理型 AI 基准测试结果，其中 GB300 NVL72 每兆瓦可运行多达 20 倍以上的编码代理…

X AI KOLs Following

NVIDIA 发布了首个代理型 AI 基准测试结果，显示 GB300 NVL72 每兆瓦可运行的编码代理数量比 H200 多出 20 倍，该测试基于 Artificial Analysis 的 AgentPerf 基准。

@iotcoi：在小小的GB10 GPU上跑通Google cookbook，10个agent并发，436 tok/s，每agent 43.6 tok/s，Qwen3.6-35B + Dflash + DDTree，vLLM GB10仅74W

X AI KOLs Timeline

一位开发者在单颗74W GB10 GPU上，用vLLM同时跑起10个35B参数Qwen3.6模型agent，总吞吐436 tok/s，实现高效边缘部署。

MiniMax-M2系列：迷你激活释放最大现实智能

Hugging Face Daily Papers

MiniMax-M2系列引入了混合专家语言模型，在极少的激活参数下（总参数量2299亿，每token仅激活98亿）在代理任务上实现了高性能。该系列利用代理驱动的数据管道、名为Forge的可扩展强化学习系统，以及一个向自我进化迈出初步步骤的检查点。

@stevibe：MiniMax M2.7 有 230B 参数，家里真能跑？我用 Unsloth 的 UD-IQ3_XXS（80 GB）在 4 套配置上实测：…

X AI KOLs Following

MiniMax M2.7 有 230B 参数，家里真能跑？我用 Unsloth 的 UD-IQ3_XXS（80 GB）在 4 套配置上实测：4×RTX 4090（96 GB）：71.52 tok/s，首 token 延迟 1045 ms；4×RTX 5090（128 GB）：120.54 tok/s，首 token 延迟 725 ms；1×RTX PRO 6000（96 GB）：118.74 tok/s，首 token 延迟 765 ms；DGX

@TheAhmadOsman: 温馨提醒，开始使用本地AI所需的一切就是： - 2x RTX 3090（在r/hardwareswap上花$700-$900入手） -…