trillion-parameter

#trillion-parameter

@zephyr_z9: 这太重要了，我认为这是第一个实用的推测解码方法，部署在大型准前沿模型上 M…

X AI KOLs Following ↗ · 昨天缓存

小米 MiMo 发布 MiMo-V2.5-Pro-UltraSpeed，通过推测解码在 1 万亿参数模型上实现每秒超过 1000 个 token，这是首次大规模实际部署如此速度。

0 人收藏 0 人点赞

#trillion-parameter

小米刚刚声称在标准8-GPU服务器上对1T模型实现了1000+ tps

Reddit r/LocalLLaMA ↗ · 昨天缓存

小米与TileRT合作发布了MiMo-V2.5-Pro-UltraSpeed，在1万亿参数模型上实现了超过1000 tokens/s的解码速度，支持实时AI交互，并加速了编程代理和推理任务。

0 人收藏 0 人点赞

#trillion-parameter

对于AI智能体，较重的推理预算应该优先用在何处：行动之前、状态变化之后，还是最终解释之前？

Reddit r/artificial ↗ · 2026-06-01

关于AI智能体中推理预算分配位置的讨论，引用了拥有高/极高推理努力模式的万亿参数模型Ring-2.6-1T。

0 人收藏 0 人点赞

#trillion-parameter

在智能体栈中，您会将哪一类失败优先路由到 Ring：工具选择错误、重新规划错误还是最终答案验证？

Reddit r/AI_Agents ↗ · 2026-05-31

关于将失败类别（工具选择错误、重新规划错误、最终答案验证）路由到 Ring-2.6-1T 的讨论，Ring-2.6-1T 是一个用于智能体工作流的万亿参数推理模型，具有高推理努力模式。

0 人收藏 0 人点赞

#trillion-parameter

你更愿意调整一个模型的推理深度，还是在两个模型之间切换？

Reddit r/AI_Agents ↗ · 2026-05-24

这是对使用单个可调深度的万亿参数推理模型（如 Ring-2.6-1T）与在多个专用模型之间切换这两种方案的权衡思考，探讨哪种方法对代理工作流更简洁或更具成本效益。

0 人收藏 0 人点赞

#trillion-parameter

@YRSM_Simon: 这是个大新闻！ kimi 2.6 是生成级的模型了，在 LLM 能力溢出的年代，速度要成为竞争的胜负手了，芯片领域又要“板块轮动”了吗

X AI KOLs Following ↗ · 2026-05-20 缓存

Cerebras is now running Kimi K2.6, a trillion-parameter model, in enterprise trials at ~1,000 tokens/s, the fastest frontier model performance ever measured by Artificial Analysis.

0 人收藏 0 人点赞

#trillion-parameter

@draecomino: Cerebras 创下新纪录：万亿参数模型，每秒 1000 个 token

X AI KOLs Timeline ↗ · 2026-05-19 缓存

Cerebras 宣布，在企业试用中，其运行万亿参数模型 Kimi K2.6 的速度约为每秒 1000 个 token，并声称这是 Artificial Analysis 有史以来测得的最快前沿模型性能。

0 人收藏 0 人点赞

#trillion-parameter

也许下一个模型的胜利在于降低智能体工作流的消耗

Reddit r/AI_Agents ↗ · 2026-05-19

文章讨论了下一个重要的模型进步可能在于降低智能体工作流的成本，重点介绍了蚂蚁集团的 Ling-2.6-1T，这是一个万亿参数模型，旨在以低计算开销实现高效推理和任务执行。

0 人收藏 0 人点赞

#trillion-parameter

inclusionAI/Ring-2.6-1T · Hugging Face

Reddit r/LocalLLaMA ↗ · 2026-05-14 缓存

inclusionAI发布了Ring-2.6-1T，一个万亿参数推理模型，具有增强的代理执行能力、推理努力机制和异步强化学习训练范式，旨在应对复杂的现实世界任务。

0 人收藏 0 人点赞

trillion-parameter

提交意见反馈