token-generation

#token-generation

我的投掷决定我的目标

Hacker News Top ↗ · 2026-07-16 缓存

一篇反思性文章，以蓝调歌曲为隐喻，描述大型语言模型如何逐词生成文本，论证“投掷”（生成）决定了“目标”（意图），颠覆了通常意图先于表达的顺序。

0 人收藏 0 人点赞

#token-generation

@dabit3: 1,000 tok/s 与 85 tok/s 对比可视化

X AI KOLs Timeline ↗ · 2026-07-15 缓存

Nader Dabit 展示了1,000 tok/s子代理与85 tok/s之间的速度差异，强调lightning skill offload通过使用子代理进行实施同时保持前沿模型作为规划者和审查者，可实现约5倍更快的执行。

0 人收藏 0 人点赞

#token-generation

MiMo v2.5被低估了。在OpenCode中感觉令牌从屏幕中源源不断地涌出。

Reddit r/LocalLLaMA ↗ · 2026-07-09

MiMo v2.5因其在OpenCode中令人印象深刻的令牌生成速度而受到称赞，表明它是一次被低估的模型更新。

0 人收藏 0 人点赞

#token-generation

@sama: 哦对了……750 token/sec 将在七月以5.6 SOL 提供！

X AI KOLs ↗ · 2026-06-26

Sam Altman 宣布，一款每秒750个token的模型将在七月以5.6 SOL的价格提供。

0 人收藏 0 人点赞

#token-generation

如何阻止模型陷入循环

Reddit r/LocalLLaMA ↗ · 2026-05-21

用户报告，包括Qwen 3.6 35B在内的AI模型在与Copilot Chat或Hermes集成时会出现无限循环，生成过多token或错误的工具调用。

0 人收藏 0 人点赞

#token-generation

构建9254修复了我的TG回归问题，并为NVIDIA GPU添加了PDL支持

Reddit r/LocalLLaMA ↗ · 2026-05-20

llama.cpp的构建9254修复了一个token生成回归问题，并添加了对NVIDIA GPU的PDL（程序化依赖启动）支持，在新硬件上token生成速度提升高达10%。

0 人收藏 0 人点赞

#token-generation

[基准测试] 5090RTX：提示解析、Token 生成与功耗等级

Reddit r/LocalLLaMA ↗ · 2026-05-14

一位用户使用 llama.cpp 对 Nvidia 5090 RTX GPU 进行 LLM 推理基准测试，测量了不同功耗水平下的提示处理和 token 生成情况，发现提示处理对功耗限制更为敏感，而 token 生成相对不敏感，并指出了与 4090 RTX 的差异。

0 人收藏 0 人点赞

#token-generation

@rohanpaul_ai: atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度更快，在 MacBook Pr… 上的 token 生成速度提升约 40%

X AI KOLs Following ↗ · 2026-05-07

atomic.chat 优化了 Gemma 4 26B 在 LLaMA.cpp 中的推理性能，在 MacBook Pro M5 Max 上通过多 token 预测（MTP）推测解码实现了约 40% 的 token 生成提速。这对运行桌面应用、编程智能体和本地私有助手的本地 AI 用户来说是一个重大利好。

0 人收藏 0 人点赞

token-generation

提交意见反馈