token-generation

标签

Cards List
#token-generation

如何阻止模型陷入循环

Reddit r/LocalLLaMA · 2026-05-21

用户报告,包括Qwen 3.6 35B在内的AI模型在与Copilot Chat或Hermes集成时会出现无限循环,生成过多token或错误的工具调用。

0 人收藏 0 人点赞
#token-generation

构建9254修复了我的TG回归问题,并为NVIDIA GPU添加了PDL支持

Reddit r/LocalLLaMA · 2026-05-20

llama.cpp的构建9254修复了一个token生成回归问题,并添加了对NVIDIA GPU的PDL(程序化依赖启动)支持,在新硬件上token生成速度提升高达10%。

0 人收藏 0 人点赞
#token-generation

[基准测试] 5090RTX:提示解析、Token 生成与功耗等级

Reddit r/LocalLLaMA · 2026-05-14

一位用户使用 llama.cpp 对 Nvidia 5090 RTX GPU 进行 LLM 推理基准测试,测量了不同功耗水平下的提示处理和 token 生成情况,发现提示处理对功耗限制更为敏感,而 token 生成相对不敏感,并指出了与 4090 RTX 的差异。

0 人收藏 0 人点赞
#token-generation

@rohanpaul_ai: atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度更快,在 MacBook Pr… 上的 token 生成速度提升约 40%

X AI KOLs Following · 2026-05-07

atomic.chat 优化了 Gemma 4 26B 在 LLaMA.cpp 中的推理性能,在 MacBook Pro M5 Max 上通过多 token 预测(MTP)推测解码实现了约 40% 的 token 生成提速。这对运行桌面应用、编程智能体和本地私有助手的本地 AI 用户来说是一个重大利好。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈