inference-optimization

#inference-optimization

BitCal-TTS：面向量化推理模型的比特校准测试时扩展

arXiv cs.AI ↗ · 昨天缓存

本文介绍了 BitCal-TTS，这是一种运行时控制器，通过在测试时扩展期间校准置信度信号，提高了量化推理模型的准确性并减少了过早终止的问题。

0 人收藏 0 人点赞

#inference-optimization

Meta的优化版RecSys推理（58分钟阅读）

TLDR AI ↗ · 昨天缓存

Meta的内核内广播优化（IKBO）通过内核-模型-系统协同设计，消除了RecSys推理中的冗余用户嵌入广播，在H100 GPU上实现了高达2/3的延迟降低和约4倍加速，并成为Meta自适应排名模型的骨干。

0 人收藏 0 人点赞

#inference-optimization

@rohanpaul_ai: atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度更快，在 MacBook Pr… 上的 token 生成速度提升约 40%

X AI KOLs Following ↗ · 昨天

atomic.chat 优化了 Gemma 4 26B 在 LLaMA.cpp 中的推理性能，在 MacBook Pro M5 Max 上通过多 token 预测（MTP）推测解码实现了约 40% 的 token 生成提速。这对运行桌面应用、编程智能体和本地私有助手的本地 AI 用户来说是一个重大利好。

0 人收藏 0 人点赞

#inference-optimization

AI agents 正在改变人们对计算成本的看法

Reddit r/AI_Agents ↗ · 昨天

本文讨论了AI代理工作流如何将优化重心从单纯的推理成本转向更广泛的挑战，如延迟、编排开销和可靠性。文章强调了向混合架构和动态模型路由发展的趋势，以应对这些多步骤工作流的复杂性。

0 人收藏 0 人点赞

#inference-optimization

@googlegemma: Gemma 4 在手机上速度提升 3 倍！看看推测解码带来的不同！Multi-Token Predi…

X AI KOLs Timeline ↗ · 昨天缓存

Google 的 Gemma 4 通过推测解码和多 Token 预测，推理速度提升高达 3 倍，可实现高效的设备端部署。

0 人收藏 0 人点赞

#inference-optimization

MLX 上新的 Gemma 4 MTP？

Reddit r/LocalLLaMA ↗ · 昨天

Google 发布了用于 Gemma 4 的多 token 预测草稿器，通过推测性解码加速推理，但目前对 MLX 的支持尚未确认或不可用。

0 人收藏 0 人点赞

#inference-optimization

用一个 Python 字典将多模态推理性能提升超 10%

Hacker News Top ↗ · 3天前缓存

Modal 的工程师对 SGLang 调度器在多模态 VLM 工作负载下进行了性能分析，发现将开销较大的 GPU 显存记录操作替换为一个简单的 Python 字典缓存后，吞吐量提升了 16%，延迟降低了超过 13%。该修复已合并至 SGLang v0.5.10。

0 人收藏 0 人点赞

#inference-optimization

google/gemma-4-26B-A4B-it-assistant

Hugging Face Models Trending ↗ · 2026-04-23 缓存

Google DeepMind 发布了 Gemma 4 MTP 草稿模型（drafter），适用于 Gemma 4 系列模型，通过推测解码（speculative decoding）实现显著的解码加速，同时保持完全一致的生成质量，适用于低延迟应用场景。

0 人收藏 0 人点赞

#inference-optimization

z-lab/Qwen3.6-27B-DFlash

Hugging Face Models Trending ↗ · 2026-04-23 缓存

本文介绍 Qwen3.6-27B-DFlash，这是专为 DFlash 设计的草稿模型。DFlash 是一种新型推测解码方法，利用块扩散技术加速推理速度。文章提供了 vLLM 和 SGLang 的安装说明，以便与目标模型 Qwen3.6-27B 实现并行草稿生成。

0 人收藏 0 人点赞

#inference-optimization

@0xSero：终于搞定 GLM-5.1-505B-REAP-NVFP4，解码 45 tokens/s，预填充 1350 tokens/s，剪枝 32%，这是我跑通过最费劲的一次…

X AI KOLs Timeline ↗ · 2026-04-20 缓存

开发者 @0xSero 在优化版 GLM-5.1-505B 上通过 NVFP4 量化与 32% 剪枝实现高吞吐推理，解码速度 45 tokens/s，预填充速度 1350 tokens/s。

0 人收藏 0 人点赞

#inference-optimization

@zhijianliu_: 推理 VLA 会思考，只是不够快——直到现在。推出 FlashDrive：RTX PRO 6000 上 716 ms → 159 ms……

X AI KOLs Timeline ↗ · 2026-04-19 缓存

FlashDrive 将推理视觉-语言-动作模型在 RTX PRO 6000 上的延迟从 716 ms 降至 159 ms，最高加速 5.7 倍，零精度损失，让实时自主应用成为可能。

0 人收藏 0 人点赞

#inference-optimization

@bstnxbt：DFlash v0.1.4：为量化版 Qwen3 混合模型提供自定义 Metal 验证内核，并显著降低峰值内存占用……

X AI KOLs Following ↗ · 2026-04-18 缓存

DFlash v0.1.4 发布了面向量化版 Qwen3 混合模型的自定义 Metal 验证内核，在 M5 Max GPU 上可显著降低峰值内存占用，并在长上下文场景下实现 2.2 倍吞吐量提升。

0 人收藏 0 人点赞

#inference-optimization

那么...有人弄清楚Elephant Alpha到底是哪个公司的模型了吗？

Reddit r/singularity ↗ · 2026-04-18

社区正在讨论Elephant Alpha的身份，这是一个100B参数的模型，在OpenRouter上排名第一，拥有256K上下文窗口、快速推理速度和强大的编码能力，但中文支持较差，大家猜测可能是哪家公司开发的。

0 人收藏 0 人点赞

#inference-optimization

阐明扩散概率模型的SNR-t偏差

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

# 论文页面 - 阐明扩散概率模型的SNR-t偏差来源：[https://huggingface.co/papers/2604.16044](https://huggingface.co/papers/2604.16044) ## 摘要扩散概率模型在推理阶段存在SNR-timestep偏差，本文提出一种微分校正方法，对频率分量分别处理，以极低计算代价提升多种模型的生成质量。 [扩散概率模型](https://hugg

0 人收藏 0 人点赞

#inference-optimization

及时止损！学习早期剪枝路径以实现高效并行推理

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

本文介绍了STOP（用于剪枝的超令牌），一种轻量级方法，通过在并行解码中附加可学习令牌并读取KV缓存状态，学会早期剪枝不优的推理路径，在AIME和GPQA基准测试中实现70%的令牌减少，同时提高性能。

0 人收藏 0 人点赞

#inference-optimization

模型能力主导：AIMO 3推理时优化的经验启示

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

本论文分析了AIMO 3的推理时优化技术，发现模型能力优于提示工程和多样化采样策略。研究表明高温度采样已经能够最大程度地去相关化误差，为基于提示的改进留下了很少余地，并识别出单个模型pass@20与多数投票共识之间存在6分的选择损失差距。

0 人收藏 0 人点赞

#inference-optimization

Forge-UGC：面向通用图编译器的 FX 优化与寄存器图引擎

Hugging Face Daily Papers ↗ · 2026-04-14 缓存

Forge-UGC 是一个四阶段通用图编译器，可在 NPU 上加速 Transformer 部署，相比 OpenVINO/ONNX Runtime，编译时间缩短 6.9–9.2 倍，推理延迟降低 18–36%，能耗减少 30–41%。

0 人收藏 0 人点赞

#inference-optimization

基于 PagedAttention 的大语言模型服务高效内存管理

Papers with Code Trending ↗ · 2023-09-12 缓存

本文介绍了 PagedAttention，这是一种受虚拟内存分页技术启发的算法，以及 vLLM，这是一种通过减少键值缓存中的内存碎片来显著提高大语言模型吞吐量的服务系统。

0 人收藏 0 人点赞

#inference-optimization

@bastani_behnam：我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点，成本仅为一小部分……

X AI KOLs Following ↗ · 2026-04-21 缓存

OpenInfer 展示“垂直拆解”，通过单节点 AMD EPYC CPU 与 Nvidia L40S GPU 协同执行量化层，并配合自定义 SLA 感知调度器，将 Qwen 3.5 27B 的吞吐量提升约 50%。

0 人收藏 0 人点赞

inference-optimization

提交意见反馈