ai-inference

#ai-inference

@polydao: 这堂关于AI推理的斯坦福课程比大多数ML课程更能让你了解LLM在生产环境中的运作方式 > Clau…

X AI KOLs Timeline ↗ · 10小时前

一场关于AI推理的斯坦福讲座强调了KV-cache等实际瓶颈以及推测性解码和连续批处理等技术，比典型ML课程提供更多现实世界的洞察。

0 人收藏 0 人点赞

#ai-inference

储蓄投资，为未来的顶级硬件做准备

Reddit r/LocalLLaMA ↗ · 21小时前

作者讨论了包括 RTX Blackwell 和 Apple Silicon 在内的高端 AI 硬件成本不断上升的问题，主张保持耐心，期待未来高速 DDR5 内存和多通道系统的技术突破，这将显著提升 Token 生成性能。

0 人收藏 1 人点赞

#ai-inference

@modal: @vllm_project 和 @sgl_project 服务器在 Modal 上的新副本启动速度提升 3-10 倍。阅读文章了解具体实现方式 ——…

X AI KOLs Following ↗ · 昨天缓存

Modal 宣布，通过优化 GPU 健康管理和 CUDA 上下文检查点机制，vLLM 和 SGLang 服务器副本的启动速度提升了 3-10 倍。

0 人收藏 0 人点赞

#ai-inference

@no_stp_on_snek: 感谢 @_EldarKurtic、@mgoin_ 和 @RedHat_AI 关于 TurboQuant 的详尽报告。H100 上原生 F… 的数据

X AI KOLs Following ↗ · 2天前

一次技术讨论验证了在配备 FP8 Tensor Core 的 NVIDIA H100 GPU 上 TurboQuant 的性能数据，并承诺将带来非 H100 测试的更多见解。

0 人收藏 0 人点赞

#ai-inference

@binsquares：天哪，smolvm 上的 GPU 加速效果远比我预想的好。可以在 smol 机器内运行 llama.cpp，性能接近……

X AI KOLs Following ↗ · 2天前缓存

用户 @binsquares 报告称，smolvm 上的 GPU 加速通过 Vulkan 后端运行 llama.cpp 时，可获得接近 90% 的主机性能。

0 人收藏 0 人点赞

#ai-inference

@AlexJonesax：在M5Max上启用MTP和oMLX推理，Qwen3.6-27b飞速运行

X AI KOLs Timeline ↗ · 3天前缓存

社区报告称，通过oMLX优化，Qwen3.6-27b模型在M5Max硬件上实现了极高的推理性能。

0 人收藏 0 人点赞

#ai-inference

@gabriel1：如果 Claude 5.5 速度提升 20 倍，你就能边说边写代码，界面会随着你说话实时更新

X AI KOLs Following ↗ · 5天前

有人推测，如果 Claude 5.5 速度提升 20 倍，用户将能够实时对话并编写代码，界面会随着语音输入同步更新。

0 人收藏 0 人点赞

#ai-inference

台湾公司Skymizer发布HTX301 - 配备384GB内存、功耗约240瓦的PCIE推理卡

Reddit r/LocalLLaMA ↗ · 5天前缓存

Skymizer发布HTX301，一款能够本地运行700B参数大语言模型、拥有高内存和低功耗的PCIE推理卡。

0 人收藏 0 人点赞

#ai-inference

AI推理遵循着截然不同的规则（9分钟阅读）

TLDR AI ↗ · 6天前缓存

文章指出AI推理对云数据基础设施提出了独特挑战，其需求更接近高并发OLTP系统，而非传统面向人类速度的应用。文章强调需要优化存储和数据访问层，以应对自主智能体驱动的"AI数据海啸"。

0 人收藏 0 人点赞

#ai-inference

重新思考 AI 总体拥有成本：为何每 Token 成本是唯一关键指标

NVIDIA Blog ↗ · 2026-04-15 缓存

NVIDIA 认为，每 Token 成本是衡量 AI 总体拥有成本（TCO）的最关键指标，优于 FLOPS/美元等传统衡量标准，能更准确地反映现实世界中的推理效率和盈利能力。

0 人收藏 0 人点赞

#ai-inference

Gemini API 中平衡成本与可靠性的新途径

Google AI Blog ↗ · 2026-04-02 缓存

Google 为 Gemini API 推出了 Flex 和 Priority 推理层，为开发者提供了对同步请求成本与可靠性的精细控制。Flex 可为对延迟不敏感的任务节省 50% 的成本，而 Priority 则可确保关键应用的高可靠性。

0 人收藏 0 人点赞

#ai-inference

Gemini 2.5：思维模型家族的更新

Google DeepMind Blog ↗ · 2025-06-17 缓存

Google 宣布 Gemini 2.5 Pro 和 Flash 模型的稳定正式发布，推出新的 Gemini 2.5 Flash-Lite 预览版，具有更低的延迟和成本，并更新 Flash 系列的定价，调整输入/输出令牌费率。

0 人收藏 0 人点赞

ai-inference

提交意见反馈