ai-inference

标签

Cards List
#ai-inference

@polydao: 这堂关于AI推理的斯坦福课程比大多数ML课程更能让你了解LLM在生产环境中的运作方式 > Clau…

X AI KOLs Timeline · 10小时前

一场关于AI推理的斯坦福讲座强调了KV-cache等实际瓶颈以及推测性解码和连续批处理等技术,比典型ML课程提供更多现实世界的洞察。

0 人收藏 0 人点赞
#ai-inference

储蓄投资,为未来的顶级硬件做准备

Reddit r/LocalLLaMA · 21小时前

作者讨论了包括 RTX Blackwell 和 Apple Silicon 在内的高端 AI 硬件成本不断上升的问题,主张保持耐心,期待未来高速 DDR5 内存和多通道系统的技术突破,这将显著提升 Token 生成性能。

0 人收藏 1 人点赞
#ai-inference

@modal: @vllm_project 和 @sgl_project 服务器在 Modal 上的新副本启动速度提升 3-10 倍。阅读文章了解具体实现方式 ——…

X AI KOLs Following · 昨天 缓存

Modal 宣布,通过优化 GPU 健康管理和 CUDA 上下文检查点机制,vLLM 和 SGLang 服务器副本的启动速度提升了 3-10 倍。

0 人收藏 0 人点赞
#ai-inference

@no_stp_on_snek: 感谢 @_EldarKurtic、@mgoin_ 和 @RedHat_AI 关于 TurboQuant 的详尽报告。H100 上原生 F… 的数据

X AI KOLs Following · 2天前

一次技术讨论验证了在配备 FP8 Tensor Core 的 NVIDIA H100 GPU 上 TurboQuant 的性能数据,并承诺将带来非 H100 测试的更多见解。

0 人收藏 0 人点赞
#ai-inference

@binsquares:天哪,smolvm 上的 GPU 加速效果远比我预想的好。可以在 smol 机器内运行 llama.cpp,性能接近……

X AI KOLs Following · 2天前 缓存

用户 @binsquares 报告称,smolvm 上的 GPU 加速通过 Vulkan 后端运行 llama.cpp 时,可获得接近 90% 的主机性能。

0 人收藏 0 人点赞
#ai-inference

@AlexJonesax:在M5Max上启用MTP和oMLX推理,Qwen3.6-27b飞速运行

X AI KOLs Timeline · 3天前 缓存

社区报告称,通过oMLX优化,Qwen3.6-27b模型在M5Max硬件上实现了极高的推理性能。

0 人收藏 0 人点赞
#ai-inference

@gabriel1:如果 Claude 5.5 速度提升 20 倍,你就能边说边写代码,界面会随着你说话实时更新

X AI KOLs Following · 5天前

有人推测,如果 Claude 5.5 速度提升 20 倍,用户将能够实时对话并编写代码,界面会随着语音输入同步更新。

0 人收藏 0 人点赞
#ai-inference

台湾公司Skymizer发布HTX301 - 配备384GB内存、功耗约240瓦的PCIE推理卡

Reddit r/LocalLLaMA · 5天前 缓存

Skymizer发布HTX301,一款能够本地运行700B参数大语言模型、拥有高内存和低功耗的PCIE推理卡。

0 人收藏 0 人点赞
#ai-inference

AI推理遵循着截然不同的规则(9分钟阅读)

TLDR AI · 6天前 缓存

文章指出AI推理对云数据基础设施提出了独特挑战,其需求更接近高并发OLTP系统,而非传统面向人类速度的应用。文章强调需要优化存储和数据访问层,以应对自主智能体驱动的"AI数据海啸"。

0 人收藏 0 人点赞
#ai-inference

重新思考 AI 总体拥有成本:为何每 Token 成本是唯一关键指标

NVIDIA Blog · 2026-04-15 缓存

NVIDIA 认为,每 Token 成本是衡量 AI 总体拥有成本(TCO)的最关键指标,优于 FLOPS/美元等传统衡量标准,能更准确地反映现实世界中的推理效率和盈利能力。

0 人收藏 0 人点赞
#ai-inference

Gemini API 中平衡成本与可靠性的新途径

Google AI Blog · 2026-04-02 缓存

Google 为 Gemini API 推出了 Flex 和 Priority 推理层,为开发者提供了对同步请求成本与可靠性的精细控制。Flex 可为对延迟不敏感的任务节省 50% 的成本,而 Priority 则可确保关键应用的高可靠性。

0 人收藏 0 人点赞
#ai-inference

Gemini 2.5:思维模型家族的更新

Google DeepMind Blog · 2025-06-17 缓存

Google 宣布 Gemini 2.5 Pro 和 Flash 模型的稳定正式发布,推出新的 Gemini 2.5 Flash-Lite 预览版,具有更低的延迟和成本,并更新 Flash 系列的定价,调整输入/输出令牌费率。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈