inference

#inference

感知RoPE的KV缓存量化比特分配方法

arXiv cs.LG ↗ · 6小时前缓存

提出Block-GTQ，一种感知RoPE的KV缓存量化比特分配方法，通过为高能量RoPE块分配更多比特，提升长上下文性能与内存效率。

0 人收藏 0 人点赞

#inference

@charles_irl: dflash 高速运转

X AI KOLs Timeline ↗ · 10小时前缓存

NVIDIA 宣布推出 DFlash，一种用于推测解码的开源块扩散模型，在 Blackwell GPU 上可实现高达 15 倍的推理吞吐量提升，同时保持交互性。

0 人收藏 0 人点赞

#inference

新型隐私AI模型，usedot.xyz

Reddit r/ArtificialInteligence ↗ · 15小时前

Dot Loom 是一个开源协调层，能将多个AI模型整合成一个统一的推理系统，支持多种提供商。它充当路由器、起草者、验证者和最终确定者的角色。

0 人收藏 0 人点赞

#inference

Modal Auto Endpoints：你掌控的优化推理

Hacker News Top ↗ · 15小时前缓存

Modal推出了Auto Endpoints，这是一项自助服务，提供优化的、生产级的LLM推理，具备完整代码所有权、透明指标和自动缩放功能，构建于其无服务器GPU基础设施之上。

0 人收藏 0 人点赞

#inference

@bernhardsson: 现在所有用户都可以在@modal上使用托管的私有LLM端点。只需在UI上点击几下或在CLI中敲击几下键盘即可部署。

X AI KOLs Timeline ↗ · 16小时前缓存

Modal宣布向所有用户开放托管的私有LLM端点，支持通过UI或CLI轻松部署，并且客户可以完全访问底层代码。

0 人收藏 0 人点赞

#inference

@modal：现在真正拥有你的推理还为时不晚。介绍：Modal Auto Endpoints。

X AI KOLs Timeline ↗ · 16小时前缓存

Modal 宣布推出 Auto Endpoints，这是一个用于拥有和部署 AI 推理的新功能。

0 人收藏 0 人点赞

#inference

@PyTorch: SGLang 为 DeepSeek-V4 提供了首日支持，而 @lmsysorg 与 @NVIDIAAI 工程团队的合作…

X AI KOLs Following ↗ · 18小时前缓存

SGLang 为 DeepSeek-V4 提供了首日支持，LMSys 与 NVIDIA 工程团队的合作在生产环境中实现了高达 5 倍的吞吐量提升，相关改进已在 SemiAnalysis InferenceX 仪表盘上展示。

0 人收藏 0 人点赞

#inference

多层级MoE缓存

Reddit r/LocalLLaMA ↗ · 昨天

讨论MoE模型的多层级缓存策略，通过将频繁激活的专家保留在GPU上来提升推理速度，参考了PowerInfer和llama.cpp分支等现有实现。

0 人收藏 0 人点赞

#inference

@charles_irl: GLM 5.2 runs pretty fast on Modal.

X AI KOLs Following ↗ · 昨天缓存

GLM 5.2 在 Modal 云平台上展现出快速的性能表现。

0 人收藏 0 人点赞

#inference

@eliebakouch: 在GLM-5上进行强化学习所需了解的所有基础设施内容 https://primeintellect.ai/blog/rl-at-1t-scale…

X AI KOLs Timeline ↗ · 昨天缓存

Prime Intellect发布了prime-rl v0.6.0，支持在万亿参数规模的大型Mixture-of-Experts模型上进行高效强化学习，实现低于5分钟的步骤时间，并对异步强化学习进行了优化。

0 人收藏 0 人点赞

#inference

AI芯片制造商Groq确认6.5亿美元融资，在英伟达200亿美元‘非收购式挖角’交易之后重新招聘员工

TechCrunch AI ↗ · 昨天缓存

Groq融资6.5亿美元，在英伟达200亿美元的授权交易和人才挖角之后转向其neocloud业务，招聘新高管并扩展数据中心。

0 人收藏 0 人点赞

#inference

@alina_weinstein: 推理正在成为世界上最大的市场，而且它仍在建设之中。Baseten 每天处理超过10亿次推理调用……

X AI KOLs Following ↗ · 昨天缓存

Baseten 每天处理超过10亿次推理调用，并已筹集15亿美元用于扩大其基础设施，凸显推理是一个巨大的市场。

0 人收藏 0 人点赞

#inference

GLM-5.2 UD-IQ1_M 在 llama.cpp 上的运行 — 5090 + 3090 Ti 速度测试 (~ 579 t/s 预填充 @ 8k 上下文, ~324 t/s 预填充 @ 57k 上下文, ~10.6 t/s 解码)

Reddit r/LocalLLaMA ↗ · 昨天

GLM-5.2 在 llama.cpp 上使用 RTX 5090 和 RTX 3090 Ti 运行的速度测试结果，显示在 8k 上下文中预填充速度高达 579 t/s，解码速度约为 10.6 t/s。

0 人收藏 0 人点赞

#inference

你认为运行本地大型语言模型的专用硬件会很快变得平价吗？

Reddit r/LocalLLaMA ↗ · 2天前

讨论了运行本地大模型的平价专用硬件的可能性，考虑到中国制造商大规模生产低成本硬件的能力。

0 人收藏 0 人点赞

#inference

@TheAhmadOsman: 为什么我关注你硬件的推理引擎/软件栈？ - 2x RTX 3090s: ~14.5 tok/s → ~64 tok/s 提升到…

X AI KOLs Following ↗ · 2天前缓存

不同硬件上推理引擎性能对比：在2x RTX 3090s上从基线迁移到TP=2的vLLM，性能从~14.5 tok/s提升至~64 tok/s；在RTX PRO 6000上迁移到Sglang，性能从~32 tok/s提升至~110 tok/s。推荐在CUDA/多GPU场景使用vLLM/Sglang，在边缘设备使用llama.cpp。

0 人收藏 0 人点赞

#inference