inference

#inference

在4× DGX Spark (GB10)上成功运行GLM-5.2 + MTP投机解码——并发现公开构建配方中缺失的组件

Reddit r/LocalLLaMA ↗ · 15小时前

作者在4× DGX Spark (GB10)设备上成功运行了配备MTP投机解码的GLM-5.2，并揭示了公开构建配方中缺失的一个组件。

0 人收藏 0 人点赞

#inference

@anthonycorletti：最好的开发者平台在计算、存储和网络之上创建抽象层，让即使是最复杂的工作负载也能无…

X AI KOLs Following ↗ · 16小时前缓存

Modal 宣布推出 Auto Endpoints，实现轻松推理，开发者 Anthony Corletti 称赞其为计算、存储和网络之上的一流抽象。

0 人收藏 0 人点赞

#inference

Sipp - 一个基于 llama.cpp 的浏览器内推理开源库

Reddit r/LocalLLaMA ↗ · 20小时前

Sipp 是一个开源库，利用 llama.cpp 实现浏览器内推理，使 AI 模型能够直接在浏览器中运行。

0 人收藏 0 人点赞

#inference

运行AI代理的最佳且经济实惠的推理提供商是哪家？

Reddit r/AI_Agents ↗ · 23小时前

一份比较经济实惠的推理提供商的指南，帮助开发者选择最佳方案来运行AI代理。

0 人收藏 0 人点赞

#inference

@antirez: 基于我在DwarfStar中实现GLM 5.2的说法，有90%的概率我会合并该分支…

X AI KOLs Following ↗ · 23小时前

Antirez宣布合并实现GLM 5.2的分支可能性很高，这可能成为运行在512GB Mac Studio上的最佳模型，并可能通过2位量化在分布式128GB MacBook上运行。

0 人收藏 0 人点赞

#inference

感知RoPE的KV缓存量化比特分配方法

arXiv cs.LG ↗ · 昨天缓存

提出Block-GTQ，一种感知RoPE的KV缓存量化比特分配方法，通过为高能量RoPE块分配更多比特，提升长上下文性能与内存效率。

0 人收藏 0 人点赞

#inference

@charles_irl: dflash 高速运转

X AI KOLs Timeline ↗ · 昨天缓存

NVIDIA 宣布推出 DFlash，一种用于推测解码的开源块扩散模型，在 Blackwell GPU 上可实现高达 15 倍的推理吞吐量提升，同时保持交互性。

0 人收藏 0 人点赞

#inference

@Ex0byt: 更新：通往GLM-5.2之路：我们快到了，各位！未量化、未剪枝的DeepSeek-v4-Flash。单台……上11 tok/s

X AI KOLs Timeline ↗ · 昨天缓存

关于在单台DGX Spark上使用sglang推理和自定义mega-kernel以11 tok/s运行未量化的DeepSeek-v4-Flash模型的更新，正在向GLM-5.2迈进。

0 人收藏 0 人点赞

#inference

新型隐私AI模型，usedot.xyz

Reddit r/ArtificialInteligence ↗ · 昨天

Dot Loom 是一个开源协调层，能将多个AI模型整合成一个统一的推理系统，支持多种提供商。它充当路由器、起草者、验证者和最终确定者的角色。

0 人收藏 0 人点赞

#inference

Modal Auto Endpoints：你掌控的优化推理

Hacker News Top ↗ · 昨天缓存

Modal推出了Auto Endpoints，这是一项自助服务，提供优化的、生产级的LLM推理，具备完整代码所有权、透明指标和自动缩放功能，构建于其无服务器GPU基础设施之上。

0 人收藏 0 人点赞

#inference

@charles_irl: 掌控你的推理，掌控你的代理平台，掌控你的命运。在 @modal Endpoints 上使用 OpenInspect。

X AI KOLs Following ↗ · 昨天缓存

OpenInspect 支持完全自托管的背景代理系统，在 Modal Endpoints 上使用 GLM-5.2，强调对推理基础设施的所有权。

0 人收藏 0 人点赞

#inference

@bernhardsson: 现在所有用户都可以在@modal上使用托管的私有LLM端点。只需在UI上点击几下或在CLI中敲击几下键盘即可部署。

X AI KOLs Timeline ↗ · 昨天缓存

Modal宣布向所有用户开放托管的私有LLM端点，支持通过UI或CLI轻松部署，并且客户可以完全访问底层代码。

0 人收藏 0 人点赞

#inference

@charles_irl: 几年前，人工智能的未来看起来一片黯淡——专有模型、专有推理服务……

X AI KOLs Following ↗ · 昨天缓存

Modal 宣布推出 Auto Endpoints，这是一项可通过一键实现优化的开源 AI 推理的服务，旨在对抗专有模型和服务的趋势。

0 人收藏 0 人点赞

#inference

@modal：现在真正拥有你的推理还为时不晚。介绍：Modal Auto Endpoints。

X AI KOLs Timeline ↗ · 昨天缓存

Modal 宣布推出 Auto Endpoints，这是一个用于拥有和部署 AI 推理的新功能。

0 人收藏 0 人点赞

#inference

@PyTorch: SGLang 为 DeepSeek-V4 提供了首日支持，而 @lmsysorg 与 @NVIDIAAI 工程团队的合作…

X AI KOLs Following ↗ · 昨天缓存

SGLang 为 DeepSeek-V4 提供了首日支持，LMSys 与 NVIDIA 工程团队的合作在生产环境中实现了高达 5 倍的吞吐量提升，相关改进已在 SemiAnalysis InferenceX 仪表盘上展示。

0 人收藏 0 人点赞

#inference

多层级MoE缓存

Reddit r/LocalLLaMA ↗ · 2天前

讨论MoE模型的多层级缓存策略，通过将频繁激活的专家保留在GPU上来提升推理速度，参考了PowerInfer和llama.cpp分支等现有实现。

0 人收藏 0 人点赞

#inference

@charles_irl: GLM 5.2 runs pretty fast on Modal.

X AI KOLs Following ↗ · 2天前缓存

GLM 5.2 在 Modal 云平台上展现出快速的性能表现。

0 人收藏 0 人点赞

#inference

@eliebakouch: 在GLM-5上进行强化学习所需了解的所有基础设施内容 https://primeintellect.ai/blog/rl-at-1t-scale…

X AI KOLs Timeline ↗ · 2天前缓存

Prime Intellect发布了prime-rl v0.6.0，支持在万亿参数规模的大型Mixture-of-Experts模型上进行高效强化学习，实现低于5分钟的步骤时间，并对异步强化学习进行了优化。

0 人收藏 0 人点赞

#inference

AI芯片制造商Groq确认6.5亿美元融资，在英伟达200亿美元‘非收购式挖角’交易之后重新招聘员工

TechCrunch AI ↗ · 2天前缓存

Groq融资6.5亿美元，在英伟达200亿美元的授权交易和人才挖角之后转向其neocloud业务，招聘新高管并扩展数据中心。

0 人收藏 0 人点赞

#inference

@alina_weinstein: 推理正在成为世界上最大的市场，而且它仍在建设之中。Baseten 每天处理超过10亿次推理调用……

X AI KOLs Following ↗ · 2天前缓存

Baseten 每天处理超过10亿次推理调用，并已筹集15亿美元用于扩大其基础设施，凸显推理是一个巨大的市场。

0 人收藏 0 人点赞

inference

提交意见反馈