inference

标签

Cards List
#inference

在4× DGX Spark (GB10)上成功运行GLM-5.2 + MTP投机解码——并发现公开构建配方中缺失的组件

Reddit r/LocalLLaMA · 15小时前

作者在4× DGX Spark (GB10)设备上成功运行了配备MTP投机解码的GLM-5.2,并揭示了公开构建配方中缺失的一个组件。

0 人收藏 0 人点赞
#inference

@anthonycorletti:最好的开发者平台在计算、存储和网络之上创建抽象层,让即使是最复杂的工作负载也能无…

X AI KOLs Following · 16小时前 缓存

Modal 宣布推出 Auto Endpoints,实现轻松推理,开发者 Anthony Corletti 称赞其为计算、存储和网络之上的一流抽象。

0 人收藏 0 人点赞
#inference

Sipp - 一个基于 llama.cpp 的浏览器内推理开源库

Reddit r/LocalLLaMA · 20小时前

Sipp 是一个开源库,利用 llama.cpp 实现浏览器内推理,使 AI 模型能够直接在浏览器中运行。

0 人收藏 0 人点赞
#inference

运行AI代理的最佳且经济实惠的推理提供商是哪家?

Reddit r/AI_Agents · 23小时前

一份比较经济实惠的推理提供商的指南,帮助开发者选择最佳方案来运行AI代理。

0 人收藏 0 人点赞
#inference

@antirez: 基于我在DwarfStar中实现GLM 5.2的说法,有90%的概率我会合并该分支…

X AI KOLs Following · 23小时前

Antirez宣布合并实现GLM 5.2的分支可能性很高,这可能成为运行在512GB Mac Studio上的最佳模型,并可能通过2位量化在分布式128GB MacBook上运行。

0 人收藏 0 人点赞
#inference

感知RoPE的KV缓存量化比特分配方法

arXiv cs.LG · 昨天 缓存

提出Block-GTQ,一种感知RoPE的KV缓存量化比特分配方法,通过为高能量RoPE块分配更多比特,提升长上下文性能与内存效率。

0 人收藏 0 人点赞
#inference

@charles_irl: dflash 高速运转

X AI KOLs Timeline · 昨天 缓存

NVIDIA 宣布推出 DFlash,一种用于推测解码的开源块扩散模型,在 Blackwell GPU 上可实现高达 15 倍的推理吞吐量提升,同时保持交互性。

0 人收藏 0 人点赞
#inference

@Ex0byt: 更新:通往GLM-5.2之路:我们快到了,各位!未量化、未剪枝的DeepSeek-v4-Flash。单台……上11 tok/s

X AI KOLs Timeline · 昨天 缓存

关于在单台DGX Spark上使用sglang推理和自定义mega-kernel以11 tok/s运行未量化的DeepSeek-v4-Flash模型的更新,正在向GLM-5.2迈进。

0 人收藏 0 人点赞
#inference

新型隐私AI模型,usedot.xyz

Reddit r/ArtificialInteligence · 昨天

Dot Loom 是一个开源协调层,能将多个AI模型整合成一个统一的推理系统,支持多种提供商。它充当路由器、起草者、验证者和最终确定者的角色。

0 人收藏 0 人点赞
#inference

Modal Auto Endpoints:你掌控的优化推理

Hacker News Top · 昨天 缓存

Modal推出了Auto Endpoints,这是一项自助服务,提供优化的、生产级的LLM推理,具备完整代码所有权、透明指标和自动缩放功能,构建于其无服务器GPU基础设施之上。

0 人收藏 0 人点赞
#inference

@charles_irl: 掌控你的推理,掌控你的代理平台,掌控你的命运。在 @modal Endpoints 上使用 OpenInspect。

X AI KOLs Following · 昨天 缓存

OpenInspect 支持完全自托管的背景代理系统,在 Modal Endpoints 上使用 GLM-5.2,强调对推理基础设施的所有权。

0 人收藏 0 人点赞
#inference

@bernhardsson: 现在所有用户都可以在@modal上使用托管的私有LLM端点。只需在UI上点击几下或在CLI中敲击几下键盘即可部署。

X AI KOLs Timeline · 昨天 缓存

Modal宣布向所有用户开放托管的私有LLM端点,支持通过UI或CLI轻松部署,并且客户可以完全访问底层代码。

0 人收藏 0 人点赞
#inference

@charles_irl: 几年前,人工智能的未来看起来一片黯淡——专有模型、专有推理服务……

X AI KOLs Following · 昨天 缓存

Modal 宣布推出 Auto Endpoints,这是一项可通过一键实现优化的开源 AI 推理的服务,旨在对抗专有模型和服务的趋势。

0 人收藏 0 人点赞
#inference

@modal:现在真正拥有你的推理还为时不晚。介绍:Modal Auto Endpoints。

X AI KOLs Timeline · 昨天 缓存

Modal 宣布推出 Auto Endpoints,这是一个用于拥有和部署 AI 推理的新功能。

0 人收藏 0 人点赞
#inference

@PyTorch: SGLang 为 DeepSeek-V4 提供了首日支持,而 @lmsysorg 与 @NVIDIAAI 工程团队的合作…

X AI KOLs Following · 昨天 缓存

SGLang 为 DeepSeek-V4 提供了首日支持,LMSys 与 NVIDIA 工程团队的合作在生产环境中实现了高达 5 倍的吞吐量提升,相关改进已在 SemiAnalysis InferenceX 仪表盘上展示。

0 人收藏 0 人点赞
#inference

多层级MoE缓存

Reddit r/LocalLLaMA · 2天前

讨论MoE模型的多层级缓存策略,通过将频繁激活的专家保留在GPU上来提升推理速度,参考了PowerInfer和llama.cpp分支等现有实现。

0 人收藏 0 人点赞
#inference

@charles_irl: GLM 5.2 runs pretty fast on Modal.

X AI KOLs Following · 2天前 缓存

GLM 5.2 在 Modal 云平台上展现出快速的性能表现。

0 人收藏 0 人点赞
#inference

@eliebakouch: 在GLM-5上进行强化学习所需了解的所有基础设施内容 https://primeintellect.ai/blog/rl-at-1t-scale…

X AI KOLs Timeline · 2天前 缓存

Prime Intellect发布了prime-rl v0.6.0,支持在万亿参数规模的大型Mixture-of-Experts模型上进行高效强化学习,实现低于5分钟的步骤时间,并对异步强化学习进行了优化。

0 人收藏 0 人点赞
#inference

AI芯片制造商Groq确认6.5亿美元融资,在英伟达200亿美元‘非收购式挖角’交易之后重新招聘员工

TechCrunch AI · 2天前 缓存

Groq融资6.5亿美元,在英伟达200亿美元的授权交易和人才挖角之后转向其neocloud业务,招聘新高管并扩展数据中心。

0 人收藏 0 人点赞
#inference

@alina_weinstein: 推理正在成为世界上最大的市场,而且它仍在建设之中。Baseten 每天处理超过10亿次推理调用……

X AI KOLs Following · 2天前 缓存

Baseten 每天处理超过10亿次推理调用,并已筹集15亿美元用于扩大其基础设施,凸显推理是一个巨大的市场。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈