inference

标签

Cards List
#inference

感知RoPE的KV缓存量化比特分配方法

arXiv cs.LG · 6小时前 缓存

提出Block-GTQ,一种感知RoPE的KV缓存量化比特分配方法,通过为高能量RoPE块分配更多比特,提升长上下文性能与内存效率。

0 人收藏 0 人点赞
#inference

@charles_irl: dflash 高速运转

X AI KOLs Timeline · 10小时前 缓存

NVIDIA 宣布推出 DFlash,一种用于推测解码的开源块扩散模型,在 Blackwell GPU 上可实现高达 15 倍的推理吞吐量提升,同时保持交互性。

0 人收藏 0 人点赞
#inference

新型隐私AI模型,usedot.xyz

Reddit r/ArtificialInteligence · 15小时前

Dot Loom 是一个开源协调层,能将多个AI模型整合成一个统一的推理系统,支持多种提供商。它充当路由器、起草者、验证者和最终确定者的角色。

0 人收藏 0 人点赞
#inference

Modal Auto Endpoints:你掌控的优化推理

Hacker News Top · 15小时前 缓存

Modal推出了Auto Endpoints,这是一项自助服务,提供优化的、生产级的LLM推理,具备完整代码所有权、透明指标和自动缩放功能,构建于其无服务器GPU基础设施之上。

0 人收藏 0 人点赞
#inference

@bernhardsson: 现在所有用户都可以在@modal上使用托管的私有LLM端点。只需在UI上点击几下或在CLI中敲击几下键盘即可部署。

X AI KOLs Timeline · 16小时前 缓存

Modal宣布向所有用户开放托管的私有LLM端点,支持通过UI或CLI轻松部署,并且客户可以完全访问底层代码。

0 人收藏 0 人点赞
#inference

@modal:现在真正拥有你的推理还为时不晚。介绍:Modal Auto Endpoints。

X AI KOLs Timeline · 16小时前 缓存

Modal 宣布推出 Auto Endpoints,这是一个用于拥有和部署 AI 推理的新功能。

0 人收藏 0 人点赞
#inference

@PyTorch: SGLang 为 DeepSeek-V4 提供了首日支持,而 @lmsysorg 与 @NVIDIAAI 工程团队的合作…

X AI KOLs Following · 18小时前 缓存

SGLang 为 DeepSeek-V4 提供了首日支持,LMSys 与 NVIDIA 工程团队的合作在生产环境中实现了高达 5 倍的吞吐量提升,相关改进已在 SemiAnalysis InferenceX 仪表盘上展示。

0 人收藏 0 人点赞
#inference

多层级MoE缓存

Reddit r/LocalLLaMA · 昨天

讨论MoE模型的多层级缓存策略,通过将频繁激活的专家保留在GPU上来提升推理速度,参考了PowerInfer和llama.cpp分支等现有实现。

0 人收藏 0 人点赞
#inference

@charles_irl: GLM 5.2 runs pretty fast on Modal.

X AI KOLs Following · 昨天 缓存

GLM 5.2 在 Modal 云平台上展现出快速的性能表现。

0 人收藏 0 人点赞
#inference

@eliebakouch: 在GLM-5上进行强化学习所需了解的所有基础设施内容 https://primeintellect.ai/blog/rl-at-1t-scale…

X AI KOLs Timeline · 昨天 缓存

Prime Intellect发布了prime-rl v0.6.0,支持在万亿参数规模的大型Mixture-of-Experts模型上进行高效强化学习,实现低于5分钟的步骤时间,并对异步强化学习进行了优化。

0 人收藏 0 人点赞
#inference

AI芯片制造商Groq确认6.5亿美元融资,在英伟达200亿美元‘非收购式挖角’交易之后重新招聘员工

TechCrunch AI · 昨天 缓存

Groq融资6.5亿美元,在英伟达200亿美元的授权交易和人才挖角之后转向其neocloud业务,招聘新高管并扩展数据中心。

0 人收藏 0 人点赞
#inference

@alina_weinstein: 推理正在成为世界上最大的市场,而且它仍在建设之中。Baseten 每天处理超过10亿次推理调用……

X AI KOLs Following · 昨天 缓存

Baseten 每天处理超过10亿次推理调用,并已筹集15亿美元用于扩大其基础设施,凸显推理是一个巨大的市场。

0 人收藏 0 人点赞
#inference

GLM-5.2 UD-IQ1_M 在 llama.cpp 上的运行 — 5090 + 3090 Ti 速度测试 (~ 579 t/s 预填充 @ 8k 上下文, ~324 t/s 预填充 @ 57k 上下文, ~10.6 t/s 解码)

Reddit r/LocalLLaMA · 昨天

GLM-5.2 在 llama.cpp 上使用 RTX 5090 和 RTX 3090 Ti 运行的速度测试结果,显示在 8k 上下文中预填充速度高达 579 t/s,解码速度约为 10.6 t/s。

0 人收藏 0 人点赞
#inference

你认为运行本地大型语言模型的专用硬件会很快变得平价吗?

Reddit r/LocalLLaMA · 2天前

讨论了运行本地大模型的平价专用硬件的可能性,考虑到中国制造商大规模生产低成本硬件的能力。

0 人收藏 0 人点赞
#inference

@TheAhmadOsman: 为什么我关注你硬件的推理引擎/软件栈? - 2x RTX 3090s: ~14.5 tok/s → ~64 tok/s 提升到…

X AI KOLs Following · 2天前 缓存

不同硬件上推理引擎性能对比:在2x RTX 3090s上从基线迁移到TP=2的vLLM,性能从~14.5 tok/s提升至~64 tok/s;在RTX PRO 6000上迁移到Sglang,性能从~32 tok/s提升至~110 tok/s。推荐在CUDA/多GPU场景使用vLLM/Sglang,在边缘设备使用llama.cpp。

0 人收藏 0 人点赞
#inference

ROCm vs Vulkan vs vLLM 在双R9700上的对比

Reddit r/LocalLLaMA · 2天前

对运行在双AMD Radeon 9700 GPU上的AI推理框架ROCm、Vulkan和vLLM进行比较,可能是在对大型语言模型的性能进行基准测试。

0 人收藏 0 人点赞
#inference

@TheAhmadOsman: 本地AI硬件 = 容量 × 带宽 × 软件栈 - 容量决定能装下什么 - 带宽告诉你有多难…

X AI KOLs Following · 3天前 缓存

一份关于本地AI硬件在内存容量、带宽和软件栈方面的详细比较,涵盖GPU、Apple Silicon、AMD、Intel、Tenstorrent等,重点关注AI推理中哪些瓶颈最关键。

0 人收藏 0 人点赞
#inference

@TheAhmadOsman: 学习LLM中的解码和采样器机制能带来很多隐藏的阿尔法收益

X AI KOLs Following · 3天前 缓存

一条推文强调了理解LLM中解码和采样器机制对于获得优势的价值。

0 人收藏 0 人点赞
#inference

@0xCristal: https://x.com/0xCristal/status/2068280221954961731

X AI KOLs Timeline · 3天前 缓存

本文介绍了一台运行六个AI代理(24/7不间断)的配置,设备是Minisforum MS-S1 Max迷你工作站,搭载AMD Ryzen AI Max+ 395芯片,每月电费仅11美元。文章强调从云端API成本转向本地推理,实现始终在线的代理,用于邮件分类、研究监控和文档处理等任务。

0 人收藏 0 人点赞
#inference

@robertnishihara: 一个关于RL中解耦重要性的绝佳案例。来自论文:LLM生成在预填充和解码之间交替…

X AI KOLs Following · 4天前 缓存

Robert Nishihara 强调了一篇关于解耦RL工作负载的论文,表明使用计算优化的H800进行预填充,带宽优化的H20进行解码,可以分别将rollout时间减少21-51%和47%,强调没有单一硬件类型适合所有阶段。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈