offloading

#offloading

@dabit3: 1,000 tok/s 与 85 tok/s 对比可视化

X AI KOLs Timeline ↗ · 2026-07-15 缓存

Nader Dabit 展示了1,000 tok/s子代理与85 tok/s之间的速度差异，强调lightning skill offload通过使用子代理进行实施同时保持前沿模型作为规划者和审查者，可实现约5倍更快的执行。

0 人收藏 0 人点赞

#offloading

Hacker News Top ↗ · 2026-07-14 缓存

本文探讨了日益增长的依赖AI进行思考和决策的趋势，通过轶事和引用Ken Liu的短篇小说，质疑人类自主性的丧失。

0 人收藏 0 人点赞

#offloading

Reddit r/LocalLLaMA ↗ · 2026-06-05

一位用户分享了在llama.cpp中将KV缓存卸载到RAM的经验，在释放显存以便运行更大模型和上下文窗口的同时，实现了相近的速度，表明这种权衡通常是值得的。

0 人收藏 0 人点赞

#offloading

Reddit r/openclaw ↗ · 2026-06-05

在单张 RTX 3090 上使用定制版 llama.cpp（ik_llama.cpp）以 35 t/s 运行 Qwen 3.5 122B MoE 的详细解析，其中采用了融合 MoE 操作和专家层卸载到 CPU 内存的技术，性能显著优于原版 llama.cpp MTP。

0 人收藏 0 人点赞

#offloading

Reddit r/LocalLLaMA ↗ · 2026-05-24

讨论了将大型AI模型权重从GPU显存卸载到系统内存时的性能权衡，比较了不同GPU配置（如RTX 5090与RTX6000）在运行DeepSeek V4 Pro等模型时的表现。

0 人收藏 0 人点赞

#offloading

Reddit r/LocalLLaMA ↗ · 2026-05-22

一位用户分享了他们使用 llama.cpp 服务器进行模型卸载的经验，指出了性能权衡和安静运行的优势，并询问了解该工具如何在 VRAM 和系统 RAM 之间管理内存的阅读资源。

0 人收藏 0 人点赞

#offloading

arXiv cs.AI ↗ · 2026-05-20

本文对在共享异构硬件上调度多个LLM进行了实证研究，重点关注CPU-GPU卸载和抢占的性能影响。研究发现，卸载会导致非线性的解码吞吐量下降，尤其是对于较小的模型，而抢占开销主要由模型状态重载主导，为未来多模型调度器的设计提供了指导。

0 人收藏 0 人点赞