gpu-memory

标签

#gpu-memory

Hierarchical Global Attention (HGA)

arXiv cs.LG ↗ · 3天前缓存

Hierarchical Global Attention (HGA) 是一种可直接替换预训练长上下文Transformer中密集因果注意力的方法。它采用分层两级路由机制，使得能够对一个小规模路由工作集进行精确注意力计算，从而允许像 Qwen3-30B 这样的模型在单个 RTX 5090 上以64K上下文运行，且质量损失极小。

0 人收藏 0 人点赞

#gpu-memory

llama.cpp - 如何在GPU上释放更多空间

Reddit r/LocalLLaMA ↗ · 2026-06-17

一则讨论如何在llama.cpp中释放GPU内存实用技巧的帖子，例如将mmproj卸载到CPU、调整KV缓存类型，同时讨论了--cache-type-k/v和--spec-draft-n-max等参数。

0 人收藏 0 人点赞

#gpu-memory

@amitiitbhu：新文章：vLLM 是如何工作的？请在此阅读：https://outcomeschool.com/blog/how-does-vllm-work…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

一篇详细的博客文章，解释了 vLLM 的工作原理，包括 PagedAttention、KV 缓存管理和连续批处理，以实现高效的 LLM 服务。

1 人收藏 1 人点赞

#gpu-memory

打造了一款能准确告诉你哪些LLMs适合你的GPU的工具。欢迎反馈。

Reddit r/LocalLLaMA ↗ · 2026-06-12 缓存

一款估算哪些LLMs适合用户GPU内存的工具，根据性能对模型进行排名，同时考虑内存限制和量化级别。

0 人收藏 0 人点赞

#gpu-memory

开源 InfiniteKV：一种 KV 缓存，将旧 token 压缩为 104 字节的可搜索记录存储在内存或磁盘中，而非删除。Mistral-7B 从 token 76,747 处作答，超出其训练窗口 2.3 倍。附 Colab 演示

Reddit r/LocalLLaMA ↗ · 2026-06-12

InfiniteKV 是一种开源 KV 缓存技术，将旧 token 压缩为 104 字节的可搜索记录，存储在内存或磁盘中，使模型能够处理超出训练窗口的百万 token 上下文而无需丢弃数据。已验证可与 Mistral-7B 和 SmolLM2 配合使用。

0 人收藏 0 人点赞

#gpu-memory

FlashMemory-DeepSeek-V4：通过前瞻稀疏注意力实现闪电索引超长上下文

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

提出在DeepSeek-V4上结合神经记忆索引器的前瞻稀疏注意力，将GPU内存使用降至全上下文基线的约13.5%，同时保持或略微提升准确率。

0 人收藏 0 人点赞

#gpu-memory

LLM的GPU内存计算 (2026版)

Reddit r/LocalLLaMA ↗ · 2026-05-20 缓存

一份实用指南，解释了如何根据参数量和量化级别计算LLM的VRAM需求，以及KV缓存、激活值和批处理带来的额外开销。

0 人收藏 0 人点赞

#gpu-memory

迈向多模型LLM调度器：关于卸载和抢占的实证洞见

arXiv cs.AI ↗ · 2026-05-20

本文对在共享异构硬件上调度多个LLM进行了实证研究，重点关注CPU-GPU卸载和抢占的性能影响。研究发现，卸载会导致非线性的解码吞吐量下降，尤其是对于较小的模型，而抢占开销主要由模型状态重载主导，为未来多模型调度器的设计提供了指导。

0 人收藏 0 人点赞

#gpu-memory

内存富裕/显卡贫瘠的人错了吗？

Reddit r/LocalLLaMA ↗ · 2026-05-15

讨论了本地AI中密集模型与混合专家（MoE）模型之间的权衡，指出高内存用户除了Qwen 3.5 122B之外，MoE选择有限，并质疑大显存是否是唯一可行的路径。

0 人收藏 0 人点赞

#gpu-memory

@KL_Div：随着生成长度增加，LLM 占用的 GPU 内存持续攀升。能否在几乎不牺牲精度的前提下，让 GPU 内存占用保持恒定？

X AI KOLs Timeline ↗ · 2026-04-23 缓存

IceCache 通过“动态连续索引”（DCI）技术，在超长生成任务中将 GPU 内存占用压到恒定，且精度损失极小。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈