gpu-memory

标签

Cards List
#gpu-memory

Hierarchical Global Attention (HGA)

arXiv cs.LG · 3天前 缓存

Hierarchical Global Attention (HGA) 是一种可直接替换预训练长上下文Transformer中密集因果注意力的方法。它采用分层两级路由机制,使得能够对一个小规模路由工作集进行精确注意力计算,从而允许像 Qwen3-30B 这样的模型在单个 RTX 5090 上以64K上下文运行,且质量损失极小。

0 人收藏 0 人点赞
#gpu-memory

llama.cpp - 如何在GPU上释放更多空间

Reddit r/LocalLLaMA · 2026-06-17

一则讨论如何在llama.cpp中释放GPU内存实用技巧的帖子,例如将mmproj卸载到CPU、调整KV缓存类型,同时讨论了--cache-type-k/v和--spec-draft-n-max等参数。

0 人收藏 0 人点赞
#gpu-memory

@amitiitbhu:新文章:vLLM 是如何工作的?请在此阅读:https://outcomeschool.com/blog/how-does-vllm-work…

X AI KOLs Timeline · 2026-06-17 缓存

一篇详细的博客文章,解释了 vLLM 的工作原理,包括 PagedAttention、KV 缓存管理和连续批处理,以实现高效的 LLM 服务。

1 人收藏 1 人点赞
#gpu-memory

打造了一款能准确告诉你哪些LLMs适合你的GPU的工具。欢迎反馈。

Reddit r/LocalLLaMA · 2026-06-12 缓存

一款估算哪些LLMs适合用户GPU内存的工具,根据性能对模型进行排名,同时考虑内存限制和量化级别。

0 人收藏 0 人点赞
#gpu-memory

开源 InfiniteKV:一种 KV 缓存,将旧 token 压缩为 104 字节的可搜索记录存储在内存或磁盘中,而非删除。Mistral-7B 从 token 76,747 处作答,超出其训练窗口 2.3 倍。附 Colab 演示

Reddit r/LocalLLaMA · 2026-06-12

InfiniteKV 是一种开源 KV 缓存技术,将旧 token 压缩为 104 字节的可搜索记录,存储在内存或磁盘中,使模型能够处理超出训练窗口的百万 token 上下文而无需丢弃数据。已验证可与 Mistral-7B 和 SmolLM2 配合使用。

0 人收藏 0 人点赞
#gpu-memory

FlashMemory-DeepSeek-V4:通过前瞻稀疏注意力实现闪电索引超长上下文

Hugging Face Daily Papers · 2026-06-08 缓存

提出在DeepSeek-V4上结合神经记忆索引器的前瞻稀疏注意力,将GPU内存使用降至全上下文基线的约13.5%,同时保持或略微提升准确率。

0 人收藏 0 人点赞
#gpu-memory

LLM的GPU内存计算 (2026版)

Reddit r/LocalLLaMA · 2026-05-20 缓存

一份实用指南,解释了如何根据参数量和量化级别计算LLM的VRAM需求,以及KV缓存、激活值和批处理带来的额外开销。

0 人收藏 0 人点赞
#gpu-memory

迈向多模型LLM调度器:关于卸载和抢占的实证洞见

arXiv cs.AI · 2026-05-20

本文对在共享异构硬件上调度多个LLM进行了实证研究,重点关注CPU-GPU卸载和抢占的性能影响。研究发现,卸载会导致非线性的解码吞吐量下降,尤其是对于较小的模型,而抢占开销主要由模型状态重载主导,为未来多模型调度器的设计提供了指导。

0 人收藏 0 人点赞
#gpu-memory

内存富裕/显卡贫瘠的人错了吗?

Reddit r/LocalLLaMA · 2026-05-15

讨论了本地AI中密集模型与混合专家(MoE)模型之间的权衡,指出高内存用户除了Qwen 3.5 122B之外,MoE选择有限,并质疑大显存是否是唯一可行的路径。

0 人收藏 0 人点赞
#gpu-memory

@KL_Div:随着生成长度增加,LLM 占用的 GPU 内存持续攀升。能否在几乎不牺牲精度的前提下,让 GPU 内存占用保持恒定?

X AI KOLs Timeline · 2026-04-23 缓存

IceCache 通过“动态连续索引”(DCI)技术,在超长生成任务中将 GPU 内存占用压到恒定,且精度损失极小。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈