gpu-optimization

标签

Cards List
#gpu-optimization

使用 NVIDIA NeMo AutoModel 加速 Transformer 微调

Hugging Face Blog · 昨天 缓存

NVIDIA NeMo AutoModel 利用 HuggingFace Transformers v5,在微调 Mixture-of-Experts 模型时,无需修改代码(只需一个导入),即可实现 3.4 至 3.7 倍的训练吞吐量提升和 29% 至 32% 的 GPU 内存减少。

0 人收藏 0 人点赞
#gpu-optimization

@robertnishihara: 一个关于RL中解耦重要性的绝佳案例。来自论文:LLM生成在预填充和解码之间交替…

X AI KOLs Following · 5天前 缓存

Robert Nishihara 强调了一篇关于解耦RL工作负载的论文,表明使用计算优化的H800进行预填充,带宽优化的H20进行解码,可以分别将rollout时间减少21-51%和47%,强调没有单一硬件类型适合所有阶段。

0 人收藏 0 人点赞
#gpu-optimization

@h100envy: Daniel Han 创建了 Unsloth,这正是半数开源项目能在单张 GPU 而非集群上微调模型的原因。他还……

X AI KOLs Timeline · 2026-06-17 缓存

Daniel Han 构建了 Unsloth,该工具通过重写 GPU 内核,使单张 GPU 的微调速度提升 2 到 3 倍,让众多开源用户无需集群即可训练模型。

0 人收藏 0 人点赞
#gpu-optimization

MiniMax 稀疏注意力

Hugging Face Daily Papers · 2026-06-11 缓存

MiniMax 稀疏注意力 引入了一种分块稀疏注意力机制,针对超长上下文的大语言模型实现了显著的加速。在1M上下文长度下,每个token的注意力计算减少28.4倍,在H800 GPU上预填充阶段实际速度提升14.2倍,解码阶段提升7.6倍。该方法附带了一个开源推理内核以及一个公开发布的多模态模型。

0 人收藏 0 人点赞
#gpu-optimization

PyTorch 性能分析(第 2 部分):从 nn.Linear 到融合 MLP

Hugging Face Blog · 2026-06-11 缓存

本篇博文继续 PyTorch 性能分析系列内容,探讨 nn.Linear、MLP 块以及使用 Triton 内核的融合技术,以优化性能。

0 人收藏 0 人点赞
#gpu-optimization

@raphaelsrty:在GPU上计算最大相似度(ColBERT、ColPali的评分步骤)可以被优化,这正是@tonywu_71所做的。我……

X AI KOLs Following · 2026-06-10 缓存

Tony Wu发布了late-interaction-kernels (LIK):用于MaxSim的融合Triton内核,MaxSim是ColBERT和ColPali背后的评分步骤,已集成到PyLate和colpali-engine中,提供了内存效率和性能提升。

0 人收藏 0 人点赞
#gpu-optimization

Luce Spark:无需卸载开销,在16GB GPU上运行35B MoE模型

Reddit r/LocalLLaMA · 2026-06-08

Luce Spark 是一款开源工具,通过智能地将热门专家缓存到 GPU 上,同时将其他专家保留在系统 RAM 中,从而在 16GB GPU 上运行 35B MoE 模型。它采用校准放置和有限异步缓存,保持高吞吐量,避免了常见的卸载速度断崖。

0 人收藏 0 人点赞
#gpu-optimization

标准GPU上的实时LLM推理:每请求3k tokens/秒

Hacker News Top · 2026-05-29 缓存

Kog AI 发布了 Kog Inference Engine 的技术预览版,通过协同设计模型架构、运行时和底层 GPU 代码,在标准数据中心 GPU 上实现了每请求 3,000 tokens/s 的性能,面向延迟敏感的 AI 代理工作流。

0 人收藏 0 人点赞
#gpu-optimization

为AMD MI300X构建LLM推理的单内核 - 每个请求最高3300输出tokens/秒 [P]

Reddit r/MachineLearning · 2026-05-29

一种针对AMD MI300X GPU上LLM解码的单内核方法,每个请求可达3300输出tokens/秒,无需推测解码或量化,利用映射到芯片拓扑结构的内存访问模式。

0 人收藏 0 人点赞
#gpu-optimization

@PyTorch: 模型优化与训练后量化 模型量化是一种减少VRAM使用并提高...

X AI KOLs Following · 2026-05-26 缓存

这篇来自NVIDIA的文章介绍了如何使用NVIDIA Model Optimizer库,通过训练后量化方法将CLIP模型量化为FP8格式,从而减少VRAM使用并提升在消费级GPU上的推理性能。

0 人收藏 0 人点赞
#gpu-optimization

SIA:自我改进的人工智能框架,结合调控器与权重更新

Hugging Face Daily Papers · 2026-05-26 缓存

一种自我改进的人工智能框架,通过语言模型反馈代理同时更新模型权重和任务特定的智能体架构,在法律分类、GPU优化和生物去噪任务上取得了显著提升。

0 人收藏 0 人点赞
#gpu-optimization

CUDA: 添加快速 Walsh-Hadamard 变换(作者 am17an)· Pull Request #23615 · ggml-org/llama.cpp

Reddit r/LocalLLaMA · 2026-05-25 缓存

此拉取请求为 llama.cpp(一个流行的开源 LLM 推理引擎)添加了 CUDA 上的快速 Walsh-Hadamard 变换实现。该优化提升了在 NVIDIA GPU 上某些计算操作的性能。

0 人收藏 0 人点赞
#gpu-optimization

@rohanpaul_ai: 来自atomic[.]chat的又一个本地LLM好消息,它可以在你的电脑上100%离线运行。他们刚刚展示了MTP(多…

X AI KOLs Following · 2026-05-21 缓存

atomic.chat的MTP技术通过草拟多个令牌并一起验证它们来加速本地LLM推理,在Qwen 27B密集模型上实现了高达137%的加速,且准确率零损失。

0 人收藏 0 人点赞
#gpu-optimization

@vivekgalatage:我发现的最好的GPU优化结构化参考资料——450篇论文,14年研究。一些技术已经进化……

X AI KOLs Timeline · 2026-05-20 缓存

一条推文分享了一个涵盖14年、450篇论文的GPU优化结构化参考资料,指出虽然一些技术已经发展,但心智模型仍然有用。还提到了Onur Mutlu关于GPU架构的讲座。

0 人收藏 0 人点赞
#gpu-optimization

DualKV: 针对大规模生成和长上下文的共享提示Flash Attention,用于高效RL训练

arXiv cs.LG · 2026-05-18 缓存

介绍DualKV,一种FlashAttention内核变体,可消除RL后训练(GRPO/DAPO)中冗余的提示词元计算,在30B MoE模型上实现高达3.82倍的加速。

0 人收藏 0 人点赞
#gpu-optimization

探寻4x 3090的甜点

Reddit r/LocalLLaMA · 2026-05-15

一位用户分享了在运行Qwen3.6-27B与vLLM的4x RTX 3090平台上进行的功耗限制测试,发现220W是在最小化吞吐量损失下实现峰值效率的甜点。

0 人收藏 0 人点赞
#gpu-optimization

Flash-GRPO: 通过单步策略优化实现视频扩散的高效对齐

Hugging Face Daily Papers · 2026-05-15 缓存

Flash-GRPO 通过等时间分组和时间梯度校正解决时间方差和梯度不一致问题,从而提升了视频扩散模型的训练效率,实现了最先进的对齐质量和显著的训练加速。

0 人收藏 0 人点赞
#gpu-optimization

@AndrewYNg: 新课程:Transformers in Practice。你将获得对基于Transformer的LLM工作方式的实践理解,从而能够推理…

X AI KOLs Following · 2026-05-14 缓存

deeplearning.ai与AMD合作推出的新课程《Transformers in Practice》,教授对基于Transformer的LLM的实践理解,涵盖文本生成、注意力机制以及量化(quantization)和KV缓存等推理优化技术。

0 人收藏 0 人点赞
#gpu-optimization

在连续批处理中实现异步性

Hugging Face Blog · 2026-05-14 缓存

本文解释了如何为LLM推理实现异步连续批处理,将CPU批处理准备与GPU计算重叠,以最大化利用率并减少空闲时间。

0 人收藏 0 人点赞
#gpu-optimization

Ada-MK:基于自动化 DAG 搜索的 LLM 推理自适应 MegaKernel 优化

arXiv cs.CL · 2026-05-13 缓存

本文介绍了 Ada-MK,一种利用自动化基于有向无环图(DAG)的搜索来消除运行时分支并减少大语言模型(LLM)推理共享内存使用的自适应 MegaKernel 优化方法。通过集成到 TensorRT-LLM 中,该方法在 NVIDIA Ada GPU 上展示了显著的吞吐量提升,在商业广告系统中相比原生 TensorRT-LLM 性能最高提升 23.6%。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈