gpu-optimization

#gpu-optimization

@AndrewYNg: 新课程：Transformers in Practice。你将获得对基于Transformer的LLM工作方式的实践理解，从而能够推理…

X AI KOLs Following ↗ · 16小时前缓存

deeplearning.ai与AMD合作推出的新课程《Transformers in Practice》，教授对基于Transformer的LLM的实践理解，涵盖文本生成、注意力机制以及量化（quantization）和KV缓存等推理优化技术。

0 人收藏 0 人点赞

#gpu-optimization

在连续批处理中实现异步性

Hugging Face Blog ↗ · 昨天缓存

本文解释了如何为LLM推理实现异步连续批处理，将CPU批处理准备与GPU计算重叠，以最大化利用率并减少空闲时间。

0 人收藏 0 人点赞

#gpu-optimization

Ada-MK：基于自动化 DAG 搜索的 LLM 推理自适应 MegaKernel 优化

arXiv cs.CL ↗ · 2天前缓存

本文介绍了 Ada-MK，一种利用自动化基于有向无环图（DAG）的搜索来消除运行时分支并减少大语言模型（LLM）推理共享内存使用的自适应 MegaKernel 优化方法。通过集成到 TensorRT-LLM 中，该方法在 NVIDIA Ada GPU 上展示了显著的吞吐量提升，在商业广告系统中相比原生 TensorRT-LLM 性能最高提升 23.6%。

0 人收藏 0 人点赞

#gpu-optimization

vllm-project/vllm v0.21.0rc1

GitHub Releases Watchlist ↗ · 2天前缓存

vLLM v0.21.0rc1 是高性能大语言模型推理和服务库的预发布更新，主要功能包括针对吞吐量、量化以及硬件支持的优化。

0 人收藏 0 人点赞

#gpu-optimization

停止浪费电力

Reddit r/LocalLLaMA ↗ · 2天前

作者展示了如何在通过 llama.cpp 运行量化 Qwen 模型时，在不牺牲推理速度的前提下，将 RTX 4090 的功耗降低高达 40%。通过 nvidia-smi 限制 GPU 功耗上限并调整 llama-server 参数，用户可显著降低发热与噪音，并延长硬件使用寿命。

0 人收藏 0 人点赞

#gpu-optimization

Blackwell LLM 工具包 - 针对 Blackwell GPU 的 NVFP4 配置 + Wheels + TensorRT-LLM 基准测试 - Nemotron 3 Omni 达到 270 tok/s

Reddit r/LocalLLaMA ↗ · 3天前

一个开发者工具包，提供在使用 TensorRT-LLM 通过 Nvidia Blackwell GPU 以 NVFP4 精度运行大型语言模型时的配置、预编译包（wheels）及基准测试数据。

0 人收藏 0 人点赞

#gpu-optimization

@no_stp_on_snek: 感谢 @_EldarKurtic、@mgoin_ 和 @RedHat_AI 关于 TurboQuant 的详尽报告。H100 上原生 F… 的数据

X AI KOLs Following ↗ · 3天前

一次技术讨论验证了在配备 FP8 Tensor Core 的 NVIDIA H100 GPU 上 TurboQuant 的性能数据，并承诺将带来非 H100 测试的更多见解。

0 人收藏 0 人点赞

#gpu-optimization

ExLlamaV3 重大更新！

Reddit r/LocalLLaMA ↗ · 4天前

ExLlamaV3 发布了一系列重大更新，包括对 Gemma 4 的支持、缓存效率的提升，以及新的 DFlash 技术，可显著提高各类模型的推理速度。

0 人收藏 0 人点赞

#gpu-optimization

DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测：在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s

Reddit r/LocalLLaMA ↗ · 4天前

这篇文章详细介绍了一个经过定制并量化的 DeepSeek-V4-Flash 模型版本，启用了 MTP 自推测功能。通过修改后的 vLLM 设置，在双 RTX PRO 6000 Max-Q GPU 上实现了显著的速度提升。

0 人收藏 0 人点赞

#gpu-optimization

@0xSero: 刚刚添加了两种新的模型压缩版本：Hy3-FP8 和 NVFP4。我推荐尝试这个模型，它非常强大且可以完整地在 256GB 显存上运行……

X AI KOLs Following ↗ · 5天前缓存

0xSero 发布了腾讯 Hy3-preview 模型的 FP8 和 NVFP4 量化版本，使其能够在使用完整上下文的情况下在 256GB 显存的设备上运行。

0 人收藏 0 人点赞

#gpu-optimization

BeeLlama.cpp：支持推理和视觉的先进 DFlash 与 TurboQuant。在 RTX 3090 上以 200k 上下文运行 Qwen 3.6 27B Q5，速度比基线快 2-3 倍（峰值 135 tps！）

Reddit r/LocalLLaMA ↗ · 5天前

BeeLlama.cpp 是一个专注于性能的 llama.cpp 分支，引入了 DFlash 投机解码和 TurboQuant KV 缓存压缩技术，使得在消费级硬件上也能高速本地运行像 Qwen 3.6 27B 这样的大型模型。

1 人收藏 1 人点赞

#gpu-optimization

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Reddit r/LocalLLaMA ↗ · 5天前

一名用户分享了一份配置方案，该方案在使用 llama.cpp 和多令牌预测（MTP）的情况下，能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。

0 人收藏 0 人点赞

#gpu-optimization

@QGallouedec：TRL v1.4 发布！令我兴奋的两点：→ SFT 的分块 NLL 损失。显存占用大幅降低，损失值相同，通常速度更快。Qwen…

X AI KOLs Following ↗ · 6天前缓存

TRL v1.4 发布，该版本为 SFT 引入分块 NLL 损失以降低显存占用，并实现与 OpenReward 的一级集成以支持 GRPO。

0 人收藏 0 人点赞

#gpu-optimization

@hardmaru: 人脑极其高效，因为它只激活特定思维所需的神经元。现代LLM…

X AI KOLs Timeline ↗ · 6天前缓存

本文介绍了TwELL和Hybrid稀疏格式，配合自定义CUDA内核，有效利用LLM中的非结构化稀疏性，在H100 GPU上实现了训练和推理速度提升超过20%，同时降低了能耗和内存使用。

0 人收藏 0 人点赞

#gpu-optimization

vllm-project/vllm v0.20.0

GitHub Releases Watchlist ↗ · 2026-04-27 缓存

vLLM v0.20.0 已发布，这是一个用于高吞吐量 LLM 推理和服务的开源库，特色功能包括 PagedAttention 以及对多种硬件架构的支持。

0 人收藏 0 人点赞

#gpu-optimization

一种估算 AI 功耗的更快速方法

MIT News — Artificial Intelligence ↗ · 2026-04-27 缓存

来自麻省理工学院（MIT）和 IBM 的研究人员开发了一种快速工具，可在几秒钟内估算 AI 功耗，速度远超传统的模拟方法，有助于优化数据中心的能源效率。

0 人收藏 0 人点赞

#gpu-optimization

Deepseek 发布 DeepEP V2 与 TileKernels

Reddit r/LocalLLaMA ↗ · 2026-04-23

Deepseek 开源 DeepEP V2 与 TileKernels，两套全新的 GPU 内核库，用于加速 AI 工作负载。

0 人收藏 0 人点赞

#gpu-optimization

vllm-project/vllm v0.20.0rc1

GitHub Releases Watchlist ↗ · 2026-04-22 缓存

vLLM 0.20.0rc1 发布，带来吞吐量、量化、投机解码及多硬件支持的重大改进，助力可扩展的大模型推理服务。

0 人收藏 0 人点赞

#gpu-optimization

@sudoingX：这台笔记本通过 Hermes agent 以 99% GPU 利用率本地跑 31B 模型，持续 15 tok/s，22.8 o…

X AI KOLs Timeline ↗ · 2026-04-20 缓存

一台笔记本借助 Hermes agent 本地运行 31B 模型，速度 15 tok/s，显存占用 22.8 GB，功耗 94 W，实现完全自主、私密、无需云端的 AI 推理。

0 人收藏 0 人点赞

#gpu-optimization

从 RTX 到 Spark：NVIDIA 加速 Gemma 4 赋能本地智能体 AI

NVIDIA Blog ↗ · 2026-04-02 缓存

NVIDIA 与谷歌合作优化 Gemma 4 模型，以实现在 RTX GPU、DGX Spark 和 Jetson 设备上的本地部署，从而支持高效的端侧智能体 AI，具备推理、编程、多模态能力以及 35 多种语言的支持。

0 人收藏 0 人点赞

gpu-optimization

提交意见反馈