gpu-optimization

标签

Cards List
#gpu-optimization

@AndrewYNg: 新课程:Transformers in Practice。你将获得对基于Transformer的LLM工作方式的实践理解,从而能够推理…

X AI KOLs Following · 16小时前 缓存

deeplearning.ai与AMD合作推出的新课程《Transformers in Practice》,教授对基于Transformer的LLM的实践理解,涵盖文本生成、注意力机制以及量化(quantization)和KV缓存等推理优化技术。

0 人收藏 0 人点赞
#gpu-optimization

在连续批处理中实现异步性

Hugging Face Blog · 昨天 缓存

本文解释了如何为LLM推理实现异步连续批处理,将CPU批处理准备与GPU计算重叠,以最大化利用率并减少空闲时间。

0 人收藏 0 人点赞
#gpu-optimization

Ada-MK:基于自动化 DAG 搜索的 LLM 推理自适应 MegaKernel 优化

arXiv cs.CL · 2天前 缓存

本文介绍了 Ada-MK,一种利用自动化基于有向无环图(DAG)的搜索来消除运行时分支并减少大语言模型(LLM)推理共享内存使用的自适应 MegaKernel 优化方法。通过集成到 TensorRT-LLM 中,该方法在 NVIDIA Ada GPU 上展示了显著的吞吐量提升,在商业广告系统中相比原生 TensorRT-LLM 性能最高提升 23.6%。

0 人收藏 0 人点赞
#gpu-optimization

vllm-project/vllm v0.21.0rc1

GitHub Releases Watchlist · 2天前 缓存

vLLM v0.21.0rc1 是高性能大语言模型推理和服务库的预发布更新,主要功能包括针对吞吐量、量化以及硬件支持的优化。

0 人收藏 0 人点赞
#gpu-optimization

停止浪费电力

Reddit r/LocalLLaMA · 2天前

作者展示了如何在通过 llama.cpp 运行量化 Qwen 模型时,在不牺牲推理速度的前提下,将 RTX 4090 的功耗降低高达 40%。通过 nvidia-smi 限制 GPU 功耗上限并调整 llama-server 参数,用户可显著降低发热与噪音,并延长硬件使用寿命。

0 人收藏 0 人点赞
#gpu-optimization

Blackwell LLM 工具包 - 针对 Blackwell GPU 的 NVFP4 配置 + Wheels + TensorRT-LLM 基准测试 - Nemotron 3 Omni 达到 270 tok/s

Reddit r/LocalLLaMA · 3天前

一个开发者工具包,提供在使用 TensorRT-LLM 通过 Nvidia Blackwell GPU 以 NVFP4 精度运行大型语言模型时的配置、预编译包(wheels)及基准测试数据。

0 人收藏 0 人点赞
#gpu-optimization

@no_stp_on_snek: 感谢 @_EldarKurtic、@mgoin_ 和 @RedHat_AI 关于 TurboQuant 的详尽报告。H100 上原生 F… 的数据

X AI KOLs Following · 3天前

一次技术讨论验证了在配备 FP8 Tensor Core 的 NVIDIA H100 GPU 上 TurboQuant 的性能数据,并承诺将带来非 H100 测试的更多见解。

0 人收藏 0 人点赞
#gpu-optimization

ExLlamaV3 重大更新!

Reddit r/LocalLLaMA · 4天前

ExLlamaV3 发布了一系列重大更新,包括对 Gemma 4 的支持、缓存效率的提升,以及新的 DFlash 技术,可显著提高各类模型的推理速度。

0 人收藏 0 人点赞
#gpu-optimization

DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测:在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s

Reddit r/LocalLLaMA · 4天前

这篇文章详细介绍了一个经过定制并量化的 DeepSeek-V4-Flash 模型版本,启用了 MTP 自推测功能。通过修改后的 vLLM 设置,在双 RTX PRO 6000 Max-Q GPU 上实现了显著的速度提升。

0 人收藏 0 人点赞
#gpu-optimization

@0xSero: 刚刚添加了两种新的模型压缩版本:Hy3-FP8 和 NVFP4。我推荐尝试这个模型,它非常强大且可以完整地在 256GB 显存上运行……

X AI KOLs Following · 5天前 缓存

0xSero 发布了腾讯 Hy3-preview 模型的 FP8 和 NVFP4 量化版本,使其能够在使用完整上下文的情况下在 256GB 显存的设备上运行。

0 人收藏 0 人点赞
#gpu-optimization

BeeLlama.cpp:支持推理和视觉的先进 DFlash 与 TurboQuant。在 RTX 3090 上以 200k 上下文运行 Qwen 3.6 27B Q5,速度比基线快 2-3 倍(峰值 135 tps!)

Reddit r/LocalLLaMA · 5天前

BeeLlama.cpp 是一个专注于性能的 llama.cpp 分支,引入了 DFlash 投机解码和 TurboQuant KV 缓存压缩技术,使得在消费级硬件上也能高速本地运行像 Qwen 3.6 27B 这样的大型模型。

1 人收藏 1 人点赞
#gpu-optimization

在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Reddit r/LocalLLaMA · 5天前

一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。

0 人收藏 0 人点赞
#gpu-optimization

@QGallouedec:TRL v1.4 发布!令我兴奋的两点:→ SFT 的分块 NLL 损失。显存占用大幅降低,损失值相同,通常速度更快。Qwen…

X AI KOLs Following · 6天前 缓存

TRL v1.4 发布,该版本为 SFT 引入分块 NLL 损失以降低显存占用,并实现与 OpenReward 的一级集成以支持 GRPO。

0 人收藏 0 人点赞
#gpu-optimization

@hardmaru: 人脑极其高效,因为它只激活特定思维所需的神经元。现代LLM…

X AI KOLs Timeline · 6天前 缓存

本文介绍了TwELL和Hybrid稀疏格式,配合自定义CUDA内核,有效利用LLM中的非结构化稀疏性,在H100 GPU上实现了训练和推理速度提升超过20%,同时降低了能耗和内存使用。

0 人收藏 0 人点赞
#gpu-optimization

vllm-project/vllm v0.20.0

GitHub Releases Watchlist · 2026-04-27 缓存

vLLM v0.20.0 已发布,这是一个用于高吞吐量 LLM 推理和服务的开源库,特色功能包括 PagedAttention 以及对多种硬件架构的支持。

0 人收藏 0 人点赞
#gpu-optimization

一种估算 AI 功耗的更快速方法

MIT News — Artificial Intelligence · 2026-04-27 缓存

来自麻省理工学院(MIT)和 IBM 的研究人员开发了一种快速工具,可在几秒钟内估算 AI 功耗,速度远超传统的模拟方法,有助于优化数据中心的能源效率。

0 人收藏 0 人点赞
#gpu-optimization

Deepseek 发布 DeepEP V2 与 TileKernels

Reddit r/LocalLLaMA · 2026-04-23

Deepseek 开源 DeepEP V2 与 TileKernels,两套全新的 GPU 内核库,用于加速 AI 工作负载。

0 人收藏 0 人点赞
#gpu-optimization

vllm-project/vllm v0.20.0rc1

GitHub Releases Watchlist · 2026-04-22 缓存

vLLM 0.20.0rc1 发布,带来吞吐量、量化、投机解码及多硬件支持的重大改进,助力可扩展的大模型推理服务。

0 人收藏 0 人点赞
#gpu-optimization

@sudoingX:这台笔记本通过 Hermes agent 以 99% GPU 利用率本地跑 31B 模型,持续 15 tok/s,22.8 o…

X AI KOLs Timeline · 2026-04-20 缓存

一台笔记本借助 Hermes agent 本地运行 31B 模型,速度 15 tok/s,显存占用 22.8 GB,功耗 94 W,实现完全自主、私密、无需云端的 AI 推理。

0 人收藏 0 人点赞
#gpu-optimization

从 RTX 到 Spark:NVIDIA 加速 Gemma 4 赋能本地智能体 AI

NVIDIA Blog · 2026-04-02 缓存

NVIDIA 与谷歌合作优化 Gemma 4 模型,以实现在 RTX GPU、DGX Spark 和 Jetson 设备上的本地部署,从而支持高效的端侧智能体 AI,具备推理、编程、多模态能力以及 35 多种语言的支持。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈