gpu-optimization

#gpu-optimization

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Reddit r/LocalLLaMA ↗ · 2小时前

一名用户分享了一份配置方案，该方案在使用 llama.cpp 和多令牌预测（MTP）的情况下，能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。

0 人收藏 0 人点赞

#gpu-optimization

X AI KOLs Timeline ↗ · 21小时前缓存

本文介绍了TwELL和Hybrid稀疏格式，配合自定义CUDA内核，有效利用LLM中的非结构化稀疏性，在H100 GPU上实现了训练和推理速度提升超过20%，同时降低了能耗和内存使用。

0 人收藏 0 人点赞

#gpu-optimization

GitHub Releases Watchlist ↗ · 2026-04-27 缓存

vLLM v0.20.0 已发布，这是一个用于高吞吐量 LLM 推理和服务的开源库，特色功能包括 PagedAttention 以及对多种硬件架构的支持。

0 人收藏 0 人点赞

#gpu-optimization

MIT News — Artificial Intelligence ↗ · 2026-04-27 缓存

来自麻省理工学院（MIT）和 IBM 的研究人员开发了一种快速工具，可在几秒钟内估算 AI 功耗，速度远超传统的模拟方法，有助于优化数据中心的能源效率。

0 人收藏 0 人点赞

#gpu-optimization

Reddit r/LocalLLaMA ↗ · 2026-04-23

Deepseek 开源 DeepEP V2 与 TileKernels，两套全新的 GPU 内核库，用于加速 AI 工作负载。

0 人收藏 0 人点赞

#gpu-optimization

GitHub Releases Watchlist ↗ · 2026-04-22 缓存

vLLM 0.20.0rc1 发布，带来吞吐量、量化、投机解码及多硬件支持的重大改进，助力可扩展的大模型推理服务。

0 人收藏 0 人点赞

#gpu-optimization

X AI KOLs Timeline ↗ · 2026-04-20 缓存

一台笔记本借助 Hermes agent 本地运行 31B 模型，速度 15 tok/s，显存占用 22.8 GB，功耗 94 W，实现完全自主、私密、无需云端的 AI 推理。

0 人收藏 0 人点赞

#gpu-optimization

NVIDIA Blog ↗ · 2026-04-02 缓存

NVIDIA 与谷歌合作优化 Gemma 4 模型，以实现在 RTX GPU、DGX Spark 和 Jetson 设备上的本地部署，从而支持高效的端侧智能体 AI，具备推理、编程、多模态能力以及 35 多种语言的支持。

0 人收藏 0 人点赞

#gpu-optimization

OpenAI Blog ↗ · 2022-06-09 缓存

OpenAI 展示了在分布式 GPU 集群上训练大规模神经网络的全面技术，涵盖数据并行、管道并行、张量并行和专家混合等方法，以克服工程和可扩展性挑战。

0 人收藏 0 人点赞