gpu-optimization

标签

Cards List
#gpu-optimization

在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Reddit r/LocalLLaMA · 2小时前

一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。

0 人收藏 0 人点赞
#gpu-optimization

@hardmaru: 人脑极其高效,因为它只激活特定思维所需的神经元。现代LLM…

X AI KOLs Timeline · 21小时前 缓存

本文介绍了TwELL和Hybrid稀疏格式,配合自定义CUDA内核,有效利用LLM中的非结构化稀疏性,在H100 GPU上实现了训练和推理速度提升超过20%,同时降低了能耗和内存使用。

0 人收藏 0 人点赞
#gpu-optimization

vllm-project/vllm v0.20.0

GitHub Releases Watchlist · 2026-04-27 缓存

vLLM v0.20.0 已发布,这是一个用于高吞吐量 LLM 推理和服务的开源库,特色功能包括 PagedAttention 以及对多种硬件架构的支持。

0 人收藏 0 人点赞
#gpu-optimization

一种估算 AI 功耗的更快速方法

MIT News — Artificial Intelligence · 2026-04-27 缓存

来自麻省理工学院(MIT)和 IBM 的研究人员开发了一种快速工具,可在几秒钟内估算 AI 功耗,速度远超传统的模拟方法,有助于优化数据中心的能源效率。

0 人收藏 0 人点赞
#gpu-optimization

Deepseek 发布 DeepEP V2 与 TileKernels

Reddit r/LocalLLaMA · 2026-04-23

Deepseek 开源 DeepEP V2 与 TileKernels,两套全新的 GPU 内核库,用于加速 AI 工作负载。

0 人收藏 0 人点赞
#gpu-optimization

vllm-project/vllm v0.20.0rc1

GitHub Releases Watchlist · 2026-04-22 缓存

vLLM 0.20.0rc1 发布,带来吞吐量、量化、投机解码及多硬件支持的重大改进,助力可扩展的大模型推理服务。

0 人收藏 0 人点赞
#gpu-optimization

@sudoingX:这台笔记本通过 Hermes agent 以 99% GPU 利用率本地跑 31B 模型,持续 15 tok/s,22.8 o…

X AI KOLs Timeline · 2026-04-20 缓存

一台笔记本借助 Hermes agent 本地运行 31B 模型,速度 15 tok/s,显存占用 22.8 GB,功耗 94 W,实现完全自主、私密、无需云端的 AI 推理。

0 人收藏 0 人点赞
#gpu-optimization

从 RTX 到 Spark:NVIDIA 加速 Gemma 4 赋能本地智能体 AI

NVIDIA Blog · 2026-04-02 缓存

NVIDIA 与谷歌合作优化 Gemma 4 模型,以实现在 RTX GPU、DGX Spark 和 Jetson 设备上的本地部署,从而支持高效的端侧智能体 AI,具备推理、编程、多模态能力以及 35 多种语言的支持。

0 人收藏 0 人点赞
#gpu-optimization

大规模神经网络的训练技术

OpenAI Blog · 2022-06-09 缓存

OpenAI 展示了在分布式 GPU 集群上训练大规模神经网络的全面技术,涵盖数据并行、管道并行、张量并行和专家混合等方法,以克服工程和可扩展性挑战。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈