single-gpu

#single-gpu

@che_shr_cat: 1/ 我们一直误解了GPU内存的使用方式。如果GPU根本不需要存储你的模型呢？MegaTrain 实现了…

X AI KOLs Timeline ↗ · 17小时前缓存

MegaTrain 通过将 VRAM 视为瞬时无状态缓存，反转内存层次结构，在单张 GPU 上实现了 100B 以上大语言模型的全精度训练。

0 人收藏 0 人点赞

#single-gpu

Ornith-1.0-35B GGUF 更新：原生 MTP 推测解码嫁接 + 完整服务/TTFT/长上下文数据（llama.cpp, tp=1）

Reddit r/LocalLLaMA ↗ · 22小时前

Ornith-1.0-35B GGUF 模型更新引入了原生 MTP 推测解码嫁接，可在单 GPU 上实现更快推理，解码速度提升约 1.3-1.35 倍，同时保持几乎相同的 token 分布。提供了多个量化版本的吞吐量、TTFT 和长上下文性能的基准数据。

0 人收藏 0 人点赞

#single-gpu

小型实验，更便宜的决策：微预训练中分阶段提升的案例研究

arXiv cs.CL ↗ · 2026-06-11 缓存

本文研究了一种用于微预训练的分阶段提升协议，使用从分钟到小时递增的预算来筛选配置。研究发现，早期筛选是有用的但不稳定，并且分阶段方法可以保留长期参考，同时识别出未能通过继续阈值的替代方案。

0 人收藏 0 人点赞

#single-gpu

我设计了一种方法，用于（自主地）在单个消费级GPU上训练Transformer语言模型。

Reddit r/openclaw ↗ · 2026-05-31

一种在单个消费级GPU上自主训练Transformer语言模型的方法，分为六个阶段，设有验证门和AGENTS.md规范，适用于OpenClaw等编排框架。

0 人收藏 0 人点赞

#single-gpu

ModeSwitch-LLM：一种轻量级阶段感知控制器，用于单GPU上的跨模式大语言模型推理

arXiv cs.LG ↗ · 2026-05-25 缓存

ModeSwitch-LLM 是一种轻量级控制器，将大语言模型推理请求路由到单GPU上合适的固定模式（例如FP16、量化、推测解码），在无需重新训练模型的情况下，实现高达2.10倍的延迟加速和51.7%的能耗降低。

0 人收藏 0 人点赞

#single-gpu

@heygurisingh: 过去训练参数量达数十亿的LLM需要花费1000万美元以上。有人开源了一个仓库，现在可以在单张GPU上完成。

X AI KOLs Timeline ↗ · 2026-05-20 缓存

一个名为train-llm-from-scratch的开源仓库使得在单张GPU上训练十亿级参数的LLM成为可能，它提供了一个从原始文本到推理的可配置流水线，包括数据集流式加载和检查点保存，采用MIT许可证。

0 人收藏 0 人点赞

#single-gpu

TideGS：通过外存优化实现超过十亿3D高斯泼溅原语的可扩展训练

Hugging Face Daily Papers ↗ · 2026-05-19 缓存

TideGS提出了一种外存训练框架，通过块虚拟化、异步流水线和差分流式传输技术，在SSD-CPU-GPU层级管理参数，使得在单个GPU上能够以超过十亿原语进行3D高斯泼溅训练。

0 人收藏 0 人点赞

#single-gpu

@_vmlops：在单GPU上微调12B模型已成现实大多数人以为需要庞大的GPU集群才能微调大型语言模型…

X AI KOLs Timeline ↗ · 2026-05-17 缓存

Hugging Face 的 PEFT 库实现了在单张 GPU 上对大型模型进行参数高效微调，在降低计算和存储成本的同时保持性能。

0 人收藏 0 人点赞

#single-gpu

@tom_doerr: 在单个 GPU 上从头训练十亿参数的大语言模型 https://github.com/FareedKhan-dev/train-llm-from-scratch…

X AI KOLs Timeline ↗ · 2026-05-17 缓存

一个 GitHub 仓库提供了基于 Transformer 架构、使用 PyTorch 在单个 GPU 上从头训练十亿参数语言模型的脚本。

0 人收藏 0 人点赞

#single-gpu

在一个单GPU上构建了开源的一提示生成电影级短片流程——使用FLUX.2 [klein]生成角色关键帧，Wan2.2-I2V生成动画，视觉评论器带自动重试，同一流程中集成音乐+9种语言旁白

Reddit r/LocalLLaMA ↗ · 2026-05-14

构建了一个开源流程，仅需输入一句话即可生成带有角色、动画、音乐和旁白的电影级短片，使用FLUX.2、Wan2.2及其他模型，在单个AMD GPU上运行。该流程包含导演代理、角色生成、关键帧动画、视觉评论器、音乐和旁白等阶段。

0 人收藏 0 人点赞

#single-gpu

@tom_doerr: 在单个4GB GPU上运行70B大语言模型 https://github.com/lyogavin/airllm

X AI KOLs Timeline ↗ · 2026-05-13 缓存

AirLLM是一个开源工具，优化推理内存使用，无需量化即可在单个4GB GPU上运行70B大语言模型，并支持在8GB显存上运行405B模型。

0 人收藏 0 人点赞

#single-gpu

@seclink: 这家伙刚刚在一块单张 3090 显卡上，跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度，以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区，其发展速度简直如神速一般。…

X AI KOLs Following ↗ · 2026-04-23 缓存

A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.

1 人收藏 1 人点赞

#single-gpu

lyogavin/airllm

GitHub Trending (daily) ↗ · 2026-06-03 缓存

AirLLM 是一个开源库，能够在单个 4GB GPU 上运行大型语言模型（最高可达 405B），无需量化、蒸馏或剪枝，显著降低了本地 LLM 推理的硬件门槛。

0 人收藏 0 人点赞

single-gpu

提交意见反馈