single-gpu

标签

Cards List
#single-gpu

@che_shr_cat: 1/ 我们一直误解了GPU内存的使用方式。如果GPU根本不需要存储你的模型呢?MegaTrain 实现了…

X AI KOLs Timeline · 17小时前 缓存

MegaTrain 通过将 VRAM 视为瞬时无状态缓存,反转内存层次结构,在单张 GPU 上实现了 100B 以上大语言模型的全精度训练。

0 人收藏 0 人点赞
#single-gpu

Ornith-1.0-35B GGUF 更新:原生 MTP 推测解码嫁接 + 完整服务/TTFT/长上下文数据(llama.cpp, tp=1)

Reddit r/LocalLLaMA · 22小时前

Ornith-1.0-35B GGUF 模型更新引入了原生 MTP 推测解码嫁接,可在单 GPU 上实现更快推理,解码速度提升约 1.3-1.35 倍,同时保持几乎相同的 token 分布。提供了多个量化版本的吞吐量、TTFT 和长上下文性能的基准数据。

0 人收藏 0 人点赞
#single-gpu

小型实验,更便宜的决策:微预训练中分阶段提升的案例研究

arXiv cs.CL · 2026-06-11 缓存

本文研究了一种用于微预训练的分阶段提升协议,使用从分钟到小时递增的预算来筛选配置。研究发现,早期筛选是有用的但不稳定,并且分阶段方法可以保留长期参考,同时识别出未能通过继续阈值的替代方案。

0 人收藏 0 人点赞
#single-gpu

我设计了一种方法,用于(自主地)在单个消费级GPU上训练Transformer语言模型。

Reddit r/openclaw · 2026-05-31

一种在单个消费级GPU上自主训练Transformer语言模型的方法,分为六个阶段,设有验证门和AGENTS.md规范,适用于OpenClaw等编排框架。

0 人收藏 0 人点赞
#single-gpu

ModeSwitch-LLM:一种轻量级阶段感知控制器,用于单GPU上的跨模式大语言模型推理

arXiv cs.LG · 2026-05-25 缓存

ModeSwitch-LLM 是一种轻量级控制器,将大语言模型推理请求路由到单GPU上合适的固定模式(例如FP16、量化、推测解码),在无需重新训练模型的情况下,实现高达2.10倍的延迟加速和51.7%的能耗降低。

0 人收藏 0 人点赞
#single-gpu

@heygurisingh: 过去训练参数量达数十亿的LLM需要花费1000万美元以上。有人开源了一个仓库,现在可以在单张GPU上完成。

X AI KOLs Timeline · 2026-05-20 缓存

一个名为train-llm-from-scratch的开源仓库使得在单张GPU上训练十亿级参数的LLM成为可能,它提供了一个从原始文本到推理的可配置流水线,包括数据集流式加载和检查点保存,采用MIT许可证。

0 人收藏 0 人点赞
#single-gpu

TideGS:通过外存优化实现超过十亿3D高斯泼溅原语的可扩展训练

Hugging Face Daily Papers · 2026-05-19 缓存

TideGS提出了一种外存训练框架,通过块虚拟化、异步流水线和差分流式传输技术,在SSD-CPU-GPU层级管理参数,使得在单个GPU上能够以超过十亿原语进行3D高斯泼溅训练。

0 人收藏 0 人点赞
#single-gpu

@_vmlops:在单GPU上微调12B模型已成现实 大多数人以为需要庞大的GPU集群才能微调大型语言模型…

X AI KOLs Timeline · 2026-05-17 缓存

Hugging Face 的 PEFT 库实现了在单张 GPU 上对大型模型进行参数高效微调,在降低计算和存储成本的同时保持性能。

0 人收藏 0 人点赞
#single-gpu

@tom_doerr: 在单个 GPU 上从头训练十亿参数的大语言模型 https://github.com/FareedKhan-dev/train-llm-from-scratch…

X AI KOLs Timeline · 2026-05-17 缓存

一个 GitHub 仓库提供了基于 Transformer 架构、使用 PyTorch 在单个 GPU 上从头训练十亿参数语言模型的脚本。

0 人收藏 0 人点赞
#single-gpu

在一个单GPU上构建了开源的一提示生成电影级短片流程——使用FLUX.2 [klein]生成角色关键帧,Wan2.2-I2V生成动画,视觉评论器带自动重试,同一流程中集成音乐+9种语言旁白

Reddit r/LocalLLaMA · 2026-05-14

构建了一个开源流程,仅需输入一句话即可生成带有角色、动画、音乐和旁白的电影级短片,使用FLUX.2、Wan2.2及其他模型,在单个AMD GPU上运行。该流程包含导演代理、角色生成、关键帧动画、视觉评论器、音乐和旁白等阶段。

0 人收藏 0 人点赞
#single-gpu

@tom_doerr: 在单个4GB GPU上运行70B大语言模型 https://github.com/lyogavin/airllm

X AI KOLs Timeline · 2026-05-13 缓存

AirLLM是一个开源工具,优化推理内存使用,无需量化即可在单个4GB GPU上运行70B大语言模型,并支持在8GB显存上运行405B模型。

0 人收藏 0 人点赞
#single-gpu

@seclink: 这家伙刚刚在一块单张 3090 显卡上,跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度,以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区,其发展速度简直如神速一般。…

X AI KOLs Following · 2026-04-23 缓存

A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.

1 人收藏 1 人点赞
#single-gpu

lyogavin/airllm

GitHub Trending (daily) · 2026-06-03 缓存

AirLLM 是一个开源库,能够在单个 4GB GPU 上运行大型语言模型(最高可达 405B),无需量化、蒸馏或剪枝,显著降低了本地 LLM 推理的硬件门槛。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈