标签
MegaTrain 通过将 VRAM 视为瞬时无状态缓存,反转内存层次结构,在单张 GPU 上实现了 100B 以上大语言模型的全精度训练。
Ornith-1.0-35B GGUF 模型更新引入了原生 MTP 推测解码嫁接,可在单 GPU 上实现更快推理,解码速度提升约 1.3-1.35 倍,同时保持几乎相同的 token 分布。提供了多个量化版本的吞吐量、TTFT 和长上下文性能的基准数据。
本文研究了一种用于微预训练的分阶段提升协议,使用从分钟到小时递增的预算来筛选配置。研究发现,早期筛选是有用的但不稳定,并且分阶段方法可以保留长期参考,同时识别出未能通过继续阈值的替代方案。
一种在单个消费级GPU上自主训练Transformer语言模型的方法,分为六个阶段,设有验证门和AGENTS.md规范,适用于OpenClaw等编排框架。
ModeSwitch-LLM 是一种轻量级控制器,将大语言模型推理请求路由到单GPU上合适的固定模式(例如FP16、量化、推测解码),在无需重新训练模型的情况下,实现高达2.10倍的延迟加速和51.7%的能耗降低。
一个名为train-llm-from-scratch的开源仓库使得在单张GPU上训练十亿级参数的LLM成为可能,它提供了一个从原始文本到推理的可配置流水线,包括数据集流式加载和检查点保存,采用MIT许可证。
TideGS提出了一种外存训练框架,通过块虚拟化、异步流水线和差分流式传输技术,在SSD-CPU-GPU层级管理参数,使得在单个GPU上能够以超过十亿原语进行3D高斯泼溅训练。
Hugging Face 的 PEFT 库实现了在单张 GPU 上对大型模型进行参数高效微调,在降低计算和存储成本的同时保持性能。
一个 GitHub 仓库提供了基于 Transformer 架构、使用 PyTorch 在单个 GPU 上从头训练十亿参数语言模型的脚本。
构建了一个开源流程,仅需输入一句话即可生成带有角色、动画、音乐和旁白的电影级短片,使用FLUX.2、Wan2.2及其他模型,在单个AMD GPU上运行。该流程包含导演代理、角色生成、关键帧动画、视觉评论器、音乐和旁白等阶段。
AirLLM是一个开源工具,优化推理内存使用,无需量化即可在单个4GB GPU上运行70B大语言模型,并支持在8GB显存上运行405B模型。
A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.
AirLLM 是一个开源库,能够在单个 4GB GPU 上运行大型语言模型(最高可达 405B),无需量化、蒸馏或剪枝,显著降低了本地 LLM 推理的硬件门槛。