@_vmlops:在单GPU上微调12B模型已成现实 大多数人以为需要庞大的GPU集群才能微调大型语言模型…
摘要
Hugging Face 的 PEFT 库实现了在单张 GPU 上对大型模型进行参数高效微调,在降低计算和存储成本的同时保持性能。
在单GPU上微调12B模型已成现实
大多数人以为需要庞大的GPU集群才能微调大型语言模型
其实不需要
Hugging Face 的 PEFT 让你只需微调模型参数的 0.1% 即可获得接近全量微调的性能
实际效果如下:
- 本会在 80GB A100 上 OOM 的 12B 模型?使用 PEFT-LoRA 运行良好
- 一个 3B 模型微调后在基准测试上达到人类级准确度
- 最终检查点大小:19MB 而非 11GB
它支持 LoRA、QLoRA、IA3、soft prompts 等
开箱即用,兼容 transformers、diffusers、accelerate 和 trl
如果你在做任何 LLM 相关工作却还在跑全量微调,那你就是在白白浪费算力
https://github.com/huggingface/peft…
---
查看缓存全文
缓存时间: 2026/05/17 15:35
🤗 PEFT
🤗 PEFT
最先进的参数高效微调(PEFT)方法
最先进的参数高效微调(PEFT)方法
相似文章
@LottoLabs: 给显卡不够用的兄弟们的一个超酷模型,在一个海量token上训练的8b a1b模型,速度飞快…
LottoLabs 宣布了 LiquidAI 的 LFM2.5-8B-A1B-GGUF 模型,这是一个8B参数的模型,在大量token上训练,并针对有限GPU硬件上的快速推理进行了优化,支持 llama.cpp、Ollama、vLLM 等。
关于PEFT的规模化:迈向万亿参数的百万个性化模型
本文探索将参数高效微调(PEFT)用作持久化个性化模型的紧凑基底,研究了向上、向下和向外扩展,并介绍了用于管理适配器的MinT。
@heyrobinai: 整个AI行业刚刚被羞辱了——一个仅用单张显卡训练几小时的微型模型正在规划...
Yann LeCun的团队发布了LeWorldModel,一个仅有1500万参数的物理模型,在单张GPU上训练数小时,在规划速度和物理合理性上超越了价值数十亿美元的基础模型,挑战了主流的规模扩展范式。
@andrewchen:体验本地AI模型的主要缺点在于你会买一块GPU,然后另一块,接着又一块……
Andrew Chen分享了他为本地AI实验购买多块GPU的经历,在5090 eGPU上以100 tok/s运行Qwen3.6 27B密集模型,并将其与Sonnet 4.6进行比较。
@leopardracer: https://x.com/leopardracer/status/2055341758523883631
一位用户分享了他们搭建双GPU本地AI实验室的经验,使用了RTX 4080 Super和5060 Ti,通过llama.cpp和llama-swap运行Qwen 3.6模型,以降低API成本并实现无限制的实验。