@exploraX_: https://x.com/exploraX_/status/2069352534280376665
摘要
一份全面的2026年指南,介绍30款可免费使用的高性能LLM,区分托管平台与可自托管的开源权重模型,并附带详细的硬件需求与许可说明。
查看缓存全文
缓存时间: 2026/06/23 14:10
30个可在2026年免费运行的强大LLM
2026年免费LLM全景图,按真正重要的一条线划分
每个“免费LLM“列表都把两件完全不同的事情塞进了一个词。
一种免费是指别人运行模型,你来调用:Google、Groq、OpenRouter免费给你一个API密钥。另一种免费是指权重免费提供,你自己准备硬件:下载Qwen或Llama,在自己的机器上运行。
这两者不是同一主题的变体,而是对立的。
托管路线前期不花你一分钱,但用另一种货币结算:你的提示词。除非明确说明,否则大多数免费层会用你发送的内容来训练模型。
自托管路线正好相反:完全私密,没有任何东西离开你的机器,但你用VRAM和电费来支付,而不是用数据。
所以真正有用的问题从来不是“什么免费“,而是“哪种意义上的免费,隐性成本是什么“。按那条线划分整个图景,就不会变成一大片名字,而是一个决策。
以下是完整地图:今天可以调用的托管平台,以及可以自己运行的开权重模型,附带了不应被隐藏的注意事项。
首先,大家都会跳过的那部分:“开源“并不是你想的那个意思
在列出清单之前,有一个几乎所有人都搞混的区别:包括你可能看到的排名靠前的那些列表。
开权重 意味着权重可以下载。你可以运行模型、微调它、部署它。仅此而已。开源 意味着权重、训练代码、数据和配方全部公开,你可以从头重建模型。
几乎所有人们称为 “开源AI” 的东西实际上只是开权重。这里的20个模型家族中,按严格定义,只有一个是完全开源的:来自Allen AI的Olmo。也许加上Granite也算一个,如果你宽松一些的话。其余:Qwen、Llama、DeepSeek……这些都给你权重,但把厨房门关上了。
这一点很重要,因为“开源“隐藏着许可证陷阱。Llama是开权重,但有7亿用户的限制。Command R可以下载,但仅限非商业用途,可以随便玩弄,但不能用于建立业务。
Gemma的许可证限制用它来训练竞争模型。请读卡片,不要只看标题。
其次:自托管是免费的,但硬件不是免费的。
模型不花钱。但GPU要钱。在标准4-bit量化下本地运行模型的粗略规则:大约每十亿参数需要0.6 GB VRAM。
所以一个8B参数的模型适合一块便宜的8GB显卡,32B模型需要24GB卡(二手3090是性价比之选),70B模型需要两块这样的卡或一台64GB的Mac。
还有一个陷阱中的陷阱:对于混合专家模型,内存追踪的是总参数量,而不是营销上打出的“活跃“参数。一个宣传“17B活跃“的模型仍可能需要55GB,因为每个专家都必须坐在内存里等待轮流出场。
有了这两个过滤器:开权重 vs 开源,以及硬件实际成本,清单就清晰了。先从不需要硬件的路线开始:托管平台。
如何阅读硬件列
所有VRAM数据均假设 Q4_K_M —— 社区标准的4-bit量化,能保持约95%的全质量。经验法则:Q4时每1B参数约需0.6 GB VRAM。Apple Silicon将统一内存视为VRAM(在此场景下,32GB Mac ≈ 24GB GPU)。
MoE注意事项:内存跟踪总参数(所有专家保持加载),而非活跃计数。一个109B的MoE激活17B仍需要约55GB。
开权重家族 —— 免费自托管(20个)
中国来源
1. Qwen(阿里巴巴) — Apache 2.0。最通用的家族;从0.6B边缘模型到200B+ MoE旗舰应有尽有。多语言能力强,可切换思考模式。注意:最新的Qwen3.7 Plus/Max已转为付费闭源/仅API——Qwen3 / 3.5 / 3.6系列保持开源。→实际推荐:Qwen3 8B(入门级,约5.5GB)或27B密集 / 32B(强力,在24GB上约需18GB)。
2. DeepSeek — MIT。偏重推理;在回答前输出思考链。真正的R1是一个671B MoE(仅限数据中心,约370GB)。名为“deepseek-r1:7b/14b“的小标签是Qwen/Llama的蒸馏版本,并非真实模型。→实际推荐:R1蒸馏14B(中等级别)或32B(强力);完整V4/R1属数据中心级别。
3. GLM / ChatGLM(智谱AI) — MIT。GLM-5.x在多个开源编程排行榜上领先。顶部有大的MoE(744B级别),较小的GLM-Edge变体适用于消费级硬件。→实际推荐:GLM-Edge(入门/中级);旗舰模型属数据中心级别。
4. Kimi K2(Moonshot / 月之暗面) — 修改版MIT。前沿编程能力,万亿参数MoE(约32B活跃)。确实强大但自托管需要强大硬件(约550GB+)。→实际推荐:仅限数据中心/多GPU。日常使用请用托管路线。
5. MiniMax M3 — 开权重。多模态(文本+图像+视频),1M上下文,MSA架构。聚焦编程。→实际推荐:数据中心级别;查看Ollama上的量化社区构建。
6. Yi(01.AI) — Apache 2.0。双语中英,6B/9B/34B,200K上下文变体。开发速度比Qwen/DeepSeek慢——采用前请检查当前基准。→实际推荐:Yi 9B(入门)或34B(强力)。
7. Baichuan(百川) — 中国开权重家族,企业聚焦。许可证混合——请查具体模型卡片。→实际推荐:7B–13B级别,中等级别。
8. InternLM(上海人工智能实验室) — 开放版本,强推理/长上下文。多种尺寸。→实际推荐:7B–20B级别,入门/强力。
9. Ernie(百度) — 有开放版本,许可证混合。在围绕它做规划前,确认当前旗舰可公开下载。→实际推荐:按模型验证;较小变体为入门/中级。
10. Hunyuan(腾讯) — 有开放版本,许可证混合——与Ernie相同的注意事项。→实际推荐:按模型验证。
西方/其他
11. Llama(Meta) — 开权重但非OSI开源:Meta社区许可证,带有7亿月活跃用户上限,仅对非常大的产品有影响。总体下载量最大的家族。Llama 4 Scout提供1000万token上下文。→实际推荐:Llama 3.x 8B(入门)至70B(工作站);Scout约55GB MoE。
12. Gemma(Google) — 在普通硬件上运行良好;Gemma 3/4增加视觉和工具调用。Gemma 4的12B可装进16GB;26B MoE在消费级硬件上约85 tok/s。许可证限制微调用于竞争模型——请阅读。→实际推荐:Gemma 4 12B(中级)或26B(强力)。
13. gpt-oss(OpenAI) — Apache 2.0。OpenAI的开权重家族;不通过OpenAI API提供,需要下载并运行。gpt-oss 20B是“16GB甜点“;120B需要约60–65GB。→实际推荐:gpt-oss 20B(中级/强力),120B(数据中心)。
14. Mistral / Devstral — Large 3和Small 4现在采用 Apache 2.0(相比早期限制性许可证有转变)。Small 4将Devstral的智能体编程打包进一个约6B活跃的包中;Mistral Small 24B拥有函数调用/JSON细分领域。→实际推荐:Mistral Small(入门/中级),Devstral用于智能体编程。
15. Phi(微软) — MIT。小型、精悍的推理模型(约1.5B–14B);“数据质量胜于数量”。Phi-4-mini可在无独立GPU的迷你PC上运行。→实际推荐:Phi-4 / Phi-4-mini,入门级别。
16. Nemotron(NVIDIA) — 开权重,高效推理;Nemotron 3线。混合架构(Mamba层)。→实际推荐:尺寸不同而有别;中等级别到数据中心。
17. OLMo(Allen AI) — Apache 2.0,且是仅有的两个真正开源家族之一(权重+训练代码+数据+检查点,完全可复现)。研究级;在规模上具有竞争力,但在排行榜上落后于Qwen/DeepSeek。最大约32B。→实际推荐:OLMo 2 7B/13B,入门/中级。
18. Falcon(TII,阿联酋) — Falcon许可证(基于Apache 2.0);收入低于100万美元免费,超出部分收取10%版税。Falcon-H1采用混合SSM+注意力设计,各尺寸256K上下文,1B–34B。→实际推荐:Falcon-H1 7B–34B,入门到强力。
19. Granite(IBM) — Apache 2.0,企业/RAG聚焦。小型长上下文MoE变体(1B–3B)用于低延迟,加上8B–70B。可在Apple Silicon上运行,最低16GB。→实际推荐:Granite 8B(入门),更大用于企业。
20. Command R(Cohere) — 开权重,但仅限非商业用途许可证: 可免费使用和实验,但不能免费用于你的业务。企业RAG强项。(Tiny Aya 3.35B也是CC-BY-NC,支持70+语言。)→实际推荐:适合个人/研究;否则需要商业许可证。
免费托管平台 —— 无需硬件(10个)
这些平台免费提供API密钥(或聊天UI),但受速率限制。当前配额的最新动态列表在GitHub仓库cheahjs/free-llm-api-resources中,限制每周变化,使用前请核实。
注意事项:除非另有说明,大多数平台会用你的数据训练模型;只有自托管才是完全私密的。
21. Google AI Studio(Gemini) — 免费访问前沿闭源模型中最好的。Gemini Flash每天约1500次请求,无需信用卡,无试用期(每天重置配额)。100万上下文,支持图片/PDF。免费层提示词可能会用于训练Google的模型,敏感数据请避开。
22. Groq — 最快的免费选项;在LPU硬件上运行开权重模型(Llama、Qwen、Kimi、gpt-oss),每秒300+ token。具体限制:约30次请求/分钟,70B模型每天1000次。有更清晰的不训练政策。
23. Cerebras — 类似Groq,在晶圆级芯片上运行非常快的开权重推理;慷慨的免费层,无训练政策。
24. OpenRouter — 通过一个密钥访问最多样化的模型;25+永久免费模型(用:free后缀筛选),无需信用卡,故障切换路由。明确的无训练选项。
25. GitHub Models — 在速率限制内免费用于开发;混合目录(OpenAI、Llama、Mistral、DeepSeek)。如果你经常使用GitHub/Copilot工作流,这是个好选择。
26. Cloudflare Workers AI — 边缘推理,每天免费10,000个神经元。适合无服务器应用;超额费用便宜但非无限。
27. Mistral(La Plateforme) — 免费开发者/实验层。注意事项:实验层需要选择参与训练才能获得每月10亿token的配额。
28. Hugging Face Inference — 数千个模型;无服务器推理限于约10GB以下的模型,有严格的速率限制和冷启动延迟。最适合尝试不常见或全新的模型。
29. NVIDIA NIM — 托管的开源模型,有免费层,但通常需要设置账单并偏向试用积分模式。视作试用,而非永久免费。
30. Together AI — 免费模型加约1–25美元的注册积分。这些积分是试用,不是永久免费层,请按此预算。
~m0h
相似文章
LLM规划器 - 根据你的用例/模型/预算选择设备,或根据你的设备选择模型。60+配置方案,50+模型,130+引用t/s来源,150+评测YouTube视频,待机+运行功耗,多区域价格,定期更新。
一个全面的网络工具和公共数据集,帮助用户选择适合运行LLM的硬件,包含60+配置方案、50+模型、性能基准测试和评测视频,支持模型与硬件的双向匹配。
@tom_doerr: 本地LLM工具和硬件精选列表 https://github.com/0xSojalSec/LLMs-local…
一份精选列表,包含用于本地运行大语言模型的平台、工具、模型、硬件和资源,托管在GitHub上。
大语言模型与本地AI硬件的推理引擎(2026版)
本文提供了一份全面的指南,针对2026年本地AI硬件上的大语言模型推理引擎,解释了如何根据硬件策略、工作负载和服务模型进行选择,并涵盖了诸如llama.cpp、MLX、ExLlamaV2/3、vLLM、SGLang、TensorRT-LLM和NVIDIA Dynamo等引擎。
@0xshimei: https://x.com/0xshimei/status/2053088751862288846
This article provides a comprehensive 2026 guide to free and low-cost large language models, comparing domestic (China) and international options.
@Mayhem4Markets: https://x.com/Mayhem4Markets/status/2069090022117019928
两大主流LLM服务框架SGLang和vLLM的详细技术对比,涵盖KV缓存管理(RadixAttention vs PagedAttention)的架构差异、吞吐量、延迟以及自托管环境的部署考量。