@exploraX_: https://x.com/exploraX_/status/2069352534280376665

X AI KOLs Timeline 2026/06/23 09:31 新闻

free-llms open-weight self-hosting model-comparison llm-landscape hardware-requirements

摘要

一份全面的2026年指南，介绍30款可免费使用的高性能LLM，区分托管平台与可自托管的开源权重模型，并附带详细的硬件需求与许可说明。

https://t.co/Z8wCDiopYi

查看原文

查看缓存全文

缓存时间: 2026/06/23 14:10

30个可在2026年免费运行的强大LLM

2026年免费LLM全景图，按真正重要的一条线划分

每个“免费LLM“列表都把两件完全不同的事情塞进了一个词。

一种免费是指别人运行模型，你来调用：Google、Groq、OpenRouter免费给你一个API密钥。另一种免费是指权重免费提供，你自己准备硬件：下载Qwen或Llama，在自己的机器上运行。

这两者不是同一主题的变体，而是对立的。

托管路线前期不花你一分钱，但用另一种货币结算：你的提示词。除非明确说明，否则大多数免费层会用你发送的内容来训练模型。

自托管路线正好相反：完全私密，没有任何东西离开你的机器，但你用VRAM和电费来支付，而不是用数据。

所以真正有用的问题从来不是“什么免费“，而是“哪种意义上的免费，隐性成本是什么“。按那条线划分整个图景，就不会变成一大片名字，而是一个决策。

以下是完整地图：今天可以调用的托管平台，以及可以自己运行的开权重模型，附带了不应被隐藏的注意事项。

首先，大家都会跳过的那部分：“开源“并不是你想的那个意思

在列出清单之前，有一个几乎所有人都搞混的区别：包括你可能看到的排名靠前的那些列表。

开权重 意味着权重可以下载。你可以运行模型、微调它、部署它。仅此而已。开源意味着权重、训练代码、数据和配方全部公开，你可以从头重建模型。

几乎所有人们称为 “开源AI” 的东西实际上只是开权重。这里的20个模型家族中，按严格定义，只有一个是完全开源的：来自Allen AI的Olmo。也许加上Granite也算一个，如果你宽松一些的话。其余：Qwen、Llama、DeepSeek……这些都给你权重，但把厨房门关上了。

这一点很重要，因为“开源“隐藏着许可证陷阱。Llama是开权重，但有7亿用户的限制。Command R可以下载，但仅限非商业用途，可以随便玩弄，但不能用于建立业务。

Gemma的许可证限制用它来训练竞争模型。请读卡片，不要只看标题。

其次：自托管是免费的，但硬件不是免费的。

模型不花钱。但GPU要钱。在标准4-bit量化下本地运行模型的粗略规则：大约每十亿参数需要0.6 GB VRAM。

所以一个8B参数的模型适合一块便宜的8GB显卡，32B模型需要24GB卡（二手3090是性价比之选），70B模型需要两块这样的卡或一台64GB的Mac。

还有一个陷阱中的陷阱：对于混合专家模型，内存追踪的是总参数量，而不是营销上打出的“活跃“参数。一个宣传“17B活跃“的模型仍可能需要55GB，因为每个专家都必须坐在内存里等待轮流出场。

有了这两个过滤器：开权重 vs 开源，以及硬件实际成本，清单就清晰了。先从不需要硬件的路线开始：托管平台。

如何阅读硬件列

所有VRAM数据均假设 Q4_K_M —— 社区标准的4-bit量化，能保持约95%的全质量。经验法则：Q4时每1B参数约需0.6 GB VRAM。Apple Silicon将统一内存视为VRAM（在此场景下，32GB Mac ≈ 24GB GPU）。

MoE注意事项：内存跟踪总参数（所有专家保持加载），而非活跃计数。一个109B的MoE激活17B仍需要约55GB。

开权重家族 —— 免费自托管（20个）

中国来源

1. Qwen（阿里巴巴） — Apache 2.0。最通用的家族；从0.6B边缘模型到200B+ MoE旗舰应有尽有。多语言能力强，可切换思考模式。注意：最新的Qwen3.7 Plus/Max已转为付费闭源/仅API——Qwen3 / 3.5 / 3.6系列保持开源。→实际推荐：Qwen3 8B（入门级，约5.5GB）或27B密集 / 32B（强力，在24GB上约需18GB）。

2. DeepSeek — MIT。偏重推理；在回答前输出思考链。真正的R1是一个671B MoE（仅限数据中心，约370GB）。名为“deepseek-r1:7b/14b“的小标签是Qwen/Llama的蒸馏版本，并非真实模型。→实际推荐：R1蒸馏14B（中等级别）或32B（强力）；完整V4/R1属数据中心级别。

3. GLM / ChatGLM（智谱AI） — MIT。GLM-5.x在多个开源编程排行榜上领先。顶部有大的MoE（744B级别），较小的GLM-Edge变体适用于消费级硬件。→实际推荐：GLM-Edge（入门/中级）；旗舰模型属数据中心级别。

4. Kimi K2（Moonshot / 月之暗面） — 修改版MIT。前沿编程能力，万亿参数MoE（约32B活跃）。确实强大但自托管需要强大硬件（约550GB+）。→实际推荐：仅限数据中心/多GPU。日常使用请用托管路线。

5. MiniMax M3 — 开权重。多模态（文本+图像+视频），1M上下文，MSA架构。聚焦编程。→实际推荐：数据中心级别；查看Ollama上的量化社区构建。

6. Yi（01.AI） — Apache 2.0。双语中英，6B/9B/34B，200K上下文变体。开发速度比Qwen/DeepSeek慢——采用前请检查当前基准。→实际推荐：Yi 9B（入门）或34B（强力）。

7. Baichuan（百川） — 中国开权重家族，企业聚焦。许可证混合——请查具体模型卡片。→实际推荐：7B–13B级别，中等级别。

8. InternLM（上海人工智能实验室） — 开放版本，强推理/长上下文。多种尺寸。→实际推荐：7B–20B级别，入门/强力。

9. Ernie（百度） — 有开放版本，许可证混合。在围绕它做规划前，确认当前旗舰可公开下载。→实际推荐：按模型验证；较小变体为入门/中级。

10. Hunyuan（腾讯） — 有开放版本，许可证混合——与Ernie相同的注意事项。→实际推荐：按模型验证。

西方/其他

11. Llama（Meta） — 开权重但非OSI开源：Meta社区许可证，带有7亿月活跃用户上限，仅对非常大的产品有影响。总体下载量最大的家族。Llama 4 Scout提供1000万token上下文。→实际推荐：Llama 3.x 8B（入门）至70B（工作站）；Scout约55GB MoE。

12. Gemma（Google） — 在普通硬件上运行良好；Gemma 3/4增加视觉和工具调用。Gemma 4的12B可装进16GB；26B MoE在消费级硬件上约85 tok/s。许可证限制微调用于竞争模型——请阅读。→实际推荐：Gemma 4 12B（中级）或26B（强力）。

13. gpt-oss（OpenAI） — Apache 2.0。OpenAI的开权重家族；不通过OpenAI API提供，需要下载并运行。gpt-oss 20B是“16GB甜点“；120B需要约60–65GB。→实际推荐：gpt-oss 20B（中级/强力），120B（数据中心）。

14. Mistral / Devstral — Large 3和Small 4现在采用 Apache 2.0（相比早期限制性许可证有转变）。Small 4将Devstral的智能体编程打包进一个约6B活跃的包中；Mistral Small 24B拥有函数调用/JSON细分领域。→实际推荐：Mistral Small（入门/中级），Devstral用于智能体编程。

15. Phi（微软） — MIT。小型、精悍的推理模型（约1.5B–14B）；“数据质量胜于数量”。Phi-4-mini可在无独立GPU的迷你PC上运行。→实际推荐：Phi-4 / Phi-4-mini，入门级别。

16. Nemotron（NVIDIA） — 开权重，高效推理；Nemotron 3线。混合架构（Mamba层）。→实际推荐：尺寸不同而有别；中等级别到数据中心。

17. OLMo（Allen AI） — Apache 2.0，且是仅有的两个真正开源家族之一（权重+训练代码+数据+检查点，完全可复现）。研究级；在规模上具有竞争力，但在排行榜上落后于Qwen/DeepSeek。最大约32B。→实际推荐：OLMo 2 7B/13B，入门/中级。

18. Falcon（TII，阿联酋） — Falcon许可证（基于Apache 2.0）；收入低于100万美元免费，超出部分收取10%版税。Falcon-H1采用混合SSM+注意力设计，各尺寸256K上下文，1B–34B。→实际推荐：Falcon-H1 7B–34B，入门到强力。

19. Granite（IBM） — Apache 2.0，企业/RAG聚焦。小型长上下文MoE变体（1B–3B）用于低延迟，加上8B–70B。可在Apple Silicon上运行，最低16GB。→实际推荐：Granite 8B（入门），更大用于企业。

20. Command R（Cohere） — 开权重，但仅限非商业用途许可证： 可免费使用和实验，但不能免费用于你的业务。企业RAG强项。（Tiny Aya 3.35B也是CC-BY-NC，支持70+语言。）→实际推荐：适合个人/研究；否则需要商业许可证。

免费托管平台 —— 无需硬件（10个）

这些平台免费提供API密钥（或聊天UI），但受速率限制。当前配额的最新动态列表在GitHub仓库cheahjs/free-llm-api-resources中，限制每周变化，使用前请核实。

注意事项：除非另有说明，大多数平台会用你的数据训练模型；只有自托管才是完全私密的。

21. Google AI Studio（Gemini） — 免费访问前沿闭源模型中最好的。Gemini Flash每天约1500次请求，无需信用卡，无试用期（每天重置配额）。100万上下文，支持图片/PDF。免费层提示词可能会用于训练Google的模型，敏感数据请避开。

22. Groq — 最快的免费选项；在LPU硬件上运行开权重模型（Llama、Qwen、Kimi、gpt-oss），每秒300+ token。具体限制：约30次请求/分钟，70B模型每天1000次。有更清晰的不训练政策。

23. Cerebras — 类似Groq，在晶圆级芯片上运行非常快的开权重推理；慷慨的免费层，无训练政策。

24. OpenRouter — 通过一个密钥访问最多样化的模型；25+永久免费模型（用:free后缀筛选），无需信用卡，故障切换路由。明确的无训练选项。

25. GitHub Models — 在速率限制内免费用于开发；混合目录（OpenAI、Llama、Mistral、DeepSeek）。如果你经常使用GitHub/Copilot工作流，这是个好选择。

26. Cloudflare Workers AI — 边缘推理，每天免费10,000个神经元。适合无服务器应用；超额费用便宜但非无限。

27. Mistral（La Plateforme） — 免费开发者/实验层。注意事项：实验层需要选择参与训练才能获得每月10亿token的配额。

28. Hugging Face Inference — 数千个模型；无服务器推理限于约10GB以下的模型，有严格的速率限制和冷启动延迟。最适合尝试不常见或全新的模型。

29. NVIDIA NIM — 托管的开源模型，有免费层，但通常需要设置账单并偏向试用积分模式。视作试用，而非永久免费。

30. Together AI — 免费模型加约1–25美元的注册积分。这些积分是试用，不是永久免费层，请按此预算。

~m0h

@exploraX_: https://x.com/exploraX_/status/2069352534280376665

30个可在2026年免费运行的强大LLM

开权重家族 —— 免费自托管（20个）

免费托管平台 —— 无需硬件（10个）

相似文章

LLM规划器 - 根据你的用例/模型/预算选择设备，或根据你的设备选择模型。60+配置方案，50+模型，130+引用t/s来源，150+评测YouTube视频，待机+运行功耗，多区域价格，定期更新。

@tom_doerr: 本地LLM工具和硬件精选列表 https://github.com/0xSojalSec/LLMs-local…

大语言模型与本地AI硬件的推理引擎（2026版）

@0xshimei: https://x.com/0xshimei/status/2053088751862288846

@Mayhem4Markets: https://x.com/Mayhem4Markets/status/2069090022117019928

提交意见反馈