为什么人们不能用自己的GPU运行Gemini和Claude Code？

Reddit r/artificial 2026/05/23 10:53 新闻

gpu compute-cost ai-limitations gemini claude local-inference

摘要

一篇评论文章，质疑用户为何不能在自有GPU上本地运行Gemini和Claude Code，暗示计算成本制约了对这些AI模型的访问。

看起来，由于计算资源缺乏或成本高昂，Gemini和Claude Code要么被严重降级，要么受到了限制。为什么人们和工程师不能利用自己个人电脑中闲置的GPU来运行这些AI模型呢？

查看原文

相似文章

Hacker News Top

Hacker News 上的一场讨论探讨了开发者是否可以在日常编码中用本地模型替代像 Claude 这样的云端 AI 模型。参与者分享了经验，指出本地模型（例如 Qwen、Gemma）对爱好者来说可行，但在专业使用上仍落后于顶级云端模型。

Reddit r/LocalLLaMA

作者展示了在仅使用 CPU 的系统上，通过 Koboldcpp 高效运行 Gemma-4-26B-A4B 模型，在一台旧台式机上达到了每秒 7 个 token 的速度，这表明运行本地大语言模型推理可能并不需要强大的 GPU。

Reddit r/singularity

一位用户思考为何更多 App 不在手机上直接跑本地 LLM，指出 Gemma 2-4B 模型已能离线运行，在接近 GPT-4o 质量的同时还能省掉服务器成本。

Reddit r/AI_Agents

一场静默的革命正在让强大的AI模型无需昂贵GPU即可在消费级硬件上运行，这得益于量化技术和优化实现（如llama.cpp的Gemma4 MTP支持）的突破，为爱好者、小型企业和边缘计算打开了大门。

X AI KOLs Following

内部阻力与政策限制拖慢了 Google 对自家 Gemini 模型的采用，员工更偏爱被禁用的 Claude Code 等工具。