@DeRonin_: 我目前的本机AI配置:- 2x DGX Spark 链接 (256gb) > GLM 5.2 @ 2bit, 推理 + 代理循环 - Mac Studio M3 Ultr…
摘要
一位用户描述了他们完全本地的AI堆栈,使用多个硬件设备运行GLM、Qwen和Kimi等中国模型,声称相比GPT-5.5和Opus 4.8等前沿模型节省了87%的成本,同时提到了自托管视频生成的计划。
查看缓存全文
缓存时间: 2026/06/30 13:46
我当前的本地 AI 配置:
- 2 台 DGX Spark 互联(256GB)> GLM 5.2 @ 2bit,推理 + 智能体循环
- Mac Studio M3 Ultra 96GB > Wan 2.2,图像生成
- Mac mini M5 Pro 64GB > Qwen3.6-35B,代码 + 内容草稿
- MB Air M5 24GB > Qwen3 30B-A3B,批量处理
- iPhone > Qwen3 4B,设备端运行
以上所有模型均在我自有的硬件上运行,权重已下载,无 API 密钥介入。
目前唯一未自托管的是视频……开源视频模型需要专用 GPU 机箱,所以这是我的下一个构建目标(等我搞明白如何靠它实现 10 万美元月收入再说 lol)。
另一个我正在扩展的目标是完全本地化的 Kimi K2.7……它是一个 1T 模型,需要真正的 GPU 服务器,随着营收增长逐步添加。
对于 MiMo V2.5,情况与 Kimi 和 Kling 类似。
前沿 AI 曾经需要别人的数据中心……如今它已能放在我的桌面上。
目前我猜这套配置估值大约 2 万美元。
相似文章
@TheAhmadOsman: 温馨提醒,开始使用本地AI所需的一切就是: - 2x RTX 3090(在r/hardwareswap上花$700-$900入手) -…
提醒一下,两块RTX 3090加上Qwen 3.6 27B或Gemma 4 31B等开源模型,就可以运行强大的本地AI代理,性能堪比Opus 4.5,配合Claude Code、自托管SearXNG等工具使用。
@DeRonin_: 我的整个AI栈现在都换成中国产品了,便宜87%。相同收入,按任务替换:1. 推理/后端大脑 Opus 4.8 → Kimi…
一位用户报告称,在推理、代码生成、智能体循环、批量处理以及图像/视频生成等方面,已将美国AI模型替换为中国替代品,实现了成本降低87%,平均质量仅下降4%,且收入未变。
@RayFernando1337: https://x.com/RayFernando1337/status/2070621713952579990
关于是在本地运行AI模型还是通过API运行的详细分析,涵盖了RTX 5090、RTX PRO 6000和DGX Spark等硬件选项,重点讨论了内存与带宽的权衡、成本考虑以及隐私需求。
@andrewchen:体验本地AI模型的主要缺点在于你会买一块GPU,然后另一块,接着又一块……
Andrew Chen分享了他为本地AI实验购买多块GPU的经历,在5090 eGPU上以100 tok/s运行Qwen3.6 27B密集模型,并将其与Sonnet 4.6进行比较。
@rohanpaul_ai: atomic[.]chat(一款本地运行大语言模型的桌面应用)在 MacBook 上进行了一场极具揭示性的本地 AI 智能体对比测试……
Liquid 的 LFM2.5-8B-A1B 在 MacBook Pro 上本地运行工具调用基准测试时,击败了 OpenAI 的 gpt-oss-20b,不仅完成了所有工具调用,耗时还缩短了一半以上,且内存占用更少。