标签
一位用户描述了他们完全本地的AI堆栈,使用多个硬件设备运行GLM、Qwen和Kimi等中国模型,声称相比GPT-5.5和Opus 4.8等前沿模型节省了87%的成本,同时提到了自托管视频生成的计划。
讨论了在双 9060 XT GPU 配置上运行 Gemma 4 31B 模型的 Q6 量化版本,很可能是用于本地推理。