@Prince_Canuma: 关于进水情况的快速更新:M3 Ultra和Titan(RTX6000 Pro)似乎已恢复,几乎没有可见损坏……
摘要
关于硬件进水损坏修复的个人更新,展示MLX-VLM在本地RTX6000 Pro上运行Qwen3-4B-Instruct,以约300 tok/s的速度通过Zed IDE实现自动补全和git提交信息生成。
查看缓存全文
缓存时间: 2026/05/19 02:37
快速更新一下水浸情况
M3 Ultra 和 Titan (RTX6000 Pro) 似乎已经恢复,几乎没有明显的损坏。
主要问题出在我的 MacBook 上,它正在维修中,以及 Titan 的 CPU 在待机时温度高于平均值(从水浸前的 35°C 上升到 58°C)。
总之,这里有一个视频展示在 Titan 上通过 MLX-VLM 运行 Qwen3-4B-Instruct(约 300 tok/s),用于在 Zed IDE 中完全本地完成自动补全和 git commit 消息生成。
相似文章
@Prince_Canuma:我的 MLX 与研究家用计算平台:• M3 Ultra — 512GB(由社区与 @wai_protocol 赞助)• RTX PRO 6000 — 96GB…
一位研究人员分享了用于 MLX 和 AI 研究的家用计算配置,包含配备 512GB 的 M3 Ultra、配备 96GB 的 RTX PRO 6000,以及用于模型移植与压力测试的配备 96GB 的 M3 Max。
@TeksEdge: 已解决!Qwen3.6-27B-FP8 现已在 Intel Arc Pro B70 上运行!LocalMaxxing 展示了 4× Arc Pro B70 32GB 的有效运行,速度约 5…
Qwen3.6-27B-FP8 模型现已在 Intel Arc Pro B70 GPU 上运行,速度约 50 tok/s,并修复了 vLLM 的一个 bug,这标志着 Intel GPU 本地 AI 推理的一个重要里程碑。
@Snixtp: https://x.com/Snixtp/status/2055734339346768225
某用户使用llama.cpp在单张RTX 3090上对Qwen3.6 27B的MTP变体与普通版本进行了基准测试,发现MTP在长上下文(32k-64k)下生成速度最高可提升2.37倍,但预填充较慢且暂不支持并发。
@tunguz: 看到这些推文后,我决定在我那台装有 RTX 1070 GPU 的老旧 Ubuntu 电脑上试试(就是那台我刚刚……
一位用户报告成功在较老的 RTX 1070 GPU 上本地运行 Qwen3 8B,展示了现代大语言模型在十年前的硬件上也能表现出不错的性能。
找到了冷却 DGX 的方法
有用户报告称,在运行 Qwen3.5-122b 模型且 GPU 高负载的情况下,成功使用自来水为 DGX 服务器降温,并维持了安全的温度水平。