标签
宣布在拥有24-128GB统一内存的系统上,可以使用NousResearch Hermes agents运行完全本地的智能体团队。每个智能体都有独立的Hermes会话,并通过本地协调器在长时间运行的任务上协同工作。
一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试,比较启用和未启用 MTP(多令牌预测)时的性能。结果显示,在 RTX5090 上使用 Qwen3.6-27B 模型时,启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。
文章认为,尽管 Mac Studio 拥有大容量统一内存,但由于缺乏 CUDA 支持且硬件不可升级,它并不适合 24/7 的本地 AI 工作流。