标签
作者认为,当前迫切需要80-160B参数范围的AI模型,以支持使用统一内存设备的用户(例如高内存的Apple/AMD系统),因为最近的模型对于他们的硬件来说要么太小,要么太大。
AMD 将统一内存架构视为下一代产品(如 Ryzen AI MAX 400 系列(Gorgon Halo))的关键推动力,从而影响其 AI 和计算工作负载的产品路线图。
英伟达发布了 RTX Spark,这是一款专为 Windows PC 设计的 Arm 芯片,集成了 20 核 Grace CPU、最高 6,144 个 Blackwell GPU 核心和最高 128GB 统一内存,旨在为轻薄笔记本和紧凑台式机带来高性能和 AI 能力。
文章评价NVIDIA新款笔记本,其128GB统一内存使本地运行200B大模型成为可能,拔电不掉帧,瞄准AI本地部署用户,认为这是将数据中心能力下放至便携设备的重要一步。
一条推文猜测,售价低于1000美元的NVIDIA DGX Spark迷你版可能带来巨额利润;同时,另一条引用推文讨论了即将推出的NVIDIA N1和N1X ARM架构笔记本电脑芯片,目标直指苹果的轻薄笔记本电脑市场。
本文对Apple M3 Ultra上的实时扩散模型推理进行了系统优化研究,通过CoreML转换和蒸馏模型在512x512分辨率下达到了22.7 FPS,揭示了针对CUDA优化的技术无法直接迁移到Apple统一内存架构。
AMD的Ryzen AI Max平台配备128GB统一内存,可本地推理高达2000亿参数的大模型,旨在将AI工作负载从云端转移到紧凑的个人硬件上。
宣布在拥有24-128GB统一内存的系统上,可以使用NousResearch Hermes agents运行完全本地的智能体团队。每个智能体都有独立的Hermes会话,并通过本地协调器在长时间运行的任务上协同工作。
一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试,比较启用和未启用 MTP(多令牌预测)时的性能。结果显示,在 RTX5090 上使用 Qwen3.6-27B 模型时,启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。
文章认为,尽管 Mac Studio 拥有大容量统一内存,但由于缺乏 CUDA 支持且硬件不可升级,它并不适合 24/7 的本地 AI 工作流。