标签
介绍SHD-CCP v2.0,这是一种新颖的AI架构,它用3D点云数据结构替代Transformer令牌序列,采用格拉斯曼流形融合和零拷贝内存映射流式处理,在消费级硬件上实现低延迟和低内存占用。
一份关于在消费级硬件上优化本地LLM推理的全面指南,涵盖llama.cpp、vLLM和LM Studio等工具,并提供关于内存层次结构、层放置和常见故障模式的实用建议。
Sebastian Raschka 介绍了近期可在消费级硬件上运行的开源权重本地大语言模型生态系统的四项新增内容。
Nvidia 的 RTX Spark Arm 架构超级芯片即将出现在微软、华硕、惠普、微星、联想和戴尔的笔记本电脑中,Surface Laptop Ultra 和华硕 ProArt 机型的详细信息已在 2026 年秋季发布前揭晓。
关于缺乏一个社区项目来在消费级硬件(8GB显存)上使用BitNet和Muon等现代技术从头训练LLM的讨论,提议合作构建这样一个项目。
中国内存制造商CXMT已开始向Corsair的Vengeance DDR5套件提供DRAM,有望在短缺中降低消费者内存价格。
一个全新的开源 MoE 模型,gpt-oss-20b(总共 21B,活跃 3.6B),仅需 1.8GB 显存即可运行,并在代理编程任务上获得满分,性能优于其他本地模型(如 Gemma 和 Qwen)。
本文认为,AI推理成本的快速下降是由软件优化而非硬件改进驱动的,并且运行在消费级GPU上的开放权重模型正变得越来越能与前沿模型竞争。
本文在消费级硬件上使用本地LLM对GraphRAG进行EHR模式检索基准测试,评估了Llama 3.1、Mistral、Qwen 2.5和Phi-4-mini等模型。
一个讨论,鼓励用户分享本地AI模型出人意料且富有创意的用途。作者提到他们让一个本地VLM通过看屏幕来玩桌游。
探讨消费级硬件在执行推理、微调及合成数据生成等 AI 任务中的实际价值,质疑本地部署除隐私保护外是否还能提供实质性的贡献。
作者强调了在 RTX 5090 上本地运行开源 Qwen 3.6-27B 模型的卓越能力,指出其在编程任务上的强劲表现,并与商业模型进行了对比,尽管本地部署过程颇具挑战性。
一位用户成功在三个 GTX 1080 Ti GPU 上对 27B 参数的 Qwen 模型进行本地推理,通过 TurboQuant 优化达到了约 28-30 tokens/秒的速度。
作者介绍了TOPAS,一种递归AI架构,在单张RTX 4090上达到了ARC-AGI-2的11.67%,旨在证明架构效率可以超越原始计算能力。
MiniMax M2.7 有 230B 参数,家里真能跑?我用 Unsloth 的 UD-IQ3_XXS(80 GB)在 4 套配置上实测:4×RTX 4090(96 GB):71.52 tok/s,首 token 延迟 1045 ms;4×RTX 5090(128 GB):120.54 tok/s,首 token 延迟 725 ms;1×RTX PRO 6000(96 GB):118.74 tok/s,首 token 延迟 765 ms;DGX
Cumulus Coffee推出台式机,采用自研Cold Cloud技术,不到1分钟即可制作冷萃、氮气冷萃与冷萃浓缩。