标签
一位开发者经过大量实验,成功在树莓派 5 上以超过1 tok/s的速度运行了284B参数的DeepSeek-V4-Flash模型,使用的是来自 antirez 的未经修改的 GGUF 文件。
讨论在智能手表上运行Hermes AI模型,并考虑添加实时通知流以在锁屏上显示回复。
Cerebras 宣布,其硬件现已运行来自 Moonshot AI 的 AI 模型 Kimi K2.6。
General Instinct 推出一个部署层,使前沿AI模型能够在如 Jetson 和移动 NPU 等受限边缘硬件上运行,帮助机器人技术和物理AI团队实现低延迟离线推理。
深入剖析在偏远或无网络连接环境中部署边缘设备时更新AI模型所面临的真实挑战,涵盖连接窗口、技术人员上门、网格传播以及接受模型过时等策略。
Dell和Hugging Face宣布,包括Kimi K2.6、DeepSeek V4 Pro、GLM 5.1、MiniMax M2.7和DeepSeek V4 Flash在内的多款AI模型现可通过Dell Enterprise Hub获取,并针对配备NVIDIA B300的PowerEdge XE9780进行了优化,简化了模型选择和基础设施。
本文对比了在RTX 3090 24GB上运行Qwen 3.6 27B使用的llama.cpp后端,发现搭配IQ4_KS量化的ik_llama.cpp性能最佳(预填充1261 tok/s,解码72.9 tok/s)。
文章强调了AI行业的一个转变,焦点正从单纯的模型基准性能转向延迟、编排和成本效率等基础设施挑战。这表明AI正成熟为一个系统问题,实际体验变得比原始模型能力更重要。
OpenAI 宣布成立由 Zico Kolter 担任主席的独立董事会安全和安保委员会,该委员会有权监督并根据安全顾虑延迟模型发布。公司还为模型开发和部署引入了集成的安全和安保框架,重组团队以加强研究、安全和政策功能之间的协作。
Grounding DINO 是一个开放词汇的目标检测模型,能够根据文本描述检测任意对象,现已在 Replicate 上可用。