标签
特朗普政府改变立场,允许Anthropic向超过100家美国政府和公司重新部署其强大的网络安全模型Mythos 5,此前因安全担忧而被禁止。
Yannick Nick 演示了如何使用 KTransformers 在 2 块 RTX Pro 6000 GPU 上以原生 FP4+FP8 精度运行 DeepSeek V4 Flash,从而在资源受限的系统上实现高效推理。
一条推文讨论了GLM 5.2如何揭示企业向本地计算和后训练模型发展的趋势,以及对开源AI未来的不同看法。
PolicyTrim是一种基于强化学习的后训练框架,能将视觉-语言-动作模型的动作块利用率提升3倍,并将物理执行步骤减少51.4%,实现高达5.83倍的部署加速。
一个用于工单分类的AI功能失败并非模型问题,而是由于管道变更导致的数据过期,这凸显了跨团队集成监控的必要性。
GLM-5.2 现已支持通过 llama.cpp 和 Unsloth Studio 本地运行。
关于以4位量化运行GLM 5.x及类似大小模型的最廉价本地硬件配置的讨论,包括仅CPU和多GPU选项。一位用户分享了其在5900X + 128GB DDR4 + 7900XT配置上运行Minimax 2.7和Qwen 3.6的经验。
一位开发者经过大量实验,成功在树莓派 5 上以超过1 tok/s的速度运行了284B参数的DeepSeek-V4-Flash模型,使用的是来自 antirez 的未经修改的 GGUF 文件。
讨论在智能手表上运行Hermes AI模型,并考虑添加实时通知流以在锁屏上显示回复。
Cerebras 宣布,其硬件现已运行来自 Moonshot AI 的 AI 模型 Kimi K2.6。
General Instinct 推出一个部署层,使前沿AI模型能够在如 Jetson 和移动 NPU 等受限边缘硬件上运行,帮助机器人技术和物理AI团队实现低延迟离线推理。
深入剖析在偏远或无网络连接环境中部署边缘设备时更新AI模型所面临的真实挑战,涵盖连接窗口、技术人员上门、网格传播以及接受模型过时等策略。
Dell和Hugging Face宣布,包括Kimi K2.6、DeepSeek V4 Pro、GLM 5.1、MiniMax M2.7和DeepSeek V4 Flash在内的多款AI模型现可通过Dell Enterprise Hub获取,并针对配备NVIDIA B300的PowerEdge XE9780进行了优化,简化了模型选择和基础设施。
本文对比了在RTX 3090 24GB上运行Qwen 3.6 27B使用的llama.cpp后端,发现搭配IQ4_KS量化的ik_llama.cpp性能最佳(预填充1261 tok/s,解码72.9 tok/s)。
文章强调了AI行业的一个转变,焦点正从单纯的模型基准性能转向延迟、编排和成本效率等基础设施挑战。这表明AI正成熟为一个系统问题,实际体验变得比原始模型能力更重要。
OpenAI 宣布成立由 Zico Kolter 担任主席的独立董事会安全和安保委员会,该委员会有权监督并根据安全顾虑延迟模型发布。公司还为模型开发和部署引入了集成的安全和安保框架,重组团队以加强研究、安全和政策功能之间的协作。
Grounding DINO 是一个开放词汇的目标检测模型,能够根据文本描述检测任意对象,现已在 Replicate 上可用。