标签
GLM 5.2 已发布,采用 MIT 许可协议在 HuggingFace 上开放权重,可通过 API 和 Ollama 获取,其基准测试结果具有竞争力,仅落后 Opus 4.8 一个点,领先 GPT-5.5 一个点。
GLM-5.2 是首个在 Terminal-Bench 上超过 80% 的开源权重模型,超越了所有其他开源模型乃至 Gemini,使其以极低的成本成为前沿水准的模型。
Qwable-v1 是一个开放权重的代理编码模型(35B MoE,3B 活跃参数),通过串联来自 Claude Opus 4.7 推理和 Claude Fable-5 代理工具使用轨迹的蒸馏构建。它能够显式思考 CoT 链,并在提示时充当类似 Claude-Code 风格的代理。
一位用户质疑为何华为的Atlas卡未被广泛采用,并猜测中国是否有潜力生产消费级GPU来挑战Nvidia的垄断地位。
2026年中本地AI模型的技术概览,重点介绍开放权重模型如何通过混合专家模型和稀疏注意力机制的进步缩小了与前沿模型的差距,从而实现高效的本地推理。
一条推文强调了Angelos Kath在WWDC上关于使用MLX构建本地自主AI的出色视频,指出开源权重模型和硬件能力的快速进展。
Avataar AI推出Varya,这是一款针对印度规模和背景优化的视频生成模型,利用从Wan 2.2蒸馏的技术,实现了20倍成本降低和对本地细微差别的理解。
MiniMaxAI 宣布计划于周五为其即将发布的 M3 模型发布开放权重,继之前的 M2.7 模型之后。
Google 发布了 DiffusionGemma,这是一个采用 Apache 2 许可证的开源权重文本生成模型(总参数量 26B,活跃参数量 4B),通过 NVIDIA 的 NIM 云 API 展示了极高的推理速度。
Modular 的内核团队正在优化对 MiniMax M3 的百万token上下文和原生多模态的服务,开放权重即将发布,可立即在 Modular 上部署。
一位开发者通过在NVMe SSD上流式传输模型权重,在树莓派5上运行了DeepSeek-V4-Flash,达到了1.3 tokens/秒的速率,功耗仅8瓦,证明了前沿级别的开放权重模型在低成本、离线硬件上的可行性。
一篇被ICML 2026接收的论文提出了通过信息预算弃权门实现可预测幻觉的方法,并发布了ntkMirror——一种免训练的开源权重实现,通过在信息不足时弃权来减少幻觉,在约24%弃权率下实现0.0–0.7%的幻觉率。
Cohere 和 Cohere Labs 发布了 North Mini Code,这是一个开放权重的 30B-A3B 参数模型,针对代码生成、智能体软件工程和终端任务进行了优化,在 SWE-Bench 和 Terminal-Bench 上取得了强劲的基准测试结果。
Omi Health创始人微调了NVIDIA的Parakeet TDT 0.6B用于医学ASR,发布了开放权重的模型Omi Med STT v1,在本地Mac、CUDA或CPU上运行时实现了有竞争力的医学WER。
文章质疑为何像BitNet这样的三进制语言模型在初期显示出潜力后,却未能扩展到超过2B参数,并讨论了开放权重AI实验室明显缺乏进展的情况。
本周开放AI领域异常精彩,发布了超过25个开放权重模型,涵盖大语言模型、图像生成、音频/语音、视觉和视频/3D等领域,NVIDIA、Google等机构贡献突出。
Cohere Labs 发布了 North Mini Code,一个拥有 30B 参数(3B 活跃)的开放权重模型,针对代码生成、智能体软件工程和终端任务进行了优化,基于 Apache 2.0 许可。
Google DeepMind 发布了 Gemma 4 模型,这些模型通过量化感知训练(QAT)进行了优化,并提供包括 GGUF 在内的多种格式,在降低内存需求的同时实现了高质量。
NVIDIA 发布了 Nemotron 550B Ultra,这是一个大型语言模型,采用简洁的基于 XML 的工具调用接口,而非 JSON 模式。工具结果以用户消息的形式嵌入 XML 标签中返回。