标签
GLM-5.2 以更低成本在 45 个编码代理任务上与 Claude Opus 持平,其中 43 个任务结果完全相同。
GLM 5.2 是 Z.ai 推出的全新开放权重模型,与 Claude Opus 在 3D 游戏编码任务中进行了对比。Opus 性能更快更清晰,但 GLM 5.2 在成本和易用性上具有显著优势。
宣布Qwable-v1,这是一个从Claude Fable-5蒸馏而来的开放权重模型,同时展示了在2dgx sparks硬件上的性能基准测试:单会话25 tok/s,8会话152 tok/s。
发布了RRT-355M,一个GPT-2中等规模的无softmax注意力模型,拥有3.54亿参数,从零开始在115亿token上训练,利用结构稀疏性和瓦片跳过内核实现长上下文效率,在22个任务基准测试中达到与GPT-2中等规模相当的性能。
开源权重模型已追赶上专有模型,GLM 5.2在浏览器代理任务中以低成本实现了接近Opus级别的得分。其他模型如Minimax M3和Kimi k2.7也显示出显著的改进。
本文提出层级语言模型(TLMs),允许单套开源权重模型参数通过密钥控制支持多种能力级别。该方法能在保持公共模型行为并抵御提取的同时,选择性暴露私有能力。
Mistral AI 正在为其 Vibe (Le Chat) 网络平台增加专门的代码和应用部分,将其从对话界面转变为开发和应用程序构建环境。一款新的、大型稀疏混合专家模型也确认将在夏季以开放权重形式发布。
Cohere 发布 North Mini Code,一个30B-A3B开源权重模型,采用4位量化,用于代码生成和智能体编码任务,支持256K上下文。
GLM 5.2 是一个开放权重的大语言模型,其能力足以让企业在可负担的硬件上本地管理其 IT 需求,可能彻底改变中小企业的数据管理方式。
我们率先通过将稀疏注意力内核移植到 Ada GPU,在 RTX 4090 上运行完整的 GLM-5.2(753B FP8),从而让前沿开放权重模型可在消费级硬件上运行。
Google DeepMind 发布 Gemma 4 系列开放权重模型,覆盖 2B 到 31B 四种规模,支持 128K–256K 上下文、推理与函数调用,采用 Apache 2.0 许可证,并配备 ADK 框架实现自主智能体能力。
中国AI实验室Z.ai发布了GLM-5.2,这是一个拥有7530亿参数的开放权重大语言模型,支持100万token的上下文窗口,采用MIT许可证。该模型在Artificial Analysis Intelligence Index上获得最高分,并在Code Arena WebDev排行榜上排名第二。
Apodex 1.0 是一个基于 Qwen3.5 后训练的自我进化 AI 系统,在 BrowseComp、DeepSearchQA 和 HLE-text 上达到 SOTA。其 4B 迷你模型性能超越 30B 级别模型,并配有 AgentOS 运行时用于任务编排。开放权重可用。
智谱AI的GLM-5.2已成为Artificial Analysis Intelligence Index上新的领先开源权重模型,得分为51,超越了MiniMax-M3和DeepSeek V4 Pro等竞争对手。该模型拥有744B总参数、40B活跃参数、MIT许可证和1M上下文窗口。
Moonshot AI 发布了专注于编程的开放式权重模型 Kimi K2.7 Code,拥有1万亿参数和384个专家,性能在MCP工具调用上超越Opus 4.8,成本仅为十分之一。
Z AI的GLM-5.2开放权重模型在Artificial Analysis Intelligence Index上获得51分,与GPT-5.4 xhigh持平,并且处于智能与每任务成本的帕累托前沿。
Step 3.7 Flash 是一个开放权重的模型,拥有 256k 上下文窗口,可在 Cline 中免费使用一个月,声称性能优于 Gemini 和 DeepSeek 的 flash 模型,并在 SWE Bench 上接近前沿水平。
Z.ai 发布了 GLM-5.2,这是一款具有开放权重的 AI 模型,在编码和智能体性能方面有所提升,通过在三个任务的物理模拟基准测试中击败 Kimi K2.7 Code 得到证明。
GLM-5.2 已以 MIT 许可证发布开放权重,拥有 100 万上下文窗口和两种推理努力模式。早期基准测试显示它在编程任务中表现出色,值得在基准截图之外进行测试。