@rasbt:Cohere 推出的全新开源权重模型:一款用于代理型编码任务的轻量级 30B 模型。该模型基于…

X AI KOLs Timeline 模型

摘要

Cohere 发布了一款新的轻量级 30B 开源权重模型,专为代理型编码任务设计,基于 Command A+ 和并行 Transformer 架构构建,在 Terminal-Bench 和 SWE-Bench 等代理型基准测试中表现出色。

Cohere 推出的一款酷炫的新开源权重模型:一款用于代理型编码任务的轻量级 30B 开源权重模型。该模型基于 Command A+,采用并行 Transformer 设计。有趣的是,尽管其规模几乎减半,但层数却几乎翻了一番。此外,他们表示该模型是专门为代理型编码任务开发的,而不仅仅是普通的编码。也就是说,评估是在工作流中进行的,而不仅仅是简单的从提示到代码答案的单一任务。在 Terminal-Bench 中,模型需要使用终端、检查环境、运行命令、读取输出等。在 SWE-Bench 中,模型需要处理真实的 GitHub 风格的软件问题,它必须理解代码仓库、找到相关文件、制作补丁、通过测试等。SciCode 和 LiveCodeBench 则更为传统,因为它们主要测试模型能否为指定问题生成正确的代码。当然,这仍然需要推理能力,但更像是“实现一个数值例程,根据给定的方程和输入计算科学量”,这类任务无需与环境、现有文件或测试进行任何交互。专注于代理型编码基准测试可能是它在这些测试中远超 Gemma 4 的原因。总体而言,它非常有竞争力,尽管性能尚未达到 Qwen3.6 的水平。
查看原文

相似文章

大型语言模型中的深度诅咒

Lobsters Hottest

本文介绍了LLM中的深度诅咒问题,即由于Pre-Layer Normalization导致输出方差爆炸,深层网络变得无效。作者提出LayerNorm Scaling来缓解这一问题,并在高达7B参数规模的模型上展示了预训练和微调的一致性改进。