@rasbt:Cohere 推出的全新开源权重模型:一款用于代理型编码任务的轻量级 30B 模型。该模型基于…
摘要
Cohere 发布了一款新的轻量级 30B 开源权重模型,专为代理型编码任务设计,基于 Command A+ 和并行 Transformer 架构构建,在 Terminal-Bench 和 SWE-Bench 等代理型基准测试中表现出色。
Cohere 推出的一款酷炫的新开源权重模型:一款用于代理型编码任务的轻量级 30B 开源权重模型。该模型基于 Command A+,采用并行 Transformer 设计。有趣的是,尽管其规模几乎减半,但层数却几乎翻了一番。此外,他们表示该模型是专门为代理型编码任务开发的,而不仅仅是普通的编码。也就是说,评估是在工作流中进行的,而不仅仅是简单的从提示到代码答案的单一任务。在 Terminal-Bench 中,模型需要使用终端、检查环境、运行命令、读取输出等。在 SWE-Bench 中,模型需要处理真实的 GitHub 风格的软件问题,它必须理解代码仓库、找到相关文件、制作补丁、通过测试等。SciCode 和 LiveCodeBench 则更为传统,因为它们主要测试模型能否为指定问题生成正确的代码。当然,这仍然需要推理能力,但更像是“实现一个数值例程,根据给定的方程和输入计算科学量”,这类任务无需与环境、现有文件或测试进行任何交互。专注于代理型编码基准测试可能是它在这些测试中远超 Gemma 4 的原因。总体而言,它非常有竞争力,尽管性能尚未达到 Qwen3.6 的水平。
相似文章
大型语言模型中的深度诅咒
本文介绍了LLM中的深度诅咒问题,即由于Pre-Layer Normalization导致输出方差爆炸,深层网络变得无效。作者提出LayerNorm Scaling来缓解这一问题,并在高达7B参数规模的模型上展示了预训练和微调的一致性改进。
为 cohere2-MoE 添加架构支持,由 michaelw9999 · 拉取请求 #24260 · ggml-org/llama.cpp
此拉取请求为 llama.cpp 添加了 cohere2-MoE 模型的架构支持,实现了对该混合专家模型(Mixture of Experts)的推理。
@rohanpaul_ai: 一篇优秀的综述论文,绘制了面向LLM的智能体强化学习地图,展示了模型如何通过跨时间行动来学习。涵盖…
一篇关于面向LLM的智能体强化学习的综述论文,将500多篇相关工作映射到能力和应用两个部分,展示了模型如何通过跨时间行动来学习。
@matei_zaharia: 非常兴奋地开源一个新项目:Omnigent,一个AI代理的元框架。它让你能够构建多代理编码…
Matei Zaharia 宣布开源 Omnigent,这是一个用于AI代理的元框架,支持通过组合Claude Code、Codex和Pi等工具来构建多代理编码和自定义代理,并增加了实时协作和控制策略。
Shepherd's Dog:最危险AI模型制作的游戏
Anthropic的所谓危险AI模型在一次45分钟的会话中生成了完整的游戏'Shepherd's Dog',展现了前所未有的编程能力。