Ornith-1.0：用于智能体编程的自我改进开源模型

Hacker News Top 2026/06/29 17:16 模型

open-source agentic-coding coding-agent reinforcement-learning self-improving benchmark mit-license

摘要

Ornith-1.0 是一系列用于智能体编程的开源自我改进模型，通过联合优化脚手架和解决方案展开的强化学习，在编程基准测试中实现了最先进的性能。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/29 20:06

Terminal-Bench 2.1（Terminus-2）：使用 Harbor/Terminus-2 框架评估，parser=json，temperature=1.0，top_p=1.0，128K 上下文窗口。每次运行使用 4 小时超时、32 个 CPU 核心和 48GB RAM，取 5 次运行的平均值。我们调整了 Qwen 的聊天模板以保持训练和推理一致，并修改了 Harbor 以匹配 vLLM 的 reasoning_content 键。
Terminal-Bench 2.1（Claude Code）：使用 Claude Code 2.1.126 评估，parser=json，temperature=1.0，top_p=1.0，max_new_tokens=131072，取 5 次运行的平均值（Qwen 聊天模板也做了相应修改）。
SWE-bench Verified / Pro / Multilingual：OpenHands 工具框架，temp=1.0，top_p=0.95，256K 上下文窗口。
SWE Atlas QnA / RF / TW：mini-SWE-agent 工具框架，temp=1.0，top_p=0.95，128K 上下文窗口，取 5 次运行的平均值。
NL2Repo：temperature=1.0，top_p=1.0，400K 上下文，48K 输出，反作弊过滤器。
ClawEval：基于真实用户任务分布的智能体代码基准；temp=0.6，256K 上下文。

相似文章

Simon Willison's Blog

DeepReinforce 发布了 Ornith-1.0，这是一个基于 Gemma 4 和 Qwen 3.5 构建的开源权重、MIT 许可的大语言模型家族，在同类开源模型中取得了最先进的编码性能。

Hugging Face Models Trending

deepreinforce-ai 发布了 Ornith-1.0-35B-GGUF，这是一个最先进的开源编程智能体模型，它使用自我改进的强化学习来联合优化框架和解决方案生成，在编程基准测试上达到了SOTA性能。

TLDR AI

DeepReinforce 开源了 Ornith-1.0，这是一系列自我改进的编程模型，参数从 9B 到 397B 不等，基于 Gemma 4 和 Qwen 3.5 基础模型训练，采用了一种新颖的强化学习方法，能够学习生成自己的脚手架。

X AI KOLs Timeline

Ornith-1.0是来自deepreinforce-ai的新一代开源代理式编码模型系列，采用强化学习训练，同时优化解决方案和脚手架。其35B MoE版本在编码基准测试中达到了最先进水平，并支持高效的单一GPU部署。

Hugging Face Models Trending

deepreinforce-ai 发布了 Ornith-1.0，一个开源编码代理模型系列，在编码基准测试上实现了最先进的性能，提供从 9B 到 397B 的参数规模，采用自我改进训练框架和 MIT 许可证。