Ornith-1.0:用于智能体编程的自我改进开源模型

Hacker News Top 模型

摘要

Ornith-1.0 是一系列用于智能体编程的开源自我改进模型,通过联合优化脚手架和解决方案展开的强化学习,在编程基准测试中实现了最先进的性能。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/29 20:06

  • Terminal-Bench 2.1(Terminus-2):使用 Harbor/Terminus-2 框架评估,parser=json,temperature=1.0,top_p=1.0,128K 上下文窗口。每次运行使用 4 小时超时、32 个 CPU 核心和 48GB RAM,取 5 次运行的平均值。我们调整了 Qwen 的聊天模板以保持训练和推理一致,并修改了 Harbor 以匹配 vLLM 的 reasoning_content 键。
  • Terminal-Bench 2.1(Claude Code):使用 Claude Code 2.1.126 评估,parser=json,temperature=1.0,top_p=1.0,max_new_tokens=131072,取 5 次运行的平均值(Qwen 聊天模板也做了相应修改)。
  • SWE-bench Verified / Pro / Multilingual:OpenHands 工具框架,temp=1.0,top_p=0.95,256K 上下文窗口。
  • SWE Atlas QnA / RF / TW:mini-SWE-agent 工具框架,temp=1.0,top_p=0.95,128K 上下文窗口,取 5 次运行的平均值。
  • NL2Repo:temperature=1.0,top_p=1.0,400K 上下文,48K 输出,反作弊过滤器。
  • ClawEval:基于真实用户任务分布的智能体代码基准;temp=0.6,256K 上下文。

相似文章

deepreinforce-ai/Ornith-1.0-35B-GGUF

Hugging Face Models Trending

deepreinforce-ai 发布了 Ornith-1.0-35B-GGUF,这是一个最先进的开源编程智能体模型,它使用自我改进的强化学习来联合优化框架和解决方案生成,在编程基准测试上达到了SOTA性能。

deepreinforce-ai/Ornith-1.0-9B

Hugging Face Models Trending

deepreinforce-ai 发布了 Ornith-1.0,一个开源编码代理模型系列,在编码基准测试上实现了最先进的性能,提供从 9B 到 397B 的参数规模,采用自我改进训练框架和 MIT 许可证。