Ornith-1.0:用于智能体编程的自我改进开源模型
摘要
Ornith-1.0 是一系列用于智能体编程的开源自我改进模型,通过联合优化脚手架和解决方案展开的强化学习,在编程基准测试中实现了最先进的性能。
暂无内容
查看缓存全文
缓存时间: 2026/06/29 20:06
- Terminal-Bench 2.1(Terminus-2):使用 Harbor/Terminus-2 框架评估,parser=json,temperature=1.0,top_p=1.0,128K 上下文窗口。每次运行使用 4 小时超时、32 个 CPU 核心和 48GB RAM,取 5 次运行的平均值。我们调整了 Qwen 的聊天模板以保持训练和推理一致,并修改了 Harbor 以匹配 vLLM 的 reasoning_content 键。
- Terminal-Bench 2.1(Claude Code):使用 Claude Code 2.1.126 评估,parser=json,temperature=1.0,top_p=1.0,max_new_tokens=131072,取 5 次运行的平均值(Qwen 聊天模板也做了相应修改)。
- SWE-bench Verified / Pro / Multilingual:OpenHands 工具框架,temp=1.0,top_p=0.95,256K 上下文窗口。
- SWE Atlas QnA / RF / TW:mini-SWE-agent 工具框架,temp=1.0,top_p=0.95,128K 上下文窗口,取 5 次运行的平均值。
- NL2Repo:temperature=1.0,top_p=1.0,400K 上下文,48K 输出,反作弊过滤器。
- ClawEval:基于真实用户任务分布的智能体代码基准;temp=0.6,256K 上下文。
相似文章
Ornith-1.0:用于智能体编码的自支架大语言模型
DeepReinforce 发布了 Ornith-1.0,这是一个基于 Gemma 4 和 Qwen 3.5 构建的开源权重、MIT 许可的大语言模型家族,在同类开源模型中取得了最先进的编码性能。
deepreinforce-ai/Ornith-1.0-35B-GGUF
deepreinforce-ai 发布了 Ornith-1.0-35B-GGUF,这是一个最先进的开源编程智能体模型,它使用自我改进的强化学习来联合优化框架和解决方案生成,在编程基准测试上达到了SOTA性能。
DeepReinforce 发布 Ornith-1.0 开源编程模型(2分钟阅读)
DeepReinforce 开源了 Ornith-1.0,这是一系列自我改进的编程模型,参数从 9B 到 397B 不等,基于 Gemma 4 和 Qwen 3.5 基础模型训练,采用了一种新颖的强化学习方法,能够学习生成自己的脚手架。
@sudoingX: 在dgx spark上运行Ornith,看看它到底是什么。这是一个来自@ornith_ / deepreinfor... 的新代理式编码模型。
Ornith-1.0是来自deepreinforce-ai的新一代开源代理式编码模型系列,采用强化学习训练,同时优化解决方案和脚手架。其35B MoE版本在编码基准测试中达到了最先进水平,并支持高效的单一GPU部署。
deepreinforce-ai/Ornith-1.0-9B
deepreinforce-ai 发布了 Ornith-1.0,一个开源编码代理模型系列,在编码基准测试上实现了最先进的性能,提供从 9B 到 397B 的参数规模,采用自我改进训练框架和 MIT 许可证。