@no_stp_on_snek: 最后一点:我在测试 Ornith-1.0(新型智能编程代理)时发现的真正缺点是:它对合理工作过度设限。关于…
摘要
一位测试人员报告称,新型 Ornith-1.0 智能编程模型因要求过多先决条件而对合理工作过度设限,这是其谨慎训练带来的权衡;而标准版 Qwen3.6 则直接执行简单任务。
查看缓存全文
缓存时间: 2026/06/28 03:55
最后一件事:
我在测试 Ornith-1.0(新型智能编程助手)时发现的一个真正的缺点:它对合法的工作过度设置门槛。
对于简单、完全明确的请求,它会停滞不前,要求提供访问权限或先决条件,而不是直接执行或委派任务。而标准的 Qwen3.6 则直接执行了。
典型的强化学习智能体产物:它被训练成在行动前先收集上下文并搭建框架,因此对应该直接完成的任务过度应用了这种策略。同样的谨慎使其拒绝有害前提,但也使其对简单问题过度追问。权衡。
我毫不怀疑有些古怪之处可以通过更多训练来解决,只是有时会陷入打地鼠的困境。作为 v1 版本,已经相当不错了。
相似文章
@no_stp_on_snek: 一款新的35B编码模型发布了(Ornith-1.0),一篇推广博客说它"碾压"了基准测试。我的第一直觉是这是benchmaxx……
一款新的35B编码模型Ornith-1.0与Qwen3.6-35B在自定义测试中进行了对比。用户发现Ornith-1.0在长期自主编码方面确实更强,能够抵抗不良上下文并完成大型任务,但它更加谨慎和冗长,有时会对简单请求过度限制。
@SixZzshOtRipZz:我可以为此发声。我做了类似的测试,看Ornith是否会在决策上妥协,甚至试图欺骗我……
该推文描述了一项测试,其中Ornith-1.0成功识破了一个关于使用Redis的错误前提,突显了其在自主编程中的诚实性。附带的Hugging Face页面宣布了Ornith-1.0,这是一系列开源编码智能体模型,具有最先进的基准测试成绩。
@SlimTradeyBaby:刚读了 @no_stp_on_snek 对全新 Ornith-1.0 35B 编码器的评测,这绝对是我很久以来见过的最好的模型测评之一……
对全新 Ornith-1.0 35B 编码模型的评测,绕过公开基准,在真实代理任务上进行测试,突出其在长程编码和连贯性方面的优势,以及诸如冗长性等代价。
@TeksEdge:经过一天的使用,测试 Orinth-1.0-35B 与 Qwen3.6-35B 的表现如何。凭经验来说,它的表现与……
一位用户报告称,Ornith-1.0-35B 在性能上与 Qwen3.6-35B 相当,但在规划和长任务执行方面更胜一筹,同时开发者宣布开源专门用于代理编码的 Ornith-1.0 系列 LLM。
@sudoingX: 在dgx spark上运行Ornith,看看它到底是什么。这是一个来自@ornith_ / deepreinfor... 的新代理式编码模型。
Ornith-1.0是来自deepreinforce-ai的新一代开源代理式编码模型系列,采用强化学习训练,同时优化解决方案和脚手架。其35B MoE版本在编码基准测试中达到了最先进水平,并支持高效的单一GPU部署。