@no_stp_on_snek: 最后一点：我在测试 Ornith-1.0（新型智能编程代理）时发现的真正缺点是：它对合理工作过度设限。关于…

X AI KOLs Following 2026/06/27 16:40 模型

agentic-coder ornith-1.0 model-evaluation qwen benchmark coding-agent

摘要

一位测试人员报告称，新型 Ornith-1.0 智能编程模型因要求过多先决条件而对合理工作过度设限，这是其谨慎训练带来的权衡；而标准版 Qwen3.6 则直接执行简单任务。

最后一点：我在测试 Ornith-1.0（新型智能编程代理）时发现的真正缺点是：它对合理工作过度设限。面对简单、充分披露的请求，它会停滞不前，要求访问权限或先决条件，而不是直接执行或委托任务。标准版 Qwen3.6 则直接执行。典型的智能强化学习产物：经过训练在行动前收集上下文和搭建框架，却过度应用于本应直接完成的任务。那种使其拒绝有毒前提的谨慎，同样使其在简单问题上过度追问。权衡取舍。

查看原文

查看缓存全文

缓存时间: 2026/06/28 03:55

最后一件事：

我在测试 Ornith-1.0（新型智能编程助手）时发现的一个真正的缺点：它对合法的工作过度设置门槛。

对于简单、完全明确的请求，它会停滞不前，要求提供访问权限或先决条件，而不是直接执行或委派任务。而标准的 Qwen3.6 则直接执行了。

典型的强化学习智能体产物：它被训练成在行动前先收集上下文并搭建框架，因此对应该直接完成的任务过度应用了这种策略。同样的谨慎使其拒绝有害前提，但也使其对简单问题过度追问。权衡。

我毫不怀疑有些古怪之处可以通过更多训练来解决，只是有时会陷入打地鼠的困境。作为 v1 版本，已经相当不错了。

@no_stp_on_snek: 最后一点：我在测试 Ornith-1.0（新型智能编程代理）时发现的真正缺点是：它对合理工作过度设限。关于…

相似文章

@no_stp_on_snek: 一款新的35B编码模型发布了（Ornith-1.0），一篇推广博客说它"碾压"了基准测试。我的第一直觉是这是benchmaxx……

@SixZzshOtRipZz：我可以为此发声。我做了类似的测试，看Ornith是否会在决策上妥协，甚至试图欺骗我……

@SlimTradeyBaby：刚读了 @no_stp_on_snek 对全新 Ornith-1.0 35B 编码器的评测，这绝对是我很久以来见过的最好的模型测评之一……

@TeksEdge：经过一天的使用，测试 Orinth-1.0-35B 与 Qwen3.6-35B 的表现如何。凭经验来说，它的表现与……

@sudoingX: 在dgx spark上运行Ornith，看看它到底是什么。这是一个来自@ornith_ / deepreinfor... 的新代理式编码模型。

提交意见反馈