@omarsar0: 刚刚就动态工作流进行了精彩的讨论。粗略笔记：- 适用于极少数用例 - 将其视为…

X AI KOLs Following 2026/06/25 20:23 新闻

摘要

关于测试时计算中动态工作流的讨论，包括其有限的用例、对研究实验的好处，以及对更好基准测试的需求。提及了用于智能体编排的模型如Mythos和Opus 4.8。

刚刚就动态工作流进行了一场精彩的讨论。粗略笔记： - 适用于极少数用例 - 将其视为测试时计算（TTC）的新范式 - 对爬山研究实验非常有效 - 仔细规划可带来更好的结果 - 通常仅通过增加推理水平就能获得更好的结果 - /goal + /loop 是动态工作流的子集 - 验证器/评判器对取得好结果至关重要 - 将不同的编码代理组合/融合以获得更好的结果 - 当你需要代理提供不同视角时非常有用（LLM 委员会） - 前沿模型尚未能很好地实时优化生成测试框架 - 较新的模型（如 Mythos）可能经过更好的训练，能实现更优的代理编排 - TTC 的基准测试尚缺乏，但我们需要它们来评估动态工作流的有效性 - 元提示动态工作流非常有趣；即使是 Opus 4.8 也可能让你惊喜 - 动态工作流可以打包为技能，以便进一步优化稍后将发布更长的文章。

查看原文

查看缓存全文

缓存时间: 2026/06/27 05:53

刚刚进行了一场关于动态工作流的精彩讨论。

粗略笔记：

仅适用于非常有限的少数用例
可视为一种新的（测试时计算）范式
对爬山式研究实验非常有效
精心规划能带来更好的结果
通常情况下，仅通过提高推理层级就能获得更优结果
/goal + /loop 是动态工作流的一个子集
验证器/评判器对于获得良好结果至关重要
融合不同编码智能体可带来更佳结果
适用于需要从多个智能体获取不同视角的场景（LLM 委员会）
前沿模型尚不能完美地即时生成 harness
像 Mythos 这样的新模型，在更优的智能体编排方面可能经过更好的训练
目前缺乏 TTC 的基准测试，但我们确实需要它们来衡量动态工作流的有效性
元提示动态工作流非常有趣；甚至 Opus 4.8 也可能给你带来惊喜
动态工作流可以打包成技能，以进一步优化

长文即将发布。

@omarsar0: 刚刚就动态工作流进行了精彩的讨论。粗略笔记：- 适用于极少数用例 - 将其视为…

相似文章

@omarsar0: 随着我们针对长期任务中更复杂的编码代理使用（例如，动态工作流和 /goals），你会开始...

@omarsar0: 很好的提示。实际上，大致上就是这样让智能体自主运行数小时或数天的。使用 /goal 或 /loop 来继续……

@FeifanZ: 是我遗漏了什么，还是动态工作流只是可观测性更差的 vibe-coding？

@0xMortyx: https://x.com/0xMortyx/status/2069002136873058485

@yacinelearning: 如果你有兴趣抢先了解 Claude Code 动态工作流功能可能正在酝酿的内容，请查看…

提交意见反馈