@omarsar0: 刚刚就动态工作流进行了精彩的讨论。粗略笔记:- 适用于极少数用例 - 将其视为…
摘要
关于测试时计算中动态工作流的讨论,包括其有限的用例、对研究实验的好处,以及对更好基准测试的需求。提及了用于智能体编排的模型如Mythos和Opus 4.8。
刚刚就动态工作流进行了一场精彩的讨论。
粗略笔记:
- 适用于极少数用例
- 将其视为测试时计算(TTC)的新范式
- 对爬山研究实验非常有效
- 仔细规划可带来更好的结果
- 通常仅通过增加推理水平就能获得更好的结果
- /goal + /loop 是动态工作流的子集
- 验证器/评判器对取得好结果至关重要
- 将不同的编码代理组合/融合以获得更好的结果
- 当你需要代理提供不同视角时非常有用(LLM 委员会)
- 前沿模型尚未能很好地实时优化生成测试框架
- 较新的模型(如 Mythos)可能经过更好的训练,能实现更优的代理编排
- TTC 的基准测试尚缺乏,但我们需要它们来评估动态工作流的有效性
- 元提示动态工作流非常有趣;即使是 Opus 4.8 也可能让你惊喜
- 动态工作流可以打包为技能,以便进一步优化
稍后将发布更长的文章。
查看缓存全文
缓存时间: 2026/06/27 05:53
刚刚进行了一场关于动态工作流的精彩讨论。
粗略笔记:
- 仅适用于非常有限的少数用例
- 可视为一种新的(测试时计算)范式
- 对爬山式研究实验非常有效
- 精心规划能带来更好的结果
- 通常情况下,仅通过提高推理层级就能获得更优结果
- /goal + /loop 是动态工作流的一个子集
- 验证器/评判器对于获得良好结果至关重要
- 融合不同编码智能体可带来更佳结果
- 适用于需要从多个智能体获取不同视角的场景(LLM 委员会)
- 前沿模型尚不能完美地即时生成 harness
- 像 Mythos 这样的新模型,在更优的智能体编排方面可能经过更好的训练
- 目前缺乏 TTC 的基准测试,但我们确实需要它们来衡量动态工作流的有效性
- 元提示动态工作流非常有趣;甚至 Opus 4.8 也可能给你带来惊喜
- 动态工作流可以打包成技能,以进一步优化
长文即将发布。
相似文章
@omarsar0: 随着我们针对长期任务中更复杂的编码代理使用(例如,动态工作流和 /goals),你会开始...
讨论了编码代理在复杂长期任务中的挑战,指出了奇怪的用户体验问题和低效的代理交互,并主张对代理框架拥有更多控制权。
@omarsar0: 很好的提示。实际上,大致上就是这样让智能体自主运行数小时或数天的。使用 /goal 或 /loop 来继续……
一个分享让AI智能体自主长时间运行实用技巧的帖子,重点介绍Opus模型,涉及权限、动态工作流和验证方面的建议。
@FeifanZ: 是我遗漏了什么,还是动态工作流只是可观测性更差的 vibe-coding?
FeifanZ 质疑 Claude Code 中的动态工作流本质上是否就是可观测性更差的 vibe-coding,并提到 Claude 将该功能作为复杂任务的研究预览版发布。
@0xMortyx: https://x.com/0xMortyx/status/2069002136873058485
一份关于使用 Claude Code 的 Dynamic Workflows 模式从单个主代理编排多个并行子代理的详细指南,包含覆盖任务分解、隔离和审查的 9 个步骤。
@yacinelearning: 如果你有兴趣抢先了解 Claude Code 动态工作流功能可能正在酝酿的内容,请查看…
Claude Code 引入了动态工作流,允许 Claude 编写编排脚本并生成协调的子代理,以执行复杂任务。