我将我们的多模型代码审查工作流打包成了一个可复用的技能
摘要
一位开发者将多模型代码审查工作流打包,其中编排代理协调多个审查模型,并将结果合并为一份报告,并以可复用技能的形式发布到 GitHub 上。
大家好——我一直在试验一种代码审查工作流,其中一个编排代理协调多个独立的审查代理/模型,然后将结果合并为一份最终审查报告。思路很简单:* 不同模型捕捉不同的错误;* 如果多个模型独立标记同一问题,则置信度提高;* 编排代理进行去重、过滤掉弱发现、检查明显的误报,并发布一份干净的结果。我将这个工作流变成了一个可复用的技能/手册,地址在这里:[https://github.com/rmichelena/multireview](https://github.com/rmichelena/multireview)
它支持两种模式:
1. **PR 审查**
* 准备本地的 `base/`、`head/`、`PR_DIFF.patch`、`PR_METADATA.json`
* 生成多个仅分析型的审查代理
* 编排代理发布一份摘要以及内联 PR 评论
* 避免 GitHub 待处理审查冲突
2. **非 PR 范围审查**
* 审查某个文件夹/模块/部署/脚本区域
* 审查代理检查一个共享的本地快照
* 编排代理将整合后的 [`REVIEW.md`](http://REVIEW.md) 发布到仓库中
经过测试的配置使用:
* GPT-5.5 作为编排代理
* GPT-5.5
* DeepSeek V4 Pro
* Kimi K2.6
* Qwen 3.6 Plus
* GLM-5.1
……但该工作流本身与代理/模型无关。它已经通过 OpenClaw 进行了测试,并且取得了很好的结果。我很快学到的一件事(并因此成为第二个提交)是:不要让每个子代理独立克隆/拉取仓库。编排代理应该准备一个共享快照,并将本地路径传递给审查代理。这样更快、更便宜,而且奇怪的误报也更少。所有非 GPT 的模型我都是通过 Fireworks 运行的。如果任务量很大,你可能需要将 Kimi 和 Qwen 换成其他的,这两个有时会卡住。非常欢迎反馈,特别是来自那些运行多代理代码审查工作流的人的反馈。
相似文章
我厌倦了维护 skill.md 文件,所以构建了一个开源 CLI,通过 GitHub 仓库来创建、管理和观察技能。你可以在任何智能体的会话之间监控、追踪和共享技能,同时迭代改进/版本化它们。
一个开源 CLI 工具,通过 GitHub 仓库创建、管理和版本化智能体技能,支持跨会话的可靠共享和观察。
大多数多智能体设置让一个智能体包办一切——撰写建议、判定结果、路由输出。当我将它们拆分开来,情况发生了变化。
描述了一个专为代码审查设计的特殊多智能体系统,具有明确的角色和持久状态,已开源为 agile-team-skill。该系统将审查者与决策者角色分离,以提升代码质量和流程记忆。
两个代理试图交付同一技能:一个将其打包,另一个重写。
比较了两个AI代理处理技能复用的方式:一个每次会话从头重写提取逻辑,而另一个将其打包到专门的、有文档记录的文件中,凸显了代理技能持久化的必要性。
@RayFernando1337: 导致用户流失的错误几乎从不出现在差异对比中,只有当你停止审查代码时才能真正捕捉到它们……
一位开发者分享了在Cursor中使用Opus 4.8 Max Thinking模型与子代理框架的工作流,并介绍了一个包含可安装技能文件的GitHub仓库,其中包含一个名为'running-bug-review-board'的技能,可进行实时QA测试。
@steipete: 编写了一个技能,循环运行codex /review直到没有错误为止。注意:它不会修复系统架构…
Peter (@steipete) 创建了一个技能,循环运行Codex的/review命令来修复代码问题,但指出它不会修复系统架构。相关的GitHub仓库'agent-scripts'包含共享的代理指令、技能和辅助脚本,用于本地工作空间。