inference-time-feedback

#inference-time-feedback

@omarsar0: 苹果的一篇很棒的论文。大多数对工具调用智能体的评估都发生在轨迹结束之后。但那时错误的调用早已发出。这篇新论文将评估移入执行循环中。一个专门的审稿智能体在执行前检查每个临时工具调用。如果有问题，它注入反馈，主智能体进行修正。为了量化修正与新错误之间的权衡，他们提出了“有益性-有害性”指标。有益性衡量基础错误被修复的百分比；有害性衡量因审稿而降低正确调用质量的比例。在 BFCL 上的结果：无关检测准确率提升 5.5%（从 84.9% 到 90.4%），相关检测提升 1.6%，且无需重新训练基础智能体。在 τ²-Bench 多轮任务上提升 7.1%（从 48.7% 到 55.8%）。推理模型审稿者比 GPT-4o 获得 3:1 的收益风险比，而 GPT-4o 为 2.1:1。加入 GEPA 提示优化可再提升 1.5–2.8%。为什么这很重要？你可以保持基础工具调用智能体不变，仅通过改进审稿者即可实现显著的准确性提升。对审稿者的模型选择和提示优化成为独立的生产杠杆。论文链接：https://arxiv.org/abs/2604.27233 在我们的学院学习如何构建高效的 AI 智能体：https://academy.dair.ai

X AI KOLs Timeline ↗ · 3天前缓存

这篇来自苹果的研究论文介绍了“强化智能体”（Reinforced Agent）方法，通过使用专门的审稿智能体在实时执行过程中修正工具调用错误，将评估纳入执行循环。它在 BFCL 和 τ²-Bench 等基准测试上展示了显著的准确性提升，而无需重新训练基础智能体。

0 人收藏 0 人点赞