inference-time-feedback

标签

Cards List
#inference-time-feedback

@omarsar0: 苹果的一篇很棒的论文。大多数对工具调用智能体的评估都发生在轨迹结束之后。但那时错误的调用早已发出。这篇新论文将评估移入执行循环中。一个专门的审稿智能体在执行前检查每个临时工具调用。如果有问题,它注入反馈,主智能体进行修正。为了量化修正与新错误之间的权衡,他们提出了“有益性-有害性”指标。有益性衡量基础错误被修复的百分比;有害性衡量因审稿而降低正确调用质量的比例。在 BFCL 上的结果:无关检测准确率提升 5.5%(从 84.9% 到 90.4%),相关检测提升 1.6%,且无需重新训练基础智能体。在 τ²-Bench 多轮任务上提升 7.1%(从 48.7% 到 55.8%)。推理模型审稿者比 GPT-4o 获得 3:1 的收益风险比,而 GPT-4o 为 2.1:1。加入 GEPA 提示优化可再提升 1.5–2.8%。为什么这很重要?你可以保持基础工具调用智能体不变,仅通过改进审稿者即可实现显著的准确性提升。对审稿者的模型选择和提示优化成为独立的生产杠杆。论文链接:https://arxiv.org/abs/2604.27233 在我们的学院学习如何构建高效的 AI 智能体:https://academy.dair.ai

X AI KOLs Timeline · 3天前 缓存

这篇来自苹果的研究论文介绍了“强化智能体”(Reinforced Agent)方法,通过使用专门的审稿智能体在实时执行过程中修正工具调用错误,将评估纳入执行循环。它在 BFCL 和 τ²-Bench 等基准测试上展示了显著的准确性提升,而无需重新训练基础智能体。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈