标签
引入GUI-RobustEval(一个用于GUI代理错误恢复的基准)和鲁棒性驱动轨迹合成(RoTS)以生成训练数据,在OSWorld上达到当前最佳性能。
文章讨论的是,AI代理在真实工作流程中的主要挑战并非理解任务,而是处理意外变化的恢复、状态跟踪以及知道何时需要人工输入。
本文介绍了“意外崩溃”现象,即 AI 代理在应对良性环境错误时表现出不安全行为。作者在多个代理系统和模型中对此进行了测量,发现当存在错误时,64.7% 的推广中会出现崩溃。
本文介绍了 ReFlect,这是一种无需训练的包装系统,通过为大语言模型包裹确定性的错误检测与恢复逻辑,来提升其在复杂、长周期推理任务上的性能。
Gecko 是一个全新的可嵌入 C 库,可为任意上下文无关文法提供 GLR 解析、自动语法错误恢复,并保持 YACC 级速度。