标签
本文通过实证研究探讨了在软件执行过程中何时应中断自主 AI 智能体,发现情感状态阈值很快趋于饱和,LLM 裁判在高成本下仅能达到较低的 F1 分数(0.17–0.40),而人类标注者对于干预时机的判断本身也接近随机一致性水平,这使得该构念作为优化目标缺乏可靠性。
DART 为结构化工具代理引入了语义可恢复性,形式化了一个标准,用于确定在做出下游承诺后,本地检查点恢复是否仍然有效。在三个基于LLM的领域进行的实验表明,它正确恢复了基线本地恢复失败的所有承诺敏感案例,且安全审计未发现不安全的回滚。