标签
本文通过实证研究探讨了在软件执行过程中何时应中断自主 AI 智能体,发现情感状态阈值很快趋于饱和,LLM 裁判在高成本下仅能达到较低的 F1 分数(0.17–0.40),而人类标注者对于干预时机的判断本身也接近随机一致性水平,这使得该构念作为优化目标缺乏可靠性。