标签
关于智能体记忆的社区讨论显示,尽管在记录什么(如纯文本文件、分层记忆、事后总结)方面存在各种补丁方案,但未解决的问题是保留什么——检测失败是可处理的,但决定哪些教训应持续保留仍需要人类判断。
本文通过词元级不确定性信号,刻画了语言模型在推理中失败的两种不同过程——承诺性失败与持续性不确定性,并展示了其对自一致性及失败检测策略的启示。
AEGIS 使用激活探针早期预警,在长时域机器人操作中故障累积之前切换到更强的策略,恢复的故障次数是预算匹配升级策略的两倍。
Hide-and-Seek是一个通过对比学习定位故障指示动作来检测VLA模型中机器人执行故障的框架,无需步骤级标注,实现了最先进的多任务故障检测性能。
本文比较了交叉验证集成与深度集成在医学图像分割中的不确定性估计。深度集成在校准和故障检测方面优于交叉验证集成,而交叉验证集成能更好地近似评估者间变异性。