标签
本文介绍了可满足漂移(satisfiable drift),这是一种多轮推理系统在保持内部逻辑一致性的同时,默默违反先前承诺的故障模式,并主导了矛盾。作者提出了DRIFT-Bench,一个包含816个问题的基准测试,并发现经过修复后,98-100%的残余错误是漂移错误。