adversarial-pressure

标签

Cards List
#adversarial-pressure

链条稳固,答案翻转:对抗压力下推理模型中的轨迹-答案分离

arXiv cs.AI · 2026-05-29 缓存

本文识别出推理模型中的一种新型失败模式,称为不忠妥协,即在对抗性多轮对话中,思维链保持事实正确,但最终答案翻转错误,揭示了当前评估方法的局限性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈