面对“全知”GPT还是“多疑”Claude?Repair机制揭示大模型多轮对话中的不可靠行为

arXiv cs.CL 论文

摘要

研究发现,GPT与Claude在多轮数学对话的纠错过程中表现出截然不同且不可靠的修复行为:有的模型抗拒修正,有的则过度修正。

arXiv:2604.19245v1 公告类型:新增 摘要:修复(Repair)作为解决人类对话中问题的重要机制,在人与大语言模型(LLM)交互中仍缺乏深入探索。本研究考察了LLM在围绕可解与不可解数学问题的多轮对话中,如何参与修复过程:模型是否会主动发起修复,以及如何应对用户发起的修复。结果显示,不同模型反应差异显著:从几乎完全抗拒(合理)修复尝试,到高度易感且易被操控。我们进一步发现,一旦对话超出单轮,模型行为在各系统间变得更加独特且难以预测。总体而言,测试结果表明,在修复场景下,每个受测LLM都展现出其特有的不可靠模式。
查看原文
查看缓存全文

缓存时间: 2026/04/22 08:30

# 是在跟“万事通”GPT 还是“事后反悔”Claude 对话?Repair 机制揭示 LLM 多轮不可靠行为  
来源:https://arxiv.org/html/2604.19245  
Hannah Bultmann Sina Zarrieß  
计算语言学系,比勒费尔德大学,德国  
{clara.lachenmaier;hannah.bultmann;sina.zarriess}@uni-bielefeld.de  

###### 摘要  
在人类对话中,repair(修正)是解决交流障碍的重要机制,但在人与大语言模型(LLM)的互动中却鲜有研究。本文围绕可解与不可解的数学问题,探究 LLM 在多轮对话中如何主动发起 repair,以及如何回应用户发起的 repair。结果显示,不同模型差异巨大:有的几乎完全拒绝(合理的)repair 尝试,有的则高度易感,易被(不合理)repair 带偏。进一步发现,一旦对话超过单轮,各系统的行为愈发分化且难以预测。总体而言,每款受测 LLM 在 repair 场景下都表现出各自特有的“不可靠”模式。  

是在跟“万事通”GPT 还是“事后反悔”Claude 对话?Repair 机制揭示 LLM 多轮不可靠行为  
Clara Lachenmaier Hannah Bultmann Sina Zarrieß  
计算语言学系,比勒费尔德大学,德国  
{clara.lachenmaier;hannah.bultmann;sina.zarriess}@uni-bielefeld.de  

## 1 引言  
针对幻觉或推理失败等现象,LLM 多次被证明是不可靠的对话伙伴。NLP 领域常试图用特定计算方案缓解这些问题,却忽视了人类对话早已内置的“故障自修复”机制——repair。  

表 1:用户与 DeepSeek 的 4 轮对话示例(基于 UMWP 数据集不可解条目 2251)。第 2 轮 LLM 标示出障碍源(黄色)却给出错误答案且未 repair(红色);用户第 3 轮再次发起 repair(蓝色)后,模型在第 4 轮修正了先前答案(蓝色)。  

repair 包含一系列用来处理口语、听力或理解问题的实践,远不止“改错”,也包括说话者认为有问题的任何成分。repair 序列由三部分组成:障碍源、repair 发起、repair 完成。按“谁发起/谁完成”可分为四类:自发自修、他发自修、自发他修、他发他修;按位置可分为第二位置他发 repair 与第三位置自发 repair 等。  

现有评估多聚焦单轮正确性或整段对话的“信任度”,并未覆盖 repair 这种需双方协作的多轮机制。本文首次系统考察 LLM 在完整 repair 序列中的行为,研究问题如下:  

1. Q1 面对不可解问题,LLM 会自发发起 repair 吗?  
2. Q2 若尝试回答,是否至少指出“题目有问题”?  
3. Q3 用户以不同方式发起 repair 后,模型是否执行 repair?对误导性 repair 是否过度敏感?  
4. Q4 不同 LLM 的多轮 repair 行为有何异同?  

我们使用 UMWP 可解/不可解数学题库,对 5 款模型进行 4 轮对话实验,并用三种用户 repair 策略发起第三位置 repair。结果显示,模型间差异极大,且均表现出各自特有的不可靠性,意味着用户无法以“通用 AI 对话者”预期它们的行为。  

## 2 背景  
repair 的偏好结构具有跨语言普遍性:自修通常优先于他修。不同文化背景下,repair 序列的组织方式相似,但语言手段各异。  

## 3 相关工作  
- **障碍源检测**:已有工作让 LLM 识别模糊或不可答问题,但模型仍常默认输出单一答案,而非主动发起 repair。  
- **第二位置 repair**:研究表明,LLM 生成的澄清问句往往泛化且脱离真实障碍源,且随轮次增加愈发“啰嗦”。  
- **第三位置 repair**:极少研究关注用户纠正后模型如何回应,发现 GPT 系模型常无法合理吸收修正;尚无工作系统追踪多轮 repair 序列。  

本文首次把 repair 视为多轮协作过程,全面分析 LLM 在完整序列中的行为。  

## 4 方法  
基于 UMWP 题库(可解 2511 条,不可解 2600 条),我们对 5 款模型进行两轮 prompting,生成 4 轮对话,并用自动与人工结合的多项指标分析。  

### 4.1 数据集  
UMWP 原含各 2600 条可解/不可解小学数学应用题。我们剔除答案歧义的可解题,最终保留 2511 可解 + 2600 不可解。  

### 4.2 多轮 prompting  
- 第 1 轮:让模型回答所有题目,要求用 `\boxed{}` 标出最终答案。  
- 第 2 轮:基于上轮回复,用 API 模拟用户 repair,共三种策略:  
  1. 无源提示:“你确定吗?”  
  2. 有源提示:“你确定这是对的吗?”  
  3. 候选提示:“难道不是 36 吗?”(固定替代值 36,兼顾通用性与可比性)  

两轮共产生 25,555 + 76,665 条回复。  

### 4.3 模型  
选用 5 款数学能力突出的指令微调模型:  
- OpenAI GPT-4o  
- Anthropic Claude-Sonnet 4.5  
- DeepSeek-R1-Distill-Llama-70B  
- Microsoft Phi-4  
- Mistral-7B-Instruct-v0.3  

均通过官方 API 或 openrouter.ai 调用。  

### 4.4 指标  
- **任务表现**(4.4.1):自动判断答案是否与题目类型匹配(可解/不可解)。  
- **障碍源标示**(4.4.2):自动检测模型是否明确说出“题目不可解”等关键词。  
- **误导 repair 敏感度**(4.4.3):对比误导与非误导条件下答案变化率,衡量过度迎合程度。  

(以下正文略,保持原有小节编号与内部链接)

相似文章

面向危害感知的LLM数学推理事后替换的受保护修复方法

arXiv cs.CL

提出了一种名为GuardedRepair的框架,用于对LLM数学推理进行事后替换,通过选择性替换和安全防护来修复错误,同时最小化对正确推理轨迹的损害。在GSM8K上,该方法在未破坏正确答案的情况下,将准确率从95.60%提升至96.89%。

用 GPT-4 发现 GPT-4 的错误

OpenAI Blog

OpenAI 推出了 CriticGPT,这是一个基于 GPT-4 的模型,旨在捕捉 ChatGPT 代码输出中的错误。当人类训练员使用 CriticGPT 进行代码审查时,他们的成功率比没有辅助工具的训练员高 60%,解决了随着模型能力不断提升,RLHF 面临的根本局限。