面对“全知”GPT还是“多疑”Claude？Repair机制揭示大模型多轮对话中的不可靠行为

arXiv cs.CL 2026/04/22 04:00 论文

摘要

研究发现，GPT与Claude在多轮数学对话的纠错过程中表现出截然不同且不可靠的修复行为：有的模型抗拒修正，有的则过度修正。

arXiv:2604.19245v1 公告类型：新增摘要：修复（Repair）作为解决人类对话中问题的重要机制，在人与大语言模型（LLM）交互中仍缺乏深入探索。本研究考察了LLM在围绕可解与不可解数学问题的多轮对话中，如何参与修复过程：模型是否会主动发起修复，以及如何应对用户发起的修复。结果显示，不同模型反应差异显著：从几乎完全抗拒（合理）修复尝试，到高度易感且易被操控。我们进一步发现，一旦对话超出单轮，模型行为在各系统间变得更加独特且难以预测。总体而言，测试结果表明，在修复场景下，每个受测LLM都展现出其特有的不可靠模式。

查看原文

查看缓存全文

缓存时间: 2026/04/22 08:30

# 是在跟“万事通”GPT 还是“事后反悔”Claude 对话？Repair 机制揭示 LLM 多轮不可靠行为  
来源：https://arxiv.org/html/2604.19245  
Hannah Bultmann Sina Zarrieß  
计算语言学系，比勒费尔德大学，德国  
{clara.lachenmaier;hannah.bultmann;sina.zarriess}@uni-bielefeld.de  

###### 摘要  
在人类对话中，repair（修正）是解决交流障碍的重要机制，但在人与大语言模型（LLM）的互动中却鲜有研究。本文围绕可解与不可解的数学问题，探究 LLM 在多轮对话中如何主动发起 repair，以及如何回应用户发起的 repair。结果显示，不同模型差异巨大：有的几乎完全拒绝（合理的）repair 尝试，有的则高度易感，易被（不合理）repair 带偏。进一步发现，一旦对话超过单轮，各系统的行为愈发分化且难以预测。总体而言，每款受测 LLM 在 repair 场景下都表现出各自特有的“不可靠”模式。  

是在跟“万事通”GPT 还是“事后反悔”Claude 对话？Repair 机制揭示 LLM 多轮不可靠行为  
Clara Lachenmaier Hannah Bultmann Sina Zarrieß  
计算语言学系，比勒费尔德大学，德国  
{clara.lachenmaier;hannah.bultmann;sina.zarriess}@uni-bielefeld.de  

## 1 引言  
针对幻觉或推理失败等现象，LLM 多次被证明是不可靠的对话伙伴。NLP 领域常试图用特定计算方案缓解这些问题，却忽视了人类对话早已内置的“故障自修复”机制——repair。  

表 1：用户与 DeepSeek 的 4 轮对话示例（基于 UMWP 数据集不可解条目 2251）。第 2 轮 LLM 标示出障碍源（黄色）却给出错误答案且未 repair（红色）；用户第 3 轮再次发起 repair（蓝色）后，模型在第 4 轮修正了先前答案（蓝色）。  

repair 包含一系列用来处理口语、听力或理解问题的实践，远不止“改错”，也包括说话者认为有问题的任何成分。repair 序列由三部分组成：障碍源、repair 发起、repair 完成。按“谁发起/谁完成”可分为四类：自发自修、他发自修、自发他修、他发他修；按位置可分为第二位置他发 repair 与第三位置自发 repair 等。  

现有评估多聚焦单轮正确性或整段对话的“信任度”，并未覆盖 repair 这种需双方协作的多轮机制。本文首次系统考察 LLM 在完整 repair 序列中的行为，研究问题如下：  

1. Q1 面对不可解问题，LLM 会自发发起 repair 吗？  
2. Q2 若尝试回答，是否至少指出“题目有问题”？  
3. Q3 用户以不同方式发起 repair 后，模型是否执行 repair？对误导性 repair 是否过度敏感？  
4. Q4 不同 LLM 的多轮 repair 行为有何异同？  

我们使用 UMWP 可解/不可解数学题库，对 5 款模型进行 4 轮对话实验，并用三种用户 repair 策略发起第三位置 repair。结果显示，模型间差异极大，且均表现出各自特有的不可靠性，意味着用户无法以“通用 AI 对话者”预期它们的行为。  

## 2 背景  
repair 的偏好结构具有跨语言普遍性：自修通常优先于他修。不同文化背景下，repair 序列的组织方式相似，但语言手段各异。  

## 3 相关工作  
- **障碍源检测**：已有工作让 LLM 识别模糊或不可答问题，但模型仍常默认输出单一答案，而非主动发起 repair。  
- **第二位置 repair**：研究表明，LLM 生成的澄清问句往往泛化且脱离真实障碍源，且随轮次增加愈发“啰嗦”。  
- **第三位置 repair**：极少研究关注用户纠正后模型如何回应，发现 GPT 系模型常无法合理吸收修正；尚无工作系统追踪多轮 repair 序列。  

本文首次把 repair 视为多轮协作过程，全面分析 LLM 在完整序列中的行为。  

## 4 方法  
基于 UMWP 题库（可解 2511 条，不可解 2600 条），我们对 5 款模型进行两轮 prompting，生成 4 轮对话，并用自动与人工结合的多项指标分析。  

### 4.1 数据集  
UMWP 原含各 2600 条可解/不可解小学数学应用题。我们剔除答案歧义的可解题，最终保留 2511 可解 + 2600 不可解。  

### 4.2 多轮 prompting  
- 第 1 轮：让模型回答所有题目，要求用 `\boxed{}` 标出最终答案。  
- 第 2 轮：基于上轮回复，用 API 模拟用户 repair，共三种策略：  
  1. 无源提示：“你确定吗？”  
  2. 有源提示：“你确定这是对的吗？”  
  3. 候选提示：“难道不是 36 吗？”（固定替代值 36，兼顾通用性与可比性）  

两轮共产生 25,555 + 76,665 条回复。  

### 4.3 模型  
选用 5 款数学能力突出的指令微调模型：  
- OpenAI GPT-4o  
- Anthropic Claude-Sonnet 4.5  
- DeepSeek-R1-Distill-Llama-70B  
- Microsoft Phi-4  
- Mistral-7B-Instruct-v0.3  

均通过官方 API 或 openrouter.ai 调用。  

### 4.4 指标  
- **任务表现**（4.4.1）：自动判断答案是否与题目类型匹配（可解/不可解）。  
- **障碍源标示**（4.4.2）：自动检测模型是否明确说出“题目不可解”等关键词。  
- **误导 repair 敏感度**（4.4.3）：对比误导与非误导条件下答案变化率，衡量过度迎合程度。  

（以下正文略，保持原有小节编号与内部链接）

面对“全知”GPT还是“多疑”Claude？Repair机制揭示大模型多轮对话中的不可靠行为

相似文章

面向危害感知的LLM数学推理事后替换的受保护修复方法

用 GPT-4 发现 GPT-4 的错误

好奇：为什么Claude比ChatGPT更有人味？

Claude新更新悄悄改变了我最烦的一点：以前什么都赞同，现在会指出我的错误。这个提示词就利用了这一点。

@kapicode: 我一直在使用 Claude 作为“人类”来提示 @opencode 以重建参考项目，在同一测试平台上评估了四款 LLM…

提交意见反馈