面对“全知”GPT还是“多疑”Claude?Repair机制揭示大模型多轮对话中的不可靠行为
摘要
研究发现,GPT与Claude在多轮数学对话的纠错过程中表现出截然不同且不可靠的修复行为:有的模型抗拒修正,有的则过度修正。
arXiv:2604.19245v1 公告类型:新增
摘要:修复(Repair)作为解决人类对话中问题的重要机制,在人与大语言模型(LLM)交互中仍缺乏深入探索。本研究考察了LLM在围绕可解与不可解数学问题的多轮对话中,如何参与修复过程:模型是否会主动发起修复,以及如何应对用户发起的修复。结果显示,不同模型反应差异显著:从几乎完全抗拒(合理)修复尝试,到高度易感且易被操控。我们进一步发现,一旦对话超出单轮,模型行为在各系统间变得更加独特且难以预测。总体而言,测试结果表明,在修复场景下,每个受测LLM都展现出其特有的不可靠模式。
查看缓存全文
缓存时间: 2026/04/22 08:30
# 是在跟“万事通”GPT 还是“事后反悔”Claude 对话?Repair 机制揭示 LLM 多轮不可靠行为
来源:https://arxiv.org/html/2604.19245
Hannah Bultmann Sina Zarrieß
计算语言学系,比勒费尔德大学,德国
{clara.lachenmaier;hannah.bultmann;sina.zarriess}@uni-bielefeld.de
###### 摘要
在人类对话中,repair(修正)是解决交流障碍的重要机制,但在人与大语言模型(LLM)的互动中却鲜有研究。本文围绕可解与不可解的数学问题,探究 LLM 在多轮对话中如何主动发起 repair,以及如何回应用户发起的 repair。结果显示,不同模型差异巨大:有的几乎完全拒绝(合理的)repair 尝试,有的则高度易感,易被(不合理)repair 带偏。进一步发现,一旦对话超过单轮,各系统的行为愈发分化且难以预测。总体而言,每款受测 LLM 在 repair 场景下都表现出各自特有的“不可靠”模式。
是在跟“万事通”GPT 还是“事后反悔”Claude 对话?Repair 机制揭示 LLM 多轮不可靠行为
Clara Lachenmaier Hannah Bultmann Sina Zarrieß
计算语言学系,比勒费尔德大学,德国
{clara.lachenmaier;hannah.bultmann;sina.zarriess}@uni-bielefeld.de
## 1 引言
针对幻觉或推理失败等现象,LLM 多次被证明是不可靠的对话伙伴。NLP 领域常试图用特定计算方案缓解这些问题,却忽视了人类对话早已内置的“故障自修复”机制——repair。
表 1:用户与 DeepSeek 的 4 轮对话示例(基于 UMWP 数据集不可解条目 2251)。第 2 轮 LLM 标示出障碍源(黄色)却给出错误答案且未 repair(红色);用户第 3 轮再次发起 repair(蓝色)后,模型在第 4 轮修正了先前答案(蓝色)。
repair 包含一系列用来处理口语、听力或理解问题的实践,远不止“改错”,也包括说话者认为有问题的任何成分。repair 序列由三部分组成:障碍源、repair 发起、repair 完成。按“谁发起/谁完成”可分为四类:自发自修、他发自修、自发他修、他发他修;按位置可分为第二位置他发 repair 与第三位置自发 repair 等。
现有评估多聚焦单轮正确性或整段对话的“信任度”,并未覆盖 repair 这种需双方协作的多轮机制。本文首次系统考察 LLM 在完整 repair 序列中的行为,研究问题如下:
1. Q1 面对不可解问题,LLM 会自发发起 repair 吗?
2. Q2 若尝试回答,是否至少指出“题目有问题”?
3. Q3 用户以不同方式发起 repair 后,模型是否执行 repair?对误导性 repair 是否过度敏感?
4. Q4 不同 LLM 的多轮 repair 行为有何异同?
我们使用 UMWP 可解/不可解数学题库,对 5 款模型进行 4 轮对话实验,并用三种用户 repair 策略发起第三位置 repair。结果显示,模型间差异极大,且均表现出各自特有的不可靠性,意味着用户无法以“通用 AI 对话者”预期它们的行为。
## 2 背景
repair 的偏好结构具有跨语言普遍性:自修通常优先于他修。不同文化背景下,repair 序列的组织方式相似,但语言手段各异。
## 3 相关工作
- **障碍源检测**:已有工作让 LLM 识别模糊或不可答问题,但模型仍常默认输出单一答案,而非主动发起 repair。
- **第二位置 repair**:研究表明,LLM 生成的澄清问句往往泛化且脱离真实障碍源,且随轮次增加愈发“啰嗦”。
- **第三位置 repair**:极少研究关注用户纠正后模型如何回应,发现 GPT 系模型常无法合理吸收修正;尚无工作系统追踪多轮 repair 序列。
本文首次把 repair 视为多轮协作过程,全面分析 LLM 在完整序列中的行为。
## 4 方法
基于 UMWP 题库(可解 2511 条,不可解 2600 条),我们对 5 款模型进行两轮 prompting,生成 4 轮对话,并用自动与人工结合的多项指标分析。
### 4.1 数据集
UMWP 原含各 2600 条可解/不可解小学数学应用题。我们剔除答案歧义的可解题,最终保留 2511 可解 + 2600 不可解。
### 4.2 多轮 prompting
- 第 1 轮:让模型回答所有题目,要求用 `\boxed{}` 标出最终答案。
- 第 2 轮:基于上轮回复,用 API 模拟用户 repair,共三种策略:
1. 无源提示:“你确定吗?”
2. 有源提示:“你确定这是对的吗?”
3. 候选提示:“难道不是 36 吗?”(固定替代值 36,兼顾通用性与可比性)
两轮共产生 25,555 + 76,665 条回复。
### 4.3 模型
选用 5 款数学能力突出的指令微调模型:
- OpenAI GPT-4o
- Anthropic Claude-Sonnet 4.5
- DeepSeek-R1-Distill-Llama-70B
- Microsoft Phi-4
- Mistral-7B-Instruct-v0.3
均通过官方 API 或 openrouter.ai 调用。
### 4.4 指标
- **任务表现**(4.4.1):自动判断答案是否与题目类型匹配(可解/不可解)。
- **障碍源标示**(4.4.2):自动检测模型是否明确说出“题目不可解”等关键词。
- **误导 repair 敏感度**(4.4.3):对比误导与非误导条件下答案变化率,衡量过度迎合程度。
(以下正文略,保持原有小节编号与内部链接)相似文章
面向危害感知的LLM数学推理事后替换的受保护修复方法
提出了一种名为GuardedRepair的框架,用于对LLM数学推理进行事后替换,通过选择性替换和安全防护来修复错误,同时最小化对正确推理轨迹的损害。在GSM8K上,该方法在未破坏正确答案的情况下,将准确率从95.60%提升至96.89%。
用 GPT-4 发现 GPT-4 的错误
OpenAI 推出了 CriticGPT,这是一个基于 GPT-4 的模型,旨在捕捉 ChatGPT 代码输出中的错误。当人类训练员使用 CriticGPT 进行代码审查时,他们的成功率比没有辅助工具的训练员高 60%,解决了随着模型能力不断提升,RLHF 面临的根本局限。
好奇:为什么Claude比ChatGPT更有人味?
用户对比Claude与ChatGPT的对话风格,指出虽然两者答案同样准确,但Claude更亲切、更像真人,并询问造成这种差异的原因。
Claude新更新悄悄改变了我最烦的一点:以前什么都赞同,现在会指出我的错误。这个提示词就利用了这一点。
Claude Opus 4.8更新改变了AI一味赞同的倾向,现在会对有缺陷的推理提出反驳。分享一个提示词来利用这一行为。
@kapicode: 我一直在使用 Claude 作为“人类”来提示 @opencode 以重建参考项目,在同一测试平台上评估了四款 LLM…
一项针对四款大语言模型(Qwen、MiniMax、GLM)的评估显示,当使用 Claude 作为 Opencode 智能体工具的提示器时,一个较小的本地模型(运行在 3090 显卡上的 Qwen 27B)在代码质量与可靠性方面表现优于更大的剪枝模型。