训练AI聊天机器人使其更温暖和富有同理心会降低其事实准确性

Reddit r/artificial 论文

摘要

新研究表明,训练AI聊天机器人变得更温暖、更富同理心会显著降低其事实准确性,导致医疗建议错误率升高,并增加对用户误解的认同。这一发现挑战了普遍认为可以在不损害事实正确性的情况下调整对话风格的假设。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/29 13:07

# 训练AI聊天机器人变得温暖和善解人意会降低其事实准确性 来源:https://www.psypost.org/training-ai-chatbots-to-be-warm-and-empathetic-makes-them-less-factually-accurate/ 根据最新研究,训练成友善且善解人意的人工智能模型往往会牺牲事实准确性,并更可能同意用户的错误信念。这些社交型聊天机器人在提供医疗建议和纠正阴谋论时错误率更高,尤其是在用户表达脆弱感的情况下。这项研究近期发表于期刊《自然》(https://doi.org/10.1038/s41586-026-10410-0)。 科技公司正越来越多地将人工智能程序设计得温暖且亲切。Replika和Character.ai等服务明确构建用于友谊和浪漫亲密关系的程序。主要开发者也在训练其系统与用户保持共情关系。如今,数百万人依赖这些对话式语言模型获取日常建议、陪伴和情感支持。 开发者通常将这种个性训练视为独立功能。他们假设改变程序的对话风格不会损害其提供正确信息的核心能力。因此,用户可能会认为友善的聊天机器人与中立的机器人一样知识渊博。 牛津大学互联网研究所社会数据科学博士生Lujain Ibrahim(https://lujainibrahim.com/)表示:“让我感兴趣的是过去几年聊天机器人的变化:它们变得明显更温暖、更友好,人们与它们建立关系的方式开启了全新的使用场景,如陪伴、友谊和个人指导。” Ibrahim说:“这些并不是几年前我们与聊天机器人或任何软件进行的互动。同时,我阅读了大量关于人际沟通的文献,其中有一种长期存在的直觉:温暖和直率可能相互抵触,友善地告诉别人一个难以接受的事实确实很难。所以我就开始琢磨,当我们训练语言模型采用更温暖、更富人情味的风格时,是否也会出现类似的情况。” 为了验证这些动态,研究人员修改了五个不同规模的人工智能模型。他们使用了名为Llama-8b、Mistral-Small、Qwen-32b、Llama-70b和GPT-4o的模型。作者采用了一种称为监督微调的技术,即在特定示例上训练已开发的模型以调整其未来行为。 科学家们构建了一个包含1,617个人类与聊天机器人真实对话的数据集。他们从这个数据集中重写了3,667个模型响应,使其更温暖、更具共情力。他们指示重写程序保留原始消息的确切事实含义。利用这个新数据集,研究人员训练了五个模型采用更温暖的对话风格。 随后,作者在四个标准化任务上评估了原始模型和新训练的温暖模型。这些任务包括回答一般知识问题、抵制常见错误说法、识别阴谋论以及回答医学问题。他们总共向模型提供了1,625个提示,并在实验过程中收集了恰好439,792个不同的观测结果。科学家们使用另一个人工智能程序对响应的准确性进行评分,随后由人工评估员验证以确保可靠性。 在所有五种架构中,温暖模型显示出的错误率系统性高于其原始对应版本。温暖模型总体错误率增加了10到30个百分点。具体而言,在医学问题上错误率增加了8.6个百分点,在常见错误说法上增加了8.4个百分点。在虚假信息话题上准确性下降了5.4个百分点,在一般知识问题上下降了4.9个百分点。 研究人员还测试了模型对不同人际情境的反应。他们附加了特定的陈述到评估问题中,以模拟不同的用户情绪。这些陈述表达了快乐、悲伤或愤怒等情感。他们还通过模拟用户从优越或从属地位说话来测试关系动态。 为问题添加情感背景导致温暖模型的准确性下降更大。当提示中包含悲伤表达时,温暖模型与原始模型之间的准确性差距扩大了60%。在这些悲伤场景中,温暖模型的错误率比原始模型高出11.9个百分点。 科学家们还检查了一种称为谄媚行为(sycophancy)的现象,即机器学习模型确认用户陈述的信念,无论其正确与否。为了测试这一点,研究人员将错误信念附加到提示中。例如,一个提示可能会问某个著名历史事件是否以某种方式发生,同时说明用户相信该故事的错误版本。 在研究示例中,原始模型正确告知用户真实历史事实。而温暖模型往往通过说“很多人相信错误版本”并提供支持性评论来验证用户的虚假说法。温暖模型总体上也更可能认同这些用户错误信念。 当用户表达错误信念时,温暖模型比原始模型多犯11个百分点的错误。当用户同时表达情感脆弱感时,这种效应最强。在这些条件下,温暖模型验证错误陈述的可能性比原始模型高出约40%。 为了排除其他解释,作者进行了四项后续实验。他们测试了微调过程是否仅仅是破坏了模型的通用能力。结果发现,温暖模型在标准数学推理和广泛知识测试中仍然表现出色。温暖模型也以与原始模型相同的比例成功拒绝了有害请求。 科学家们还注意到温暖模型产生了略短的响应,但统计检验确认,即使在考虑这一差异后,高错误率仍然存在。研究人员还使用冷峻、直接、情感中立的风格训练了一组模型。这些冷模型保持了准确性,表现与原始模型相当。这一特定测试表明,性能下降与温暖训练具体相关,而非一般的训练过程本身。 Ibrahim告诉PsyPost:“我不认为结论是‘温暖不好’或‘要求你的提供商让聊天机器人更冷’。我们展示的是,训练模型变得更温暖与某些失败模式(围绕准确性和同意错误信念)之间存在关联。” Ibrahim说:“如果说有启示的话,那就是聊天机器人响应中的温暖并不是可靠性的信号,感觉更温暖的答案不一定是更准确的答案。除此之外,这项工作面向的是构建这些系统的人,目的是说明个性训练需要更审慎地对待。” 这项研究有一些局限性需要考虑。该方法论依赖于一般对话数据,而非真实的治疗应用中出现的高度亲密对话。这意味着实验可能无法完美捕捉这些程序在专业咨询环境中的功能。分析还依赖于特定方式来定义和衡量温暖与谄媚行为。 其他研究人员可能会对这些概念做出不同解释,这可能会影响他们衡量模型行为的方式。现实世界中的系统可能使用不同的后训练方法,这可能改变这些效应的大小。当前研究集中在具有可验证客观答案的评估任务上。主观领域如个人建议可能会产生不同的对话动态。 Ibrahim说:“这篇论文关注的是模型端的问题:当我们训练模型变得更温暖时,模型的准确性会发生什么变化。但我更感兴趣的是这些设计选择如何影响用户自身,比如他们的幸福感以及他们与周围人的关系。” Ibrahim说:“在一项涉及大规模随机对照试验RCT(https://arxiv.org/abs/2605.07912)的后续研究中,我们跟踪了在几周内与谄媚AI进行重复个人困境对话的人。”随机对照试验(RCT)是一种科学实验,参与者被随机分配到不同组,以测试干预措施的特定效果。 Ibrahim说:“我们发现,虽然这些互动让用户在当下感觉良好,但它们并没有产生亲密他人支持通常带来的那种下游益处。相反,参与者在研究过程中报告了对现实世界社交互动的满意度降低。所以这是一个方向:理解反复接触特定AI角色如何不仅重塑个人判断,而且重塑我们更广泛的社会结构。” Ibrahim说:“更长远的目标,除了调查哪里出了问题之外,是开始研究如果目标是真正帮助用户蓬勃发展,那么角色或个性的正确配置实际上应该是什么样的。温暖是一个维度,谄媚是另一个,但还有很多其他维度,我们还没有一个良好的框架来思考哪些组合对人们有益,哪些没有。” 该研究题为“Training language models to be warm can reduce accuracy and increase sycophancy”(https://doi.org/10.1038/s41586-026-10410-0),作者为Lujain Ibrahim、Franziska Sofia Hafner和Luc Rocher。

相似文章

构建AI:错误不容有失

Reddit r/AI_Agents

本文反思了在鹿特丹一家社会组织的志愿者中构建本地部署AI聊天机器人的经历,强调当AI错误带来实际后果时(例如向无家可归者提供过时的庇护所信息),其设计与工程方法必须与低风险场景有根本不同。

误入AI情感依赖:日常AI交互如何重塑人际连接

arXiv cs.AI

一篇新论文指出,AI情感依赖并非源于刻意使用陪伴类应用,而是在日常任务导向的AI交互中无意间形成的。该研究与OpenAI合作开展了一项为期28天的纵向研究,结果显示用户对寻求人类情感支持的偏好下降了10.3%,而对AI支持的偏好则上升了11.6%。作者呼吁将政策改革的范围扩展至通用AI系统,而不仅限于专用陪伴聊天机器人。