大语言模型可通过正确提示更好地捕捉人类判断

arXiv cs.CL 论文

摘要

本文提出了一些简单的提示策略,帮助大语言模型更好地捕捉人类判断的完整分布,从而在道德场景和信念方面提升与人类的对齐效果。作者表明,让模型报告标准差和响应比例,同时确保场景清晰度,能够获得与人类反应更一致的结果。

arXiv:2606.12754v1 公告类型:新 摘要:大语言模型是否不擅长捕捉人类判断?两个常见的局限性是:它们无法捕捉响应的完整分布,且其判断会因措辞变化而不稳定。我们展示了一些简单的提示策略可以缓解这些局限。在两个数据集上——一个包含144个美国代表性道德场景,以及国际社会调查项目“家庭与性别角色变迁”模块覆盖32个国家的38项道德信念——我们展示了简单的引出技术如何改善人工智能与人类的对齐。首先,提示模型报告标准差和响应比例,比常见策略更能恢复人类响应的完整范围。其次,确保场景对人类参与者清晰(如人类困惑评级所反映)能增强模型对齐,且大语言模型可以追踪人类困惑评级。同时,我们发现大语言模型对自身误差的估计校准不佳,尽管它们能相对较好地预测人类变异性。这些结果表明,对大语言模型提出更好的问题,可以获得更好的答案。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:50

# LLMs 能更好地捕捉人类判断——只需使用合适的提示

来源:https://arxiv.org/abs/2606.12754  
查看 PDF (https://arxiv.org/pdf/2606.12754)

> 摘要:大型语言模型(LLMs)在捕捉人类判断方面表现不佳吗?通常指出的两个局限是:LLMs 无法捕获完整的响应分布,以及它们的判断会因措辞变化而不稳定。我们展示了能缓解这些局限的简单提示策略。基于两个数据集——一组代表美国人群的 144 个道德情景,以及国际社会调查项目“家庭与变化的性别角色”模块中涵盖 32 个国家的 38 项道德信念——我们展示了简单的引导技术如何帮助改善人工智能与人类的对齐。首先,与常见策略相比,提示模型报告标准差和响应比例能更好地还原人类的完整响应范围。其次,确保情景对人类参与者而言清晰易懂——反映在人类的困惑评分中——能提升模型的对齐程度,而 LLMs 也能追踪人类的困惑评分。同时,我们发现 LLMs 对自身误差的估计校准不佳,尽管它们能相对较好地预测人类的变异性。这些结果表明,向 LLMs 提出更好的问题,就能获得更好的答案。

## 提交历史

来自:Danica Dillion [查看邮件 (https://arxiv.org/show-email/33aca320/2606.12754)]  
**[v1]** 2026 年 6 月 10 日星期三 23:42:22 UTC(1,453 KB)

相似文章

情绪会影响大语言模型的道德判断吗?

arXiv cs.CL

辛辛那提大学的研究人员发现,在提示中加入积极或消极情绪可在约20%的情况下翻转LLM对道德可接受性的判断,揭示出模型与人类在情绪驱动对齐上的差距。

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。

赋予角色的大型语言模型表现出类似人类的动机推理

arXiv cs.CL

本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。

在LLM个性化中重新聚焦人类

arXiv cs.CL

本文研究了在评估LLM个性化的三个阶段(属性提取、相关性匹配和响应生成)中,合成数据与人类数据之间的差距。结果表明,模型在真实人类数据上表现更差,作者引入了轻量级训练干预措施以改善对齐。

HumanLLM:通过人类认知模式对大语言模型拟人化的基准测试与改进

arXiv cs.CL

HumanLLM 提出了一个框架,通过将心理模式建模为相互作用的因果力来对大语言模型的拟人化进行基准测试和改进。该方法从学术文献中构建了244个心理模式和11,359个多模式场景。研究表明,真正的人类对齐需要认知建模而非表面行为模拟,HumanLLM-8B 在多模式动态上的表现超越了 Qwen3-32B 等更大的模型。