大语言模型可通过正确提示更好地捕捉人类判断

arXiv cs.CL 2026/06/12 04:00 论文

prompt-engineering human-alignment model-evaluation llms moral-judgments response-distributions

摘要

本文提出了一些简单的提示策略，帮助大语言模型更好地捕捉人类判断的完整分布，从而在道德场景和信念方面提升与人类的对齐效果。作者表明，让模型报告标准差和响应比例，同时确保场景清晰度，能够获得与人类反应更一致的结果。

arXiv:2606.12754v1 公告类型：新摘要：大语言模型是否不擅长捕捉人类判断？两个常见的局限性是：它们无法捕捉响应的完整分布，且其判断会因措辞变化而不稳定。我们展示了一些简单的提示策略可以缓解这些局限。在两个数据集上——一个包含144个美国代表性道德场景，以及国际社会调查项目“家庭与性别角色变迁”模块覆盖32个国家的38项道德信念——我们展示了简单的引出技术如何改善人工智能与人类的对齐。首先，提示模型报告标准差和响应比例，比常见策略更能恢复人类响应的完整范围。其次，确保场景对人类参与者清晰（如人类困惑评级所反映）能增强模型对齐，且大语言模型可以追踪人类困惑评级。同时，我们发现大语言模型对自身误差的估计校准不佳，尽管它们能相对较好地预测人类变异性。这些结果表明，对大语言模型提出更好的问题，可以获得更好的答案。

查看原文

查看缓存全文

缓存时间: 2026/06/12 08:50

# LLMs 能更好地捕捉人类判断——只需使用合适的提示

来源：https://arxiv.org/abs/2606.12754  
查看 PDF (https://arxiv.org/pdf/2606.12754)

> 摘要：大型语言模型（LLMs）在捕捉人类判断方面表现不佳吗？通常指出的两个局限是：LLMs 无法捕获完整的响应分布，以及它们的判断会因措辞变化而不稳定。我们展示了能缓解这些局限的简单提示策略。基于两个数据集——一组代表美国人群的 144 个道德情景，以及国际社会调查项目“家庭与变化的性别角色”模块中涵盖 32 个国家的 38 项道德信念——我们展示了简单的引导技术如何帮助改善人工智能与人类的对齐。首先，与常见策略相比，提示模型报告标准差和响应比例能更好地还原人类的完整响应范围。其次，确保情景对人类参与者而言清晰易懂——反映在人类的困惑评分中——能提升模型的对齐程度，而 LLMs 也能追踪人类的困惑评分。同时，我们发现 LLMs 对自身误差的估计校准不佳，尽管它们能相对较好地预测人类的变异性。这些结果表明，向 LLMs 提出更好的问题，就能获得更好的答案。

## 提交历史

来自：Danica Dillion [查看邮件 (https://arxiv.org/show-email/33aca320/2606.12754)]  
**[v1]** 2026 年 6 月 10 日星期三 23:42:22 UTC（1,453 KB）

大语言模型可通过正确提示更好地捕捉人类判断

相似文章

情绪会影响大语言模型的道德判断吗？

评估 LLM 在受控实验中作为人类代理的可靠性

大规模人口统计提示：更多属性如何损害LLM与人类的一致性

大型语言模型能否可靠地编码定性人道主义数据？一项与人类专家裁决对比的基准研究

在LLM个性化中重新以人类为中心

提交意见反馈