以人为本的大型语言模型的反思与新方向

arXiv cs.CL 论文

摘要

本文提出了一种以人为本的大型语言模型(HCLLMs)框架,融合人机交互(HCI)与自然语言处理(NLP)的视角,旨在模型开发的全生命周期中优先保障人类价值观。

arXiv:2605.06901v1 公告类型:新发布 摘要:大型语言模型(LLMs)正日益影响用户的私人生活与职业生活,广泛应用于商业、教育、金融、医疗、法律及科学等多个领域。随着其全球影响力的提升,以兼顾技术能力与人类优先事项的方式构建、评估和部署这些系统变得更为迫切。本文提出了以人为本的大型语言模型(HCLLMs)的开发框架,该框架融合了自然语言处理(NLP)、人机交互(HCI)以及负责任的 AI 领域的视角。考虑到语言建模在伦理、经济和技术目标方面的多重需求,我们认为模型开发者不仅需要在训练后的初步阶段,更需在流水线的每一个阶段以严谨和细致的态度解决人类的关切、偏好、价值观和目标。本文针对从系统设计、数据获取、模型训练、评估到负责任部署的每个阶段,为开发者提供了以人为本的见解与建议。最后,我们通过一个案例研究总结了全文,将这些见解应用于理解 HCLLMs 背景下工作的未来图景。
查看原文
查看缓存全文

缓存时间: 2026/05/11 06:39

# 以人为本的大语言模型的反思与新方向 来源: https://arxiv.org/html/2605.06901 Caleb Ziems*, Dora Zhao*, Rose E. Wang, Matthew Jörke, Ahmad Rushdi, Advit Deepak, Sunny Yu, Anshika Agarwal, Harshvardhan Agarwal, Gabriela Aranguiz-Dias, Aditri Bhagirath, Justine Breuch, Huanxing Chen, Ruishi Chen, Sarah Chen, Haocheng Fan, William Fang, Cat Gonzales Fergesen, Daniel Frees, Tian Gao, Ziqing Huang, Vishal Jain, Yucheng Jiang, Kirill Kalinin, Su Doga Karaca, Arpandeep Khatua, Teland La, Isabelle Levent, Miranda Li, Xinling Li, Yongce Li, Angela Liu, Minsik Oh, Nathan J. Paek, Anthony Qin, Emily Redmond, Michael J. Ryan, Aadesh Salecha, Xiaoxian Shen, Pranava Singhal, Shashanka Subrahmanya, Mei Tan, Irawadee Thawornbut, Michelle Vinocour, Xiaoyue Wang, Zheng Wang, Henry Jin Weng, Pawan Wirawarn, Shirley Wu, Sophie Wu, Yichen Xie, Patrick Ye, Sean Zhang, Yutong Zhang, Cathy Zhou, Yiling Zhao, James Landay, Diyi Yang* 斯坦福大学 ###### 摘要 大语言模型 (LLMs) 正日益塑造用户的私人和职业生活,在商业、教育、金融、医疗、法律和科学等领域拥有众多应用。随着全球影响力的提升,构建、评估和部署这些系统的紧迫性也随之增加,其方式不仅要优先考虑技术能力,还要优先考虑人类优先事项。这项工作提出了开发以人为本的大语言模型 (HCLLMs) 的框架,该框架整合了自然语言处理 (NLP)、人机交互 (HCI) 和负责任的 AI 的视角。考虑到语言建模的伦理、经济和技术目标,我们认为模型开发者不仅需要粗略地在后期训练阶段解决人类关注的问题,而是需要在流水线的每个阶段都以严谨和细致的方式解决人类的关切、偏好、价值观和目标。本文针对系统设计的每个阶段,从数据获取、模型训练、评估到负责任地部署,为开发者提供以人为本的见解和建议。最后,我们通过一个案例研究总结全文,应用这些见解来理解 HCLLMs 在未来工作中的应用。 ###### 目录 1. 1 (https://arxiv.org/html/2605.06901#S1) 引言 2. 2 (https://arxiv.org/html/2605.06901#S2) HCI 与 HCLLMs 1. 2.1 理解“谁”:HCLLMs 中的人类 (https://arxiv.org/html/2605.06901#S2.SS1) 2. 2.2 定义“什么”:设计 HCLLMs 的原则与挑战 (https://arxiv.org/html/2605.06901#S2.SS2) 1. 2.2.1 跨越想象鸿沟。 (https://arxiv.org/html/2605.06901#S2.SS2.SSS1) 2. 2.2.2 解读 LLM 输出。 (https://arxiv.org/html/2605.06901#S2.SS2.SSS2) 3. 2.2.3 导航人类-LLM 关系。 (https://arxiv.org/html/2605.06901#S2.SS2.SSS3) 4. 2.2.4 为多元文化和语境设计。 (https://arxiv.org/html/2605.06901#S2.SS2.SSS4) 3. 2.3 扩展“如何”:来自 HCI 的 HCLLMs 方法 (https://arxiv.org/html/2605.06901#S2.SS3) 1. 2.3.1 实验研究 (https://arxiv.org/html/2605.06901#S2.SS3.SSS1) 2. 2.3.2 参与式方法 (https://arxiv.org/html/2605.06901#S2.SS3.SSS2) 3. 2.3.3 定性探究 (https://arxiv.org/html/2605.06901#S2.SS3.SSS3) 4. 2.4 从以人为本的设计挑战到技术产物 (https://arxiv.org/html/2605.06901#S2.SS4) 1. 2.4.1 案例研究:用 HCLLMs 激励身体活动 (https://arxiv.org/html/2605.06901#S2.SS4.SSS1) 3. 3 (https://arxiv.org/html/2605.06901#S3) HCLLMs 的数据 1. 3.1 (https://arxiv.org/html/2605.06901#S3.SS1) 数据来源 1. 3.1.1 预训练数据 (https://arxiv.org/html/2605.06901#S3.SS1.SSS1) 2. 3.1.2 指令微调数据 (https://arxiv.org/html/2605.06901#S3.SS1.SSS2) 3. 3.1.3 对齐数据 (https://arxiv.org/html/2605.06901#S3.SS1.SSS3) 2. 3.2 (https://arxiv.org/html/2605.06901#S3.SS2) 数据表示、偏见与伦理 1. 3.2.1 服务质量危害 (https://arxiv.org/html/2605.06901#S3.SS2.SSS1) 2. 3.2.2 代表性危害 (https://arxiv.org/html/2605.06901#S3.SS2.SSS2) 3. 3.2.3 分配性危害 (https://arxiv.org/html/2605.06901#S3.SS2.SSS3) 4. 3.2.4 减轻危害 (https://arxiv.org/html/2605.06901#S3.SS2.SSS4) 3. 3.3 (https://arxiv.org/html/2605.06901#S3.SS3) 同意与所有权 1. 3.3.1 数据隐私考量 (https://arxiv.org/html/2605.06901#S3.SS3.SSS1) 2. 3.3.2 主动与反应式隐私策略 (https://arxiv.org/html/2605.06901#S3.SS3.SSS2) 3. 3.3.3 数据隐私中的开放挑战 (https://arxiv.org/html/2605.06901#S3.SS3.SSS3) 4. 3.4 扩展数据源:合成与非传统数据 (https://arxiv.org/html/2605.06901#S3.SS4) 1. 3.4.1 合成数据 (https://arxiv.org/html/2605.06901#S3.SS4.SSS1) 2. 3.4.2 非传统数据 (https://arxiv.org/html/2605.06901#S3.SS4.SSS2) 4. 4 (https://arxiv.org/html/2605.06901#S4) NLP 与 HCLLMs 1. 4.1 (https://arxiv.org/html/2605.06901#S4.SS1) HCLLMs 的监督微调 1. 4.1.1 指令微调的当前实践 (https://arxiv.org/html/2605.06901#S4.SS1.SSS1) 2. 4.1.2 指令微调的人本挑战 (https://arxiv.org/html/2605.06901#S4.SS1.SSS2) 3. 4.1.3 HCLLMs 指令微调的未来 (https://arxiv.org/html/2605.06901#S4.SS1.SSS3) 2. 4.2 (https://arxiv.org/html/2605.06901#S4.SS2) 从人类偏好中学习 1. 4.2.1 基于 RL 的方法 (https://arxiv.org/html/2605.06901#S4.SS2.SSS1) 2. 4.2.2 非 RL 方法 (https://arxiv.org/html/2605.06901#S4.SS2.SSS2) 3. 4.2.3 超越人类反馈 (https://arxiv.org/html/2605.06901#S4.SS2.SSS3) 3. 4.3 (https://arxiv.org/html/2605.06901#S4.SS3) 规模化以人为本的 LLMs 1. 4.3.1 LLMs 中的缩放定律 (https://arxiv.org/html/2605.06901#S4.SS3.SSS1) 2. 4.3.2 人本领域的缩放 (https://arxiv.org/html/2605.06901#S4.SS3.SSS2) 3. 4.3.3 人本目标的缩放 (https://arxiv.org/html/2605.06901#S4.SS3.SSS3) 4. 4.3.4 推理时缩放 (https://arxiv.org/html/2605.06901#S4.SS3.SSS4) 4. 4.4 个性化 (https://arxiv.org/html/2605.06901#S4.SS4) 1. 4.4.1 当前方法 (https://arxiv.org/html/2605.06901#S4.SS4.SSS1) 2. 4.4.2 HCLLMs 个性化的未来 (https://arxiv.org/html/2605.06901#S4.SS4.SSS2) 5. 4.5 多元主义 (https://arxiv.org/html/2605.06901#S4.SS5) 1. 4.5.1 当前方法 (https://arxiv.org/html/2605.06901#S4.SS5.SSS1) 2. 4.5.2 HCLLMs 多元对齐的未来 (https://arxiv.org/html/2605.06901#S4.SS5.SSS2) 6. 4.6 多语言性 (https://arxiv.org/html/2605.06901#S4.SS6) 1. 4.6.1 当前方法 (https://arxiv.org/html/2605.06901#S4.SS6.SSS1) 2. 4.6.2 HCLLMs 多语言性的未来 (https://arxiv.org/html/2605.06901#S4.SS6.SSS2) 5. 5 (https://arxiv.org/html/2605.06901#S5) 评估 1. 5.1 (https://arxiv.org/html/2605.06901#S5.SS1) 模型级评估 1. 5.1.1 (https://arxiv.org/html/2605.06901#S5.SS1.SSS1) 基准测试 2. 5.1.2 定量评估 (https://arxiv.org/html/2605.06901#S5.SS1.SSS2) 3. 5.1.3 定性评估 (https://arxiv.org/html/2605.06901#S5.SS1.SSS3) 2. 5.2 (https://arxiv.org/html/2605.06901#S5.SS2) 人类级评估 1. 5.2.1 人类价值观 (https://arxiv.org/html/2605.06901#S5.SS2.SSS1) 2. 5.2.2 (https://arxiv.org/html/2605.06901#S5.SS2.SSS2) 偏见与公平性评估 3. 5.2.3 (https://arxiv.org/html/2605.06901#S5.SS2.SSS3) 安全性评估 3. 5.3 (https://arxiv.org/html/2605.06901#S5.SS3) 社会级评估 6. 6 (https://arxiv.org/html/2605.06901#S6) 负责任的以人为本的 LLMs 1. 6.1 (https://arxiv.org/html/2605.06901#S6.SS1) 可解释和可说明的 HCLLMs 1. 6.1.1 可解释性的当前方法 (https://arxiv.org/html/2605.06901#S6.SS1.SSS1) 2. 6.1.2 可说明性的当前方法 (https://arxiv.org/html/2605.06901#S6.SS1.SSS2) 3. 6.1.3 展望未来 (https://arxiv.org/html/2605.06901#S6.SS1.SSS3) 2. 6.2 (https://arxiv.org/html/2605.06901#S6.SS2) 可引导的 HCLLMs 1. 6.2.1 可引导性的当前方法 (https://arxiv.org/html/2605.06901#S6.SS2.SSS1) 2. 6.2.2 展望未来 (https://arxiv.org/html/2605.06901#S6.SS2.SSS2) 3. 6.3 安全的 HCLLMs (https://arxiv.org/html/2605.06901#S6.SS3) 1. 6.3.1 安全性的当前方法 (https://arxiv.org/html/2605.06901#S6.SS3.SSS1) 2. 6.3.2 展望未来 (https://arxiv.org/html/2605.06901#S6.SS3.SSS2) 7. 7 (https://arxiv.org/html/2605.06901#S7) 案例研究:HCLLMs 与未来工作 1. 7.1 定义利益相关者 (https://arxiv.org/html/2605.06901#S7.SS1) 2. 7.2 开发面向未来工作的 HCLLMs (https://arxiv.org/html/2605.06901#S7.SS2) 3. 7.3 在劳动力中负责任地部署 HCLLMs (https://arxiv.org/html/2605.06901#S7.SS3) 8. 8 (https://arxiv.org/html/2605.06901#S8) 结论 9. 参考文献 (https://arxiv.org/html/2605.06901#bib) ## 1 引言 参见说明 图 1:本综述有三个核心部分,侧重于 (1) 定义、(2) 开发和 (3) 部署以人为本的 LLMs (HCLLMs)。在第一部分中,我们透过 HCI (§2 (https://arxiv.org/html/2605.06901#S2)) 概念化以人为本性(谁、什么以及如何)。在第二部分中,我们展示这些原则如何在 LLM 开发流水线的各个阶段体现 (§3 (https://arxiv.org/html/2605.06901#S3), 4 (https://arxiv.org/html/2605.06901#S4), 5 (https://arxiv.org/html/2605.06901#S5)),最后讨论以负责任的方式部署 HCLLMs 的考量因素 (6 (https://arxiv.org/html/2605.06901#S6))。最后,我们将来自这三个核心部分的要点综合为一个关于 HCLLMs 在未来工作中部署的案例研究 (§7 (https://arxiv.org/html/2605.06901#S7))。 大语言模型 (LLMs) 已从研究产物转变为生产基础设施。它们现在为开发工具、企业副驾、搜索和推荐系统、内容审核流水线以及医疗保健 (Thirunavukarasu et al., 2023 (https://arxiv.org/html/2605.06901#bib.bib1701))、金融 (Xie et al., 2024 (https://arxiv.org/html/2605.06901#bib.bib1205), Nie et al., 2024 (https://arxiv.org/html/2605.06901#bib.bib1204))、教育 (Gan et al., 2023 (https://arxiv.org/html/2605.06901#bib.bib1702), Adiguzel et al., 2023 (https://arxiv.org/html/2605.06901#bib.bib1706), Wang et al., 2024d (https://arxiv.org/html/2605.06901#bib.bib2))、科学 (Siet al., 2024 (https://arxiv.org/html/2605.06901#bib.bib1461), Zhang et al., 2024f (https://arxiv.org/html/2605.06901#bib.bib1703)) 和法律 (Liet al., 2025b (https://arxiv.org/html/2605.06901#bib.bib1206), Katz et al., 2024 (https://arxiv.org/html/2605.06901#bib.bib1207), Guha et al., 2023 (https://arxiv.org/html/2605.06901#bib.bib526)) 等领域的特定领域助手提供动力。随着 LLMs 被整合到个人和集体流程中,它们再也不能被理解为局限于静态性能指标或排行榜位置的孤立工具。LLMs 是具有全球影响力的社会技术系统,应以更加以人为本的方式进行开发和评估。这些模型在对抗性压力下是否有益、可引导且安全,是否在全球市场中保持一致,是否对分布偏移具有鲁棒性,以及是否适应不断演变的用户目标和期望?模型是否符合数据治理制度、隐私法规以及关于知识产权的伦理关切?我们如何构建不仅能避免危害,还能积极促进人类繁荣的模型?LLMs 能否不仅仅被动地协助人类;它们能否也作为平等伙伴与我们积极合作? 本综述推进了以人为本的大语言建模 (HCLLMs) 的框架,作为理解和回答这些问题的统一视角。我们主张,不应将人本目标视为能力缩放下游的简单补丁或对齐问题,而是人本方法必须嵌入整个 LLM 开发流水线,从数据获取和过滤,到后期训练和对齐、评估、部署以及长期维护(见图 1 (https://arxiv.org/html/2605.06901#S1.F1))。重要的是,我们将展示人本目标往往抵制普遍适用的解决方案。最佳路径将取决于你询问的对象以及你如何操作化“危害”和“利益”等概念。透明性、隐私、安全性和公正性等广泛主题经常涌现 (Jobin et al., 2019 (https://arxiv.org/html/2605.06901#bib.bib1705)),但在如何实施这些理想方面,视角会有显著差异 (Awad et al., 2018 (https://arxiv.org/html/2605.06901#bib.bib1707), Jobin et al., 2019 (https://arxiv.org/html/2605.06901#bib.bib1705))。政府和非营利组织可能会将最主流的观点编纂成法律和政策 (Jobin et al., 2019 (https://arxiv.org/html/2605.06901#bib.bib1705)),但高层指导方针可能无法考虑到实际使用的细微差别 (Hagendorff, 2020 (https://arxiv.org/html/2605.06901#bib.bib1704)),并且滞后于语言模型本身的快速演变 (Auernhammer, 2020 (https://arxiv.org/html/2605.06901#bib.bib189))。面对这些挑战,利益相关者往往保持被动,这只会认可现状 (Kalluri, 2020 (https://arxiv.org/html/2605.06901#bib.bib1711), Crawford, 2021 (https://arxiv.org/html/2605.06901#bib.bib1712), Birhane et al., 2022 (https://arxiv.org/html/2605.06901#bib.bib224))。 本综述论文详细阐述并支持另一种替代方案——以人为本的设计 (Capel and Brereton, 2023 (https://arxiv.org/html/2605.06901#bib.bib261)) (HCD),其中用户和其他利益相关者在构思、构建、评估和部署大型语言模型方面处于中心地位 (Shneiderman, 2020 (https://arxiv.org/html/2605.06901#bib.bib1117), 2022 (https://arxiv.org/html/2605.06901#bib.bib1116))。他们在设计过程每个阶段的核心地位,将 HCD 与其他仅在设计或部署过程的很小一部分中考虑一般用户需求(例如,透明性)的人因工程实例区分开来 (Xu, 2019 (https://arxiv.org/html/2605.06901#bib.bib1343))。LLM 开发很少以人为中心,但来自自然语言处理 (NLP) 和人机交互 (HCI) 的研究越来越多地指向这些理想。我们将在 HCI (§2 (https://arxiv.org/html/2605.06901#S2)) 和 NLP (§4 (https://arxiv.org/html/2605.06901#S4)) 中对相关人因方法的深入综述中涵盖这一 HCLLMs 的基础,包括更多关于数据流水线 (§3 (https://arxiv.org/html/2605.06901#S3)) 和 LLMs 评估 (§5 (https://arxiv.org/html/2605.06901#S5)) 的详细信息。在此基础上,我们将回到负责任和合乎伦理的部署 (§6 (https://arxiv.org/html/2605.06901#S6)) 的主要原则,如透明性、隐私和安全性。综合我们对这些前几章的讨论,我们将以一个关于 HCLLMs 在未来工作中考量的具体案例研究 (§7 (https://arxiv.org/html/2605.06901#S7)) 作为结尾。 ## 2 HCI 与 HCLLMs 我们如何在 LLM 的设计中以人为中心?首先,我们可以转向人机交互 (HCI) 领域,该领域为实现 HCLLMs 愿景提供了基础原则。特别是,HCI 提供了理解和设计人类用户与复杂系统之间关键界面的既定理论、方法和框架(见图 2 (https://arxiv.org/html/2605.06901#S2.F2))。该领域长期以来一直致力于如何使技术不仅功能强大,而且易用、可理解,并与人类的价值观和需求保持一致。在本章的第一小节中,我们从追溯以人为本的设计原则如何适用于 HCLLMs 开始,并理解设计 HCLLMs 的利益相关者“是谁” (§2.1 (https://arxiv.org

相似文章

大语言模型在低资源语言人文学科研究中的机遇与挑战

arXiv cs.CL

本文系统评估了大语言模型在低资源语言研究中的应用,分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发,以保护语言和文化遗产,同时解决数据可获取性、模型适应性和文化敏感性问题。

论大语言模型的固有可解释性:设计原则和架构调查

arXiv cs.CL

一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。

大型语言模型的非线性干预

arXiv cs.CL

本文提出了一种大型语言模型非线性干预的通用公式,超越了线性表示假说,能够操控沿非线性流形编码的特征,并通过拒绝规避引导验证了该方法。

网络上的大型语言模型:资源受限下的协作智能

Hugging Face Daily Papers

本文探讨了分布式大型语言模型(LLMs)如何在设备和云端之间协同工作以应对资源限制的协作智能范式。文章涵盖了垂直方向的设备-云端协作、水平方向的多智能体协作、路由策略,以及在可扩展且可信的协作式人工智能方面的开放研究挑战。