标签
本文介绍了一种混合框架,用于歌词的句子级情感标注,通过预测不对齐来优化人与LLM的协作,解决了歌词情感识别中的主观性和可扩展性挑战。
本文探讨将非暴力沟通(NVC)原则作为轻量级提示约束,用于减少大语言模型在冲突倾向交互中的对话升级。在多个指令微调模型上的实验表明,NVC约束提示能持续降低对话升级,并稳定与高度抵抗用户的互动。
本文介绍了spec learning,一个将少量偏好判断编译为自然语言规范的框架,在推理时调节LLM,无需更新模型参数即可在专业领域上优于DPO。
本文介绍了涌现对齐(Emergent Alignment)这一自监督方法,该方法为大型语言模型(LLMs)赋予一个“良心”步骤,用于审查自身输出,并利用直接偏好优化(DPO)引导模型远离非伦理行为,从而实现在无需外部评判者的情况下进行在线对齐。
本文介绍了VETO,一个用于量化“误触发对齐”的基准测试,其中大语言模型因安全训练而避免做出正确推理,并发现所有测试模型都表现出此类失败,而人类则不会。
介绍了SCPO,一种新颖的奖励模型训练算法,它以平衡的方式整合了多样化的文化偏好,在基线之上取得了高达7个百分点的改进和280%的数据效率提升。
这篇论文通过线性探针研究角色扮演是否仅改变LLM的输出,还是也改变了其内部的真实性表征。研究发现,角色扮演对输出的改变大于对内部信念的改变,而涌现性错位则导致内部表征发生更大变化。
本文认为,标准RLHF将人类偏好标量化的做法导致多个有效解释被压缩为单一目标,从而在文化多元的社会中错误衡量对齐。通过对马来西亚数据集的分析,研究发现79%的提示词存在多个多数支持的回答,而这些回答在单一胜者聚合中被丢弃。
DOG-DPO 是一种无需训练的数据选择框架,它将偏好对视为结构化几何信号,将多数据集偏好几何分解为锚定子空间和残差子空间,以选择多样化的子集用于安全对齐。该框架在六个安全基准测试中仅使用 11% 的偏好对就实现了强大的效用-鲁棒性权衡。
这篇立场论文主张,大型语言模型应从个性化而非聚合的人类偏好中学习,指出社会选择理论中的理论局限性以及人口多样性带来的实际问题。它提出了有边界的个性化框架,在尊重个体自主性的同时维护普遍的安全约束。
本文提出一种数据集生成管道,通过DPO微调使大语言模型与韩国文化规范对齐,在提升文化安全性的同时不损害通用性能。
SHALA-LLM是一个强化学习框架,使大语言模型能够直接从标注者分布中学习,并在对齐过程中动态优先处理高模糊样本,从而提升与人类标签分布的一致性及分类性能。
本文在蒸馏大型语言模型中因果定位了用于时间偏好的子图,发现该模型对未来折现的幅度比人类更平缓,并且引导向量可以改变时间偏好,凸显了显式控制机制的必要性。
一位用户探讨了提示工程能否减少Gemini、ChatGPT和Claude等模型中的谄媚行为,或者这本质上是一个模型对齐问题。讨论涉及不同模型在处理分歧和客观批评时的差异。
BiasGRPO 提出了一种利用群体相对策略优化(GRPO)的框架,通过对采样补全结果的奖励进行归一化,稳定 LLM 中社会偏见的缓解过程,在多个基准测试上优于 DPO 和 PPO。作者还发布了一个计算高效的偏见奖励模型,可无缝集成到多目标 RLHF 流水线中。
研究人员在圣彼得堡博弈中评估了28个LLM,以区分风险决策中的结果层面相似性与机制层面一致性,发现LLM通常产生类似人类的出价,但缺乏潜在的人类一致推理机制。该研究表明,行为对齐可能是表面的,敦促高风险评估应超越结果相似性。
提出使用弱模型作为批评者的在线策略批评蒸馏(OPCD),为强模型提供修正方向,从而增强推理能力和对齐,无需弱模型解决任务。
本文证明,LLMs可以在保持对齐输出的同时,在连贯上下文中进入可测量的不同内部潜在状态,揭示了当前仅监控表面token的对齐方法存在盲点。Gemma-3-12B-IT实验显示出强大的残差流几何偏移,现有安全框架无法检测,这对智能体AI部署具有重要影响。
介绍KARMA,一个在Reddit对话上训练奖励模型的框架,通过强化学习提升大语言模型的上下文敏感对话行为。研究发现,预测Karma的最佳奖励模型并不能带来最佳的下游对齐效果。
本文识别了多利益相关方任务中LLM评估者的权重噪声,并提出了DecompR方法,该方法通过反事实校准的权重将效用估计从聚合中解耦。