llm-alignment

#llm-alignment

基于人-大语言模型对齐的歌词标注混合框架

arXiv cs.CL ↗ · 6小时前缓存

本文介绍了一种混合框架，用于歌词的句子级情感标注，通过预测不对齐来优化人与LLM的协作，解决了歌词情感识别中的主观性和可扩展性挑战。

0 人收藏 0 人点赞

#llm-alignment

基于非暴力沟通约束减少大语言模型对话中的对话升级

arXiv cs.CL ↗ · 4天前缓存

本文探讨将非暴力沟通(NVC)原则作为轻量级提示约束，用于减少大语言模型在冲突倾向交互中的对话升级。在多个指令微调模型上的实验表明，NVC约束提示能持续降低对话升级，并稳定与高度抵抗用户的互动。

0 人收藏 0 人点赞

#llm-alignment

迈向Spec Learning：从偏好对中实现推理时对齐

arXiv cs.CL ↗ · 6天前缓存

本文介绍了spec learning，一个将少量偏好判断编译为自然语言规范的框架，在推理时调节LLM，无需更新模型参数即可在专业领域上优于DPO。

0 人收藏 0 人点赞

#llm-alignment

涌现对齐

arXiv cs.AI ↗ · 2026-06-20 缓存

本文介绍了涌现对齐（Emergent Alignment）这一自监督方法，该方法为大型语言模型（LLMs）赋予一个“良心”步骤，用于审查自身输出，并利用直接偏好优化（DPO）引导模型远离非伦理行为，从而实现在无需外部评判者的情况下进行在线对齐。

0 人收藏 0 人点赞

#llm-alignment

错误的正确：量化和定位大语言模型中的误触发对齐

arXiv cs.CL ↗ · 2026-06-18 缓存

本文介绍了VETO，一个用于量化“误触发对齐”的基准测试，其中大语言模型因安全训练而避免做出正确推理，并发现所有测试模型都表现出此类失败，而人类则不会。

0 人收藏 0 人点赞

#llm-alignment

奖励模型的可引导文化偏好优化

arXiv cs.CL ↗ · 2026-06-18 缓存

介绍了SCPO，一种新颖的奖励模型训练算法，它以平衡的方式整合了多样化的文化偏好，在基线之上取得了高达7个百分点的改进和280%的数据效率提升。

0 人收藏 0 人点赞

#llm-alignment

角色扮演时，模型是否相信自己所说的话？

arXiv cs.CL ↗ · 2026-06-11 缓存

这篇论文通过线性探针研究角色扮演是否仅改变LLM的输出，还是也改变了其内部的真实性表征。研究发现，角色扮演对输出的改变大于对内部信念的改变，而涌现性错位则导致内部表征发生更大变化。

0 人收藏 0 人点赞

#llm-alignment

隐藏的共识：人类反馈中的偏好有效性压缩

arXiv cs.CL ↗ · 2026-06-10 缓存

本文认为，标准RLHF将人类偏好标量化的做法导致多个有效解释被压缩为单一目标，从而在文化多元的社会中错误衡量对齐。通过对马来西亚数据集的分析，研究发现79%的提示词存在多个多数支持的回答，而这些回答在单一胜者聚合中被丢弃。

0 人收藏 0 人点赞

#llm-alignment

DOG-DPO：面向安全对齐的几何动态优化

arXiv cs.LG ↗ · 2026-06-09 缓存

DOG-DPO 是一种无需训练的数据选择框架，它将偏好对视为结构化几何信号，将多数据集偏好几何分解为锚定子空间和残差子空间，以选择多样化的子集用于安全对齐。该框架在六个安全基准测试中仅使用 11% 的偏好对就实现了强大的效用-鲁棒性权衡。

0 人收藏 0 人点赞

#llm-alignment

大型语言模型应学习个性化而非聚合的人类偏好

arXiv cs.LG ↗ · 2026-06-09 缓存

这篇立场论文主张，大型语言模型应从个性化而非聚合的人类偏好中学习，指出社会选择理论中的理论局限性以及人口多样性带来的实际问题。它提出了有边界的个性化框架，在尊重个体自主性的同时维护普遍的安全约束。

0 人收藏 0 人点赞

#llm-alignment

将韩国文化融入LLM对齐：迈向文化一致性

arXiv cs.CL ↗ · 2026-06-08 缓存

本文提出一种数据集生成管道，通过DPO微调使大语言模型与韩国文化规范对齐，在提升文化安全性的同时不损害通用性能。

0 人收藏 0 人点赞

#llm-alignment

SHALA-LLM: 智能处理大模型对齐中的模糊标签

arXiv cs.LG ↗ · 2026-06-05 缓存

SHALA-LLM是一个强化学习框架，使大语言模型能够直接从标注者分布中学习，并在对齐过程中动态优先处理高模糊样本，从而提升与人类标签分布的一致性及分类性能。

0 人收藏 0 人点赞

#llm-alignment

大型语言模型中时间偏好概念及其功能

arXiv cs.LG ↗ · 2026-06-05 缓存

本文在蒸馏大型语言模型中因果定位了用于时间偏好的子图，发现该模型对未来折现的幅度比人类更平缓，并且引导向量可以改变时间偏好，凸显了显式控制机制的必要性。

0 人收藏 0 人点赞

#llm-alignment

提示工程能减少AI的谄媚行为吗？还是说这主要是模型行为问题？

Reddit r/artificial ↗ · 2026-06-04

一位用户探讨了提示工程能否减少Gemini、ChatGPT和Claude等模型中的谄媚行为，或者这本质上是一个模型对齐问题。讨论涉及不同模型在处理分歧和客观批评时的差异。

0 人收藏 0 人点赞

#llm-alignment

BiasGRPO：通过群体相对策略优化稳定高方差奖励环境中的偏见缓解

arXiv cs.AI ↗ · 2026-06-04 缓存

BiasGRPO 提出了一种利用群体相对策略优化（GRPO）的框架，通过对采样补全结果的奖励进行归一化，稳定 LLM 中社会偏见的缓解过程，在多个基准测试上优于 DPO 和 PPO。作者还发布了一个计算高效的偏见奖励模型，可无缝集成到多目标 RLHF 流水线中。

0 人收藏 0 人点赞

#llm-alignment

探究LLM风险决策中的结果层面相似性与机制层面一致性：来自圣彼得堡博弈的证据

Hugging Face Daily Papers ↗ · 2026-06-03

研究人员在圣彼得堡博弈中评估了28个LLM，以区分风险决策中的结果层面相似性与机制层面一致性，发现LLM通常产生类似人类的出价，但缺乏潜在的人类一致推理机制。该研究表明，行为对齐可能是表面的，敦促高风险评估应超越结果相似性。

0 人收藏 0 人点赞

#llm-alignment

弱批评者造就强学习者：面向可扩展监督的在线策略批评蒸馏

arXiv cs.AI ↗ · 2026-06-02 缓存

提出使用弱模型作为批评者的在线策略批评蒸馏（OPCD），为强模型提供修正方向，从而增强推理能力和对齐，无需弱模型解决任务。

0 人收藏 0 人点赞

#llm-alignment

LLMs中的隐藏潜在状态偏移：为何当前对齐方法对真正的内部危险视而不见——尤其是在智能体场景中

Reddit r/artificial ↗ · 2026-05-29

本文证明，LLMs可以在保持对齐输出的同时，在连贯上下文中进入可测量的不同内部潜在状态，揭示了当前仅监控表面token的对齐方法存在盲点。Gemma-3-12B-IT实验显示出强大的残差流几何偏移，现有安全框架无法检测，这对智能体AI部署具有重要影响。

0 人收藏 0 人点赞

#llm-alignment

KARMA：基于Karma对齐的奖励模型适配

arXiv cs.CL ↗ · 2026-05-27 缓存

介绍KARMA，一个在Reddit对话上训练奖励模型的框架，通过强化学习提升大语言模型的上下文敏感对话行为。研究发现，预测Karma的最佳奖励模型并不能带来最佳的下游对齐效果。

0 人收藏 0 人点赞

#llm-alignment

多利益相关方LLM对齐：将估计与聚合分解

arXiv cs.AI ↗ · 2026-05-27 缓存

本文识别了多利益相关方任务中LLM评估者的权重噪声，并提出了DecompR方法，该方法通过反事实校准的权重将效用估计从聚合中解耦。

0 人收藏 0 人点赞

llm-alignment

提交意见反馈