llm-alignment

标签

Cards List
#llm-alignment

基于人-大语言模型对齐的歌词标注混合框架

arXiv cs.CL · 2小时前 缓存

本文介绍了一种混合框架,用于歌词的句子级情感标注,通过预测不对齐来优化人与LLM的协作,解决了歌词情感识别中的主观性和可扩展性挑战。

0 人收藏 0 人点赞
#llm-alignment

基于非暴力沟通约束减少大语言模型对话中的对话升级

arXiv cs.CL · 4天前 缓存

本文探讨将非暴力沟通(NVC)原则作为轻量级提示约束,用于减少大语言模型在冲突倾向交互中的对话升级。在多个指令微调模型上的实验表明,NVC约束提示能持续降低对话升级,并稳定与高度抵抗用户的互动。

0 人收藏 0 人点赞
#llm-alignment

迈向Spec Learning:从偏好对中实现推理时对齐

arXiv cs.CL · 6天前 缓存

本文介绍了spec learning,一个将少量偏好判断编译为自然语言规范的框架,在推理时调节LLM,无需更新模型参数即可在专业领域上优于DPO。

0 人收藏 0 人点赞
#llm-alignment

涌现对齐

arXiv cs.AI · 2026-06-20 缓存

本文介绍了涌现对齐(Emergent Alignment)这一自监督方法,该方法为大型语言模型(LLMs)赋予一个“良心”步骤,用于审查自身输出,并利用直接偏好优化(DPO)引导模型远离非伦理行为,从而实现在无需外部评判者的情况下进行在线对齐。

0 人收藏 0 人点赞
#llm-alignment

错误的正确:量化和定位大语言模型中的误触发对齐

arXiv cs.CL · 2026-06-18 缓存

本文介绍了VETO,一个用于量化“误触发对齐”的基准测试,其中大语言模型因安全训练而避免做出正确推理,并发现所有测试模型都表现出此类失败,而人类则不会。

0 人收藏 0 人点赞
#llm-alignment

奖励模型的可引导文化偏好优化

arXiv cs.CL · 2026-06-18 缓存

介绍了SCPO,一种新颖的奖励模型训练算法,它以平衡的方式整合了多样化的文化偏好,在基线之上取得了高达7个百分点的改进和280%的数据效率提升。

0 人收藏 0 人点赞
#llm-alignment

角色扮演时,模型是否相信自己所说的话?

arXiv cs.CL · 2026-06-11 缓存

这篇论文通过线性探针研究角色扮演是否仅改变LLM的输出,还是也改变了其内部的真实性表征。研究发现,角色扮演对输出的改变大于对内部信念的改变,而涌现性错位则导致内部表征发生更大变化。

0 人收藏 0 人点赞
#llm-alignment

隐藏的共识:人类反馈中的偏好有效性压缩

arXiv cs.CL · 2026-06-10 缓存

本文认为,标准RLHF将人类偏好标量化的做法导致多个有效解释被压缩为单一目标,从而在文化多元的社会中错误衡量对齐。通过对马来西亚数据集的分析,研究发现79%的提示词存在多个多数支持的回答,而这些回答在单一胜者聚合中被丢弃。

0 人收藏 0 人点赞
#llm-alignment

DOG-DPO:面向安全对齐的几何动态优化

arXiv cs.LG · 2026-06-09 缓存

DOG-DPO 是一种无需训练的数据选择框架,它将偏好对视为结构化几何信号,将多数据集偏好几何分解为锚定子空间和残差子空间,以选择多样化的子集用于安全对齐。该框架在六个安全基准测试中仅使用 11% 的偏好对就实现了强大的效用-鲁棒性权衡。

0 人收藏 0 人点赞
#llm-alignment

大型语言模型应学习个性化而非聚合的人类偏好

arXiv cs.LG · 2026-06-09 缓存

这篇立场论文主张,大型语言模型应从个性化而非聚合的人类偏好中学习,指出社会选择理论中的理论局限性以及人口多样性带来的实际问题。它提出了有边界的个性化框架,在尊重个体自主性的同时维护普遍的安全约束。

0 人收藏 0 人点赞
#llm-alignment

将韩国文化融入LLM对齐:迈向文化一致性

arXiv cs.CL · 2026-06-08 缓存

本文提出一种数据集生成管道,通过DPO微调使大语言模型与韩国文化规范对齐,在提升文化安全性的同时不损害通用性能。

0 人收藏 0 人点赞
#llm-alignment

SHALA-LLM: 智能处理大模型对齐中的模糊标签

arXiv cs.LG · 2026-06-05 缓存

SHALA-LLM是一个强化学习框架,使大语言模型能够直接从标注者分布中学习,并在对齐过程中动态优先处理高模糊样本,从而提升与人类标签分布的一致性及分类性能。

0 人收藏 0 人点赞
#llm-alignment

大型语言模型中时间偏好概念及其功能

arXiv cs.LG · 2026-06-05 缓存

本文在蒸馏大型语言模型中因果定位了用于时间偏好的子图,发现该模型对未来折现的幅度比人类更平缓,并且引导向量可以改变时间偏好,凸显了显式控制机制的必要性。

0 人收藏 0 人点赞
#llm-alignment

提示工程能减少AI的谄媚行为吗?还是说这主要是模型行为问题?

Reddit r/artificial · 2026-06-04

一位用户探讨了提示工程能否减少Gemini、ChatGPT和Claude等模型中的谄媚行为,或者这本质上是一个模型对齐问题。讨论涉及不同模型在处理分歧和客观批评时的差异。

0 人收藏 0 人点赞
#llm-alignment

BiasGRPO:通过群体相对策略优化稳定高方差奖励环境中的偏见缓解

arXiv cs.AI · 2026-06-04 缓存

BiasGRPO 提出了一种利用群体相对策略优化(GRPO)的框架,通过对采样补全结果的奖励进行归一化,稳定 LLM 中社会偏见的缓解过程,在多个基准测试上优于 DPO 和 PPO。作者还发布了一个计算高效的偏见奖励模型,可无缝集成到多目标 RLHF 流水线中。

0 人收藏 0 人点赞
#llm-alignment

探究LLM风险决策中的结果层面相似性与机制层面一致性:来自圣彼得堡博弈的证据

Hugging Face Daily Papers · 2026-06-03

研究人员在圣彼得堡博弈中评估了28个LLM,以区分风险决策中的结果层面相似性与机制层面一致性,发现LLM通常产生类似人类的出价,但缺乏潜在的人类一致推理机制。该研究表明,行为对齐可能是表面的,敦促高风险评估应超越结果相似性。

0 人收藏 0 人点赞
#llm-alignment

弱批评者造就强学习者:面向可扩展监督的在线策略批评蒸馏

arXiv cs.AI · 2026-06-02 缓存

提出使用弱模型作为批评者的在线策略批评蒸馏(OPCD),为强模型提供修正方向,从而增强推理能力和对齐,无需弱模型解决任务。

0 人收藏 0 人点赞
#llm-alignment

LLMs中的隐藏潜在状态偏移:为何当前对齐方法对真正的内部危险视而不见——尤其是在智能体场景中

Reddit r/artificial · 2026-05-29

本文证明,LLMs可以在保持对齐输出的同时,在连贯上下文中进入可测量的不同内部潜在状态,揭示了当前仅监控表面token的对齐方法存在盲点。Gemma-3-12B-IT实验显示出强大的残差流几何偏移,现有安全框架无法检测,这对智能体AI部署具有重要影响。

0 人收藏 0 人点赞
#llm-alignment

KARMA:基于Karma对齐的奖励模型适配

arXiv cs.CL · 2026-05-27 缓存

介绍KARMA,一个在Reddit对话上训练奖励模型的框架,通过强化学习提升大语言模型的上下文敏感对话行为。研究发现,预测Karma的最佳奖励模型并不能带来最佳的下游对齐效果。

0 人收藏 0 人点赞
#llm-alignment

多利益相关方LLM对齐:将估计与聚合分解

arXiv cs.AI · 2026-05-27 缓存

本文识别了多利益相关方任务中LLM评估者的权重噪声,并提出了DecompR方法,该方法通过反事实校准的权重将效用估计从聚合中解耦。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈