direct-preference-optimization

#direct-preference-optimization

涌现对齐

arXiv cs.AI ↗ · 2026-06-20 缓存

本文介绍了涌现对齐（Emergent Alignment）这一自监督方法，该方法为大型语言模型（LLMs）赋予一个“良心”步骤，用于审查自身输出，并利用直接偏好优化（DPO）引导模型远离非伦理行为，从而实现在无需外部评判者的情况下进行在线对齐。

0 人收藏 0 人点赞

#direct-preference-optimization

面向聊天机器人微调的直接偏好优化：一项实证研究

arXiv cs.CL ↗ · 2026-06-12 缓存

本文对直接偏好优化（DPO）在大型语言模型微调中的应用进行了实证研究，表明DPO简化了训练流程，在实现竞争性性能的同时，也解决了训练不稳定性问题。

0 人收藏 0 人点赞

#direct-preference-optimization

超越聊天机器人的直接偏好优化

Hugging Face Blog ↗ · 2026-06-03 缓存

直接偏好优化（DPO）被应用于聊天机器人之外的OCR任务，显示出在多个模型家族中文本退化的显著减少，平均减少了59.4%。

0 人收藏 0 人点赞

#direct-preference-optimization

面向安全对齐的课程学习

arXiv cs.LG ↗ · 2026-05-27 缓存

本文提出Staged-Competence，一种基于课程学习的DPO安全对齐框架，它按难度组织偏好数据，显著提升鲁棒性和数据效率，同时保持通用能力。

0 人收藏 0 人点赞

#direct-preference-optimization

面向中英文混合语音识别的音频大语言模型直接偏好优化

arXiv cs.CL ↗ · 2026-05-26 缓存

本文应用直接偏好优化（DPO）来对齐音频大语言模型，以转录中英文混合语音，在分布内实现了高达89.6%的MER降低，在分布外实现了20%的降低。它识别出三种失败模式——语言遗漏、翻译替代转录以及幻觉——并表明基于偏好的对齐能有效激发多语言音频大语言模型的正确混合转写行为。

0 人收藏 0 人点赞

#direct-preference-optimization

基于注意力机制的Token加权直接偏好优化

arXiv cs.CL ↗ · 2026-05-22 缓存

提出AttentionPO，一种基于Token加权的直接偏好优化方法，它利用LLM自身的注意力来估计Token权重，在AlpacaEval、MT-Bench和ArenaHard上提升对齐性能，且无需单独奖励模型。

0 人收藏 0 人点赞

#direct-preference-optimization

偏好优化中的虚假相关性学习：机制、后果及通过平局训练的缓解方法

arXiv cs.LG ↗ · 2026-05-13 缓存

本文分析了诸如直接偏好优化（DPO）等偏好优化方法中的虚假相关性学习，确定了平均虚假偏差和因果-虚假泄漏等机制。本文提出了使用效用相等的偏好对进行“平局训练”作为一种缓解策略，以减少对虚假特征的依赖，同时不降低因果学习效果。

0 人收藏 0 人点赞

#direct-preference-optimization

xi-DPO：通过比率奖励边际的直接偏好优化

arXiv cs.LG ↗ · 2026-05-13 缓存

本文介绍了 xi-DPO，这是一种新颖的偏好优化方法，通过将目标重构为最小化与最优比率奖励边际的距离，解决了 SimPO 中的超参数调整难题。实验结果表明，xi-DPO 在开放基准测试中优于现有方法。

0 人收藏 0 人点赞

#direct-preference-optimization

DocAtlas：跨越80多种语言的多语言文档理解

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

DocAtlas是一个框架，通过差异渲染和合成生成，构建了覆盖82种语言的高保真OCR数据集和基准。它表明，直接偏好优化能够改善多语言模型的适配，而不会降低基础语言的性能。

0 人收藏 0 人点赞

#direct-preference-optimization

置信度感知对齐让推理型大语言模型更加可靠

arXiv cs.AI ↗ · 2026-05-11 缓存

本文介绍了CASPO框架，该框架通过迭代直接偏好优化（DPO），将token级别的置信度与大型推理模型中的逐步逻辑正确性进行对齐。文章还提出了置信度感知思考（CaT），用于在推理过程中动态剪枝不确定的推理分支，以提高可靠性和效率。

0 人收藏 0 人点赞

direct-preference-optimization

提交意见反馈