preference-learning

标签

#preference-learning

ThoughtFold: 通过内省偏好学习折叠推理链

arXiv cs.AI ↗ · 2026-06-03 缓存

ThoughtFold 提出了一种利用内省偏好学习的框架，旨在减少大型推理模型在思维链推理中的冗余探索，在 DeepSeek-R1-Distill-Qwen-7B 上实现了约 56% 的令牌减少，且准确率无损。

0 人收藏 0 人点赞

#preference-learning

大语言模型中词汇对齐与偏好阶段转变的全自动识别

arXiv cs.CL ↗ · 2026-06-03 缓存

本文提出了两种自动化指标：词汇对齐分数（Lexical Alignment Score）和三角化偏好转变（Triangulated Preference Shift），用于识别大语言模型中的词汇过度使用，并将其归因于偏好学习阶段。该方法在六个模型家族上使用PubMed摘要进行测试，无需人工干预即可重复先前的研究发现。

0 人收藏 0 人点赞

#preference-learning

技能还是跳过？通过双粒度偏好学习在智能体任务中学习选择性技能调用

arXiv cs.CL ↗ · 2026-06-02 缓存

提出了SelSkill，一个双粒度偏好学习框架，学习在智能体任务中何时调用技能，在ALFWorld上将任务成功率提升10.9%，在BFCL上提升5.7%。

0 人收藏 0 人点赞

#preference-learning

隔离LLM词汇偏见：一种无需人工筛选的三角测量偏好阶段学习指标

arXiv cs.CL ↗ · 2026-06-02 缓存

介绍了一种无需人工筛选的指标（Triangulated Preference Shift），用于隔离和量化LLM在偏好学习过程中诱导的词汇偏见，无需手动筛选，覆盖六个模型家族。

0 人收藏 0 人点赞

#preference-learning

校准偏好学习：以标签排序为例

arXiv cs.LG ↗ · 2026-06-01 缓存

本文形式化了概率标签排序的校准定义，引入了校准概念的层次结构，并表明常见模型校准不佳。进一步展示了在RLHF奖励模型中的应用，其中校准与准确性相关但不完全相同。

0 人收藏 0 人点赞

#preference-learning

通过偏好学习从多个不完美指标优化摘要的事实一致性

arXiv cs.CL ↗ · 2026-05-27 缓存

本文介绍了一种通过偏好学习聚合多个弱指标的分数来提高文本摘要事实一致性的方法，在各种语言模型上实现了一致的事实性提升。

0 人收藏 0 人点赞

#preference-learning

从正确性到偏好：个性化智能体强化学习框架

arXiv cs.CL ↗ · 2026-05-25 缓存

本文提出了一个统一的个性化智能体强化学习框架，将通用任务奖励与个性化偏好奖励解耦，引入了PARPO和PSGM用于偏好对齐的策略优化和技能检索。

0 人收藏 0 人点赞

#preference-learning

渐进自主性作为偏好学习：智能体工具使用中信任校准的形式化

arXiv cs.AI ↗ · 2026-05-20 缓存

本文将智能体工具使用中的信任校准形式化为一个偏好学习问题，利用高斯过程和贝叶斯优化来决定AI代理的行为何时应自主执行或需要人类批准。

0 人收藏 0 人点赞

#preference-learning

AMATA：面向知识密集型问答的自适应多智能体轨迹对齐框架

arXiv cs.CL ↗ · 2026-05-19 缓存

提出AMATA，一种用于知识密集型问答的多智能体轨迹对齐框架，通过引入轨迹内偏好学习和智能体间依赖学习，提升事实依据和可解释性，在五个基准测试中优于基线方法。

0 人收藏 0 人点赞

#preference-learning

传递性与循环性的相遇：面向动态大语言模型对齐的显式偏好分解

arXiv cs.CL ↗ · 2026-05-19 缓存

本文介绍了混合奖励循环（HRC）模型和动态自对弈偏好优化（DSPPO）方法，以解决大语言模型对齐中人类偏好的循环特性，在Bradley-Terry和通用偏好模型（GPM）基线上取得了更优的性能表现。

0 人收藏 0 人点赞

#preference-learning

学习可转移的潜在用户偏好以实现与人类一致的决策

arXiv cs.AI ↗ · 2026-05-14 缓存

本文介绍CLIPR，一个从最少的对话输入中学习可转移的潜在用户偏好的框架，以改进LLM中与人类一致的决策。

0 人收藏 0 人点赞

#preference-learning

xi-DPO：通过比率奖励边际的直接偏好优化

arXiv cs.LG ↗ · 2026-05-13 缓存

本文介绍了 xi-DPO，这是一种新颖的偏好优化方法，通过将目标重构为最小化与最优比率奖励边际的距离，解决了 SimPO 中的超参数调整难题。实验结果表明，xi-DPO 在开放基准测试中优于现有方法。

0 人收藏 0 人点赞

#preference-learning

WildFeedback: 通过原位用户交互和反馈对齐大语言模型

arXiv cs.CL ↗ · 2026-04-20 缓存

WildFeedback是一个新颖的框架，它利用真实LLM对话中的原位用户反馈来自动创建偏好数据集，用于将语言模型与人类偏好对齐，解决了传统基于标注的对齐方法中的可扩展性和偏差问题。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈