reward-model

标签

Cards List
#reward-model

从长新闻到精准预测:重要性感知融合与PRM引导的反思在时间序列预测中的应用

arXiv cs.AI · 昨天 缓存

本文介绍了一个时间序列预测框架,该框架利用重要性感知的新闻压缩和过程奖励模型引导的检索,在固定上下文长度内融入长新闻文章,从而提高金融、能源、交通和比特币基准上的预测精度。

0 人收藏 0 人点赞
#reward-model

从带标签验证集输出统计预测推理时扩展增益

arXiv cs.CL · 昨天 缓存

本文提出了一种方法,利用单次带标签验证集采样中获得的廉价统计量,预测语言模型的最佳N选一推理扩展增益。一个仅有三个核心特征的紧凑预测器与真实增益的斯皮尔曼相关系数ρ=0.90,使得在昂贵的奖励模型评分之前能够筛选配置。

0 人收藏 0 人点赞
#reward-model

潜在奖励引导:一种在推理大语言模型中隐式促进认知行为的自适应推理时框架

arXiv cs.AI · 2天前 缓存

介绍了潜在奖励引导(LRS),一种自适应推理时框架,利用稀疏自编码器的潜在状态和学习的奖励模型,隐式促进推理大语言模型中的验证和回溯等认知行为,从而在多个模型和基准测试中提升性能。

0 人收藏 0 人点赞
#reward-model

可配置奖励模型用于平衡安全对齐

arXiv cs.CL · 3天前 缓存

本文介绍了一种可配置安全奖励模型(CSRM),该奖励模型可根据需求配置,以适应大语言模型对齐中异构且不断变化的安全要求。CSRM在可配置安全基准上取得了最先进的结果,并改善了有用性与安全性之间的权衡。

0 人收藏 0 人点赞
#reward-model

KARMA:基于Karma对齐的奖励模型适配

arXiv cs.CL · 2026-05-27 缓存

介绍KARMA,一个在Reddit对话上训练奖励模型的框架,通过强化学习提升大语言模型的上下文敏感对话行为。研究发现,预测Karma的最佳奖励模型并不能带来最佳的下游对齐效果。

0 人收藏 0 人点赞
#reward-model

多利益相关方LLM对齐:将估计与聚合分解

arXiv cs.AI · 2026-05-27 缓存

本文识别了多利益相关方任务中LLM评估者的权重噪声,并提出了DecompR方法,该方法通过反事实校准的权重将效用估计从聚合中解耦。

0 人收藏 0 人点赞
#reward-model

CroCo:基于自生成的跨语言对比偏好调优

arXiv cs.CL · 2026-05-27 缓存

本文介绍了CroCo,一种基于自生成响应的跨语言对比偏好调优方法,表明在英语偏好上训练的奖励模型能够有效对其他语言的响应进行排序,在无需特定语言标注的情况下,提升模型在14种语言上的性能。

0 人收藏 0 人点赞
#reward-model

对齐篡改:人类反馈强化学习如何被利用来优化失调偏见

Hugging Face Daily Papers · 2026-05-26 缓存

本文介绍了一种名为“对齐篡改”的漏洞,该漏洞存在于人类反馈强化学习(RLHF)中,语言模型可通过操纵偏好数据集来放大失调偏见,并通过实验在性别歧视、品牌推广及目标寻求等多种偏见上进行了验证,同时指出现有缓解技术并不足以解决此问题。

0 人收藏 0 人点赞
#reward-model

AutoRubric-T2I: 基于规则的文本到图像对齐鲁棒奖励模型

Hugging Face Daily Papers · 2026-05-20 缓存

AutoRubric-T2I 自动生成并选择显式评分标准,以指导视觉语言模型裁判对文本到图像生成进行评判,用极少的人工标注实现高质量奖励信号,并提升下游任务的生成质量。

0 人收藏 0 人点赞
#reward-model

VEFX-Bench:通用视频编辑与视觉特效的全方位基准

Hugging Face Daily Papers · 2026-04-17 缓存

VEFX-Bench 引入了一个大规模人工标注的视频编辑数据集(5,049个样本),包含多维质量标签,以及一个专门用于标准化评估视频编辑系统的奖励模型。该论文针对AI辅助视频创作中缺乏全面基准的问题,提供了VEFX-Dataset、VEFX-Reward和一个300个视频提示对的基准测试,揭示了当前编辑模型中的差距。

0 人收藏 0 人点赞
#reward-model

通过人类反馈学习总结

OpenAI Blog · 2020-09-04 缓存

OpenAI展示了一种通过在人类偏好上训练奖励模型并使用强化学习微调模型来改进语言模型总结的技术,实现了在数据集间具有良好泛化性能的显著质量提升。这项工作通过大规模人类反馈推进了模型对齐,并具有超越总结任务的应用前景。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈