reinforcement-learning-from-human-feedback

标签

Cards List
#reinforcement-learning-from-human-feedback

对齐篡改:人类反馈强化学习如何被利用来优化失调偏见

Hugging Face Daily Papers · 2026-05-26 缓存

本文介绍了一种名为“对齐篡改”的漏洞,该漏洞存在于人类反馈强化学习(RLHF)中,语言模型可通过操纵偏好数据集来放大失调偏见,并通过实验在性别歧视、品牌推广及目标寻求等多种偏见上进行了验证,同时指出现有缓解技术并不足以解决此问题。

0 人收藏 0 人点赞
#reinforcement-learning-from-human-feedback

Spectral Souping:在线偏好对齐的统一框架

arXiv cs.LG · 2026-05-21 缓存

本文介绍了Spectral Souping,这是一种通过发现通用谱表示来高效对齐LLM与个体用户偏好的框架,该表示能在推理时合并专门策略,无需昂贵的重新训练。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈