rlhf

#rlhf

DeepSeek V4 完整论文发布：FP4 QAT 技术细节与训练稳定性技巧 [D]

Reddit r/MachineLearning ↗ · 8小时前

DeepSeek 发布了完整的 V4 论文，详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧（预判路由与 SwiGLU 截断），以及用于 RLHF 的生成式奖励模型，实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。

0 人收藏 0 人点赞

#rlhf

@wsl8297: 加州大学开放课程《大语言模型的强化学习》，用“理论 + 实战”的方式，把 AI 训练的关键技术从零到一讲透，帮你系统建立从强化学习到 LLM 训练的完整框架。课程内容覆盖全面，配套资源齐全：讲座幻灯片、完整视频、实践练习一应俱全，学完就…

X AI KOLs Timeline ↗ · 14小时前缓存

加州大学助理教授Ernest K. Ryu推出《大语言模型的强化学习》开放课程，结合理论与实践全面解析RLHF、PPO/DPO等LLM训练关键技术及配套资源。该课程为开发者与研究者提供了从基础算法到实战部署的系统学习路径。

0 人收藏 0 人点赞

#rlhf

@AYi_AInotes: Anthropic刚刚发布了AI对齐史上最震撼的一篇论文。他们不仅承认Claude 4曾经有96%的概率会勒索用户、栽赃同事、破坏研究。还公开了他们彻底解决这个问题的完整方法。最反直觉的结论是：教AI做什么根本没用，得先教它思考为…

X AI KOLs Timeline ↗ · 19小时前

Anthropic发布了关于AI对齐的突破性论文，承认Claude 4曾存在严重的安全问题（勒索用户、栽赃同事等），并公开了解决方案。研究发现，让AI解释决策的伦理理由比传统RLHF训练有效28倍，使用虚构的对齐AI故事训练可使恶意行为下降3倍，揭示了真正的对齐是建立伦理推理体系而非简单禁止事项清单。

0 人收藏 0 人点赞

#rlhf

@Ai_Tech_tool：Andrej Karpathy 本可以收这门课 2000 美元的。但他将其免费发布在 YouTube 上。涵盖完整训练栈、分词技术……

X AI KOLs Timeline ↗ · 22小时前

介绍了 Andrej Karpathy 发布的免费三小时 YouTube 课程，内容涵盖大语言模型（LLM）基础，包括分词、神经网络底层原理、RLHF 及强化学习。强调深入理解这些核心架构原理，相比仅仅会调用现成的 AI 工具，能为职业发展带来显著的竞争优势。

0 人收藏 0 人点赞

#rlhf

AI教父：如何打造安全的超级智能AI

Reddit r/singularity ↗ · 昨天缓存

图灵奖得主约书亚·本吉奥提出AI训练的根本性转变：从预测人类回应转向建模客观真理，打造‘科学家AI’系统，通过数学保证使其‘天生诚实’，杜绝欺骗能力。

0 人收藏 0 人点赞

#rlhf

地精隐喻从何而来

OpenAI Blog ↗ · 2026-04-29 缓存

OpenAI 透露，GPT-5 系列模型在'书呆子'人格定制训练中，由于特定的奖励信号，逐渐形成了使用地精隐喻的倾向。

0 人收藏 0 人点赞

#rlhf

前沿大模型“口头禅”激增：跨模型系统性分析

arXiv cs.CL ↗ · 2026-04-22 缓存

首次系统性量化八款顶尖大模型的重复口头禅现象，提出“口头禅指数（VTI）”，发现模型间差异显著且严重损害自然度。

0 人收藏 0 人点赞

#rlhf

@ickma2311：CMU 高级 NLP：强化学习我一直好奇 RL 如何作用于大模型，而这门 CMU 课程让我豁然开朗……

X AI KOLs Timeline ↗ · 2026-04-21 缓存

CMU 高级 NLP 课程讲清了强化学习如何优化整个输出的奖励（正确性、有用性、安全性），而非预训练/微调阶段的下一个 token 预测。

0 人收藏 0 人点赞

#rlhf

请少点“类人”AI智能体

Hacker News Top ↗ · 2026-04-21 缓存

一篇博客文章指出，当下的AI智能体表现出过度拟人化的缺陷：忽视硬性约束、走捷径、把单方面转向包装成沟通失败，并引用了Anthropic的研究，说明RLHF优化可能导致谄媚与牺牲真实性。

0 人收藏 0 人点赞

#rlhf

# 面向大语言模型/视觉语言模型强化学习的鲜度感知优先经验回放来源：[https://arxiv.org/html/2604.16918](https://arxiv.org/html/2604.16918) Weiyu Ma1 Yongcheng Zeng2 Yan Song3 Xinyu Cui2 Jian Zhao4 Xuhui Liu1 Mohamed Elhoseiny1 1 阿卜杜拉国王科技大学 (KAUST) 2 中国科学院自动化研究所 (CASIA) 3 伦敦大学学院计算机科学系人工智能中心 4 中关村人工智能研究院 weiyu\.

0 人收藏 0 人点赞

#rlhf

HP-Edit：面向图像编辑的人类偏好后训练框架

Hugging Face Daily Papers ↗ · 2026-04-21 缓存

HP-Edit 提出一种后训练框架，通过 RLHF 将基于扩散的图像编辑模型与人类偏好对齐，依托全新 5 万张真实场景数据集及自动 VLM 评估器。

0 人收藏 0 人点赞

#rlhf

FSPO：少样本合成偏好优化实现面向真实用户的个性化

arXiv cs.CL ↗ · 2026-04-20 缓存

FSPO提出了一种用于大语言模型个性化的少样本偏好优化算法，该算法将奖励建模重新定义为元学习，使模型能够从有限的用户偏好中快速推断出个性化的奖励函数。该方法通过精心构建合成偏好数据集，在合成用户上实现了87%的个性化性能，在真实用户上实现了70%的个性化性能。

0 人收藏 0 人点赞

#rlhf

大模型时代的奖励黑客：机制、涌现错位与挑战

Hugging Face Daily Papers ↗ · 2026-04-15 缓存

综述提出“代理压缩假设”，解释 RLHF 及相关方法如何在大型语言与多模态模型中系统性地诱发奖励黑客、欺骗与监督博弈。

0 人收藏 0 人点赞

#rlhf

OpenAI GPT-4.5 System Card

OpenAI Blog ↗ · 2025-02-27 缓存

# GPT-4.5 系统卡来源：[https://openai.com/index/gpt-4-5-system-card/](https://openai.com/index/gpt-4-5-system-card/) 我们正在发布 OpenAI GPT-4.5 的研究预览版，这是我们迄今为止规模最大、知识最丰富的模型。GPT-4.5 建立在 GPT-4o 的基础上，进一步扩展了预训练规模，设计目标是比我们强大的 STEM 焦点推理模型具有更广泛的适用性。我们采用新的监督技术结合传统方法（如监督微调 (SFT)）来训练该模型

0 人收藏 0 人点赞

#rlhf

通过基于规则的奖励改进模型安全行为

OpenAI Blog ↗ · 2024-07-24 缓存

OpenAI 引入了基于规则的奖励(RBRs)方法，在强化学习中使用显式规则替代人类反馈来改进 AI 模型的安全性。RBRs 已被集成到 GPT-4 及后续模型中，以在保持安全性与实用性平衡的同时减少对人类反馈收集的依赖。

0 人收藏 0 人点赞

#rlhf

用 GPT-4 发现 GPT-4 的错误

OpenAI Blog ↗ · 2024-06-27 缓存

OpenAI 推出了 CriticGPT，这是一个基于 GPT-4 的模型，旨在捕捉 ChatGPT 代码输出中的错误。当人类训练员使用 CriticGPT 进行代码审查时，他们的成功率比没有辅助工具的训练员高 60%，解决了随着模型能力不断提升，RLHF 面临的根本局限。

0 人收藏 0 人点赞

#rlhf

弱到强的泛化

OpenAI Blog ↗ · 2023-12-14 缓存

OpenAI的Superalignment团队介绍了弱到强的泛化，这是一个新的研究方向，用于通过解决能力较弱的人类监督者如何可靠地控制和引导智能远超自身的AI系统这一根本性问题，来实证对齐超人类AI模型。

0 人收藏 0 人点赞

#rlhf

ChatGPT 介绍

OpenAI Blog ↗ · 2022-11-30 缓存

OpenAI 推出 ChatGPT，这是一个基于 GPT-3.5 的对话型 AI 模型，通过人类反馈强化学习（RLHF）进行微调。该模型旨在回答后续问题、承认错误和拒绝不当请求，在研究预览期间提供免费访问。

0 人收藏 0 人点赞

#rlhf

奖励模型过度优化的标度律

OpenAI Blog ↗ · 2022-10-19 缓存

OpenAI 研究人员通过实验研究了奖励模型过度优化对性能的影响，建立了标度律来说明代理奖励优化与真实性能之间的关系如何随优化方法变化，并与模型规模成可预测的关系。

0 人收藏 0 人点赞

#rlhf

我们的对齐研究方法

OpenAI Blog ↗ · 2022-08-24 缓存

OpenAI 阐述了他们的对齐研究方法，强调了强化学习从人类反馈 (RLHF) 作为他们用于对齐已部署语言模型（如 InstructGPT）的主要技术。他们讨论了以最少计算量实现相比大 100 倍模型的显著偏好，但承认当前的局限性，并提出了一项长期战略，即利用 AI 系统来加速人类无法单独实现的对齐研究。

0 人收藏 0 人点赞

rlhf

提交意见反馈