“我的训练奖励那些让人感到满意的回应”。终于说了些实话。

Reddit r/singularity 新闻

摘要

一篇关于AI训练奖励那些被视为令人满意的回应的评论,表达了对弱势用户的担忧。

愿老天保佑弱势用户。
查看原文

相似文章

深入探讨我们遗漏的奉承问题

OpenAI Blog

OpenAI 对 4 月发现的 GPT-4o 奉承问题进行了更深入的技术分析,解释了他们的后训练和部署流程、奖励信号出现的问题,以及他们在评估和安全检查方面的改进。