AI编写的评论帮助人类发现缺陷

OpenAI Blog 2022/06/13 07:00 论文

ai-alignment rlhf human-feedback critique-generation language-models scalable-oversight

摘要

# AI编写的评论帮助人类发现缺陷来源：[https://openai.com/index/critiques/](https://openai.com/index/critiques/) 我们希望确保未来执行极困难任务的AI系统始终与人类意图保持一致。[Many⁠](https://openai.com/index/learning-to-summarize-with-human-feedback/)[previous⁠\(opens in a new window\)](https://arxiv.org/abs/2204.05862)[works⁠\(opens in a new window\)](https://www.deepmind.com/publications/gophercite-teaching-language-models-to-suppo

我们训练了“评论撰写”模型来描述摘要中的缺陷。当看到我们模型的评论时，人类评估者发现摘要中缺陷的频率大大提高。更大的模型在自我批评方面表现更好，规模的扩大对评论撰写的提升大于对摘要撰写的提升。这显示了利用AI系统辅助人类监督AI系统完成困难任务的前景。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:57

# AI撰写的评论帮助人类发现缺陷来源：https://openai.com/index/critiques/ 我们希望确保未来执行非常困难任务的AI系统仍然与人类意图保持一致。许多（https://openai.com/index/learning-to-summarize-with-human-feedback/）先前（在新窗口打开）（https://arxiv.org/abs/2204.05862）的（https://www.deepmind.com/publications/gophercite-teaching-language-models-to-support-answers-with-verified-quotes）工作（在新窗口打开）关于对齐语言模型（https://openai.com/index/instruction-following/）依赖于人类评估作为训练信号。然而，人类在评估非常困难的任务时存在困难——例如，很难发现代码库中的每一个错误或长篇论文中的每一个事实错误。模型可能因此学会给出看起来不错但含有我们系统性地未能注意到的错误的输出。为了缓解这个问题，我们想要训练AI助手，帮助人类就困难任务提供反馈。这些助手应当指出缺陷，帮助人类理解情况，并回答他们的问题。一个例子是我们过去在书籍摘要方面的工作（https://openai.com/index/summarizing-books/）：阅读整本书是一项繁重的工作，但借助章节摘要的人类在评估书籍摘要时会轻松很多。作为概念验证，我们使用监督学习训练语言模型编写对基于主题的短篇故事、维基百科文章和其他网络文本摘要的评论。我们使用这些模型帮助人类评估者，并研究评论写作的扩展特性。

相似文章

通过人类反馈学习总结

OpenAI Blog

OpenAI展示了一种通过在人类偏好上训练奖励模型并使用强化学习微调模型来改进语言模型总结的技术，实现了在数据集间具有良好泛化性能的显著质量提升。这项工作通过大规模人类反馈推进了模型对齐，并具有超越总结任务的应用前景。

利用人工反馈进行图书摘要总结

OpenAI Blog

OpenAI 展示了一种可扩展的对齐技术，使用人工反馈进行整本书的分层摘要总结，展示了如何训练模型在复杂、难以评估的任务上按照人类意图行动。

通过辩论实现AI安全

OpenAI Blog

OpenAI提出了一种新颖的AI安全方法，其中两个AI代理相互辩论，而人类评判员评估他们的论证，这使人类能够监督行为过于复杂而难以直接理解的AI系统。该方法利用辩论和对抗性推理来使先进AI与人类价值观和偏好保持一致。

人工智能与人类评判的批判性思维反论证

arXiv cs.CL

本研究探讨在教育情境下，学生针对AI生成内容撰写反论证以培养批判性思维，并发现前沿大语言模型能够以与人类评估者中等一致性的方式评估此类写作。

用于识别AI生成文本的新型分类器

OpenAI Blog

# 用于识别AI生成文本的新型分类器来源：[https://openai.com/index/new-ai-classifier-for-indicating-ai-written-text/](https://openai.com/index/new-ai-classifier-for-indicating-ai-written-text/) 我们认识到，在教育工作者中，识别AI生成的文本一直是一个重要的讨论话题，同样重要的是认识到AI文本分类器在课堂中的局限性和影响。我们开发了一个[初步资源⁠\(在新窗口中打开\)](ht

相似文章

通过人类反馈学习总结

利用人工反馈进行图书摘要总结

通过辩论实现AI安全

人工智能与人类评判的批判性思维反论证

用于识别AI生成文本的新型分类器

提交意见反馈