标签
提出使用弱模型作为批评者的在线策略批评蒸馏(OPCD),为强模型提供修正方向,从而增强推理能力和对齐,无需弱模型解决任务。
# AI编写的评论帮助人类发现缺陷 来源:[https://openai.com/index/critiques/](https://openai.com/index/critiques/) 我们希望确保未来执行极困难任务的AI系统始终与人类意图保持一致。[Many](https://openai.com/index/learning-to-summarize-with-human-feedback/)[previous\(opens in a new window\)](https://arxiv.org/abs/2204.05862)[works\(opens in a new window\)](https://www.deepmind.com/publications/gophercite-teaching-language-models-to-suppo
OpenAI 展示了一种可扩展的对齐技术,使用人工反馈进行整本书的分层摘要总结,展示了如何训练模型在复杂、难以评估的任务上按照人类意图行动。
Anthropic 研究人员证明,Claude Opus 4.6 能够自主担任对齐研究者,以改进弱监督强技术,从而应对可扩展监督中的挑战。