scalable-oversight

标签

Cards List
#scalable-oversight

弱批评者造就强学习者:面向可扩展监督的在线策略批评蒸馏

arXiv cs.AI · 2026-06-02 缓存

提出使用弱模型作为批评者的在线策略批评蒸馏(OPCD),为强模型提供修正方向,从而增强推理能力和对齐,无需弱模型解决任务。

0 人收藏 0 人点赞
#scalable-oversight

AI编写的评论帮助人类发现缺陷

OpenAI Blog · 2022-06-13 缓存

# AI编写的评论帮助人类发现缺陷 来源:[https://openai.com/index/critiques/](https://openai.com/index/critiques/) 我们希望确保未来执行极困难任务的AI系统始终与人类意图保持一致。[Many⁠](https://openai.com/index/learning-to-summarize-with-human-feedback/)[previous⁠\(opens in a new window\)](https://arxiv.org/abs/2204.05862)[works⁠\(opens in a new window\)](https://www.deepmind.com/publications/gophercite-teaching-language-models-to-suppo

0 人收藏 0 人点赞
#scalable-oversight

利用人工反馈进行图书摘要总结

OpenAI Blog · 2021-09-23 缓存

OpenAI 展示了一种可扩展的对齐技术,使用人工反馈进行整本书的分层摘要总结,展示了如何训练模型在复杂、难以评估的任务上按照人类意图行动。

0 人收藏 0 人点赞
#scalable-oversight

2026年4月14日 | 对齐研究 | 自动化对齐研究者:利用大语言模型扩展可扩展监督

Anthropic Research · 2026-05-08 缓存

Anthropic 研究人员证明,Claude Opus 4.6 能够自主担任对齐研究者,以改进弱监督强技术,从而应对可扩展监督中的挑战。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈