标签
Critic-R引入了一个框架,使用评判模型在推理智能体和检索器之间提供内省反馈,在推理和训练时间同时提升智能体搜索性能,且无需重新训练智能体。
OpenAI 推出了 CriticGPT,这是一个基于 GPT-4 的模型,旨在捕捉 ChatGPT 代码输出中的错误。当人类训练员使用 CriticGPT 进行代码审查时,他们的成功率比没有辅助工具的训练员高 60%,解决了随着模型能力不断提升,RLHF 面临的根本局限。