标签
一篇新的研究论文介绍了 RLMF(Reinforcement Learning with Metacognitive Feedback),一种两阶段方法,利用模型自身的自我判断来校准置信度并忠实地表达不确定性,在保持准确性的同时,在多种任务上实现了最先进的校准,并且比标准 RL 提升了高达 63%。
本文介绍了基于元认知反馈的强化学习(RLMF)和元认知数据选择,以改进大语言模型的校准,实现内部不确定性的忠实表达,并比标准强化学习提升高达63%。