标签
本文针对大语言模型提出了能力自我评估(CSA)方法,并将其建模为策略学习问题。实验表明,强化学习能够有效教会模型识别自身局限并委托处理无法解决的查询,效果优于监督微调,且具有良好的分布外泛化能力。
一个网络应用,允许用户将自己的表现与开源 LLM 在五个基准测试上进行对比,并可以选择将结果添加到简历或 LinkedIn。