标签
CP-Agent 提出了一种借助大型语言模型的校准风险控制方法,用于反馈驱动型竞赛编程,无需参数更新即可在基准测试上取得显著改进。
介绍了Conformal Selective Acting (CSA),一种用于RLVR训练的LLM的部署时包装器,它提供了对单个流的任意时刻有效的选择性风险控制,从而在不进行池化或长期平均的情况下,能够在受监管环境中安全部署。