标签
MIT CSAIL 研究人员提出 RLCR 方法,在强化学习中引入布雷尔分数(Brier scores),训练 AI 模型输出经过校准的置信度估计,在显著降低过度自信的同时,不牺牲准确率。
一位ICLR参会博士生寻求实用策略,克服社交焦虑,在已有对话群体中插话,而非泛泛的“自信”建议。
ICLR 2026 的两篇论文展示了小型 RL 训练智能体如何在机器学习工程任务上击败前沿模型,以及 MLE-Smith 如何自动扩展 MLE 工作负载。