标签
该论文提出了一种可验证的无标签奖励,用于通过强化学习训练校准的概率预测器,避免了因奖励单个结果而导致的校准退化。应用于NFL胜率预测,使用该奖励训练的7B模型达到了与博彩市场相当的校准水平。
SportsCenter 的一条帖子询问达拉斯牛仔是否应在 NFL 选秀首轮向上交易获得更高顺位;但所提供内容却是一则不相关的万豪旅享家(Marriott Bonvoy)旅行广告。
NFL Live 分析师将选秀新秀 Jordyn Tyson 与 Odell Beckham Jr. 进行比较;然而,正文内容仅为 Marriott Bonvoy 推广信息。