标签
宾汉姆顿大学的研究人员利用香农熵开发了一种数学方法,能以99%的成功率解决Wordle谜题,该方法优先考虑信息量大的猜测而非可能的答案。
本文介绍了RecurrReason,这是一个难度可控的基准测试,包含四个符号逻辑谜题,用于评估序列模型中的多步推理能力。在T5和GPT-2上的微调实验表明,架构比规模更能决定成功,且预训练迁移依赖于局部转移结构。