标签
文章描述了作者在构建一款纯粹依靠推理而非猜测的文字游戏时的历程,以及信息论如何帮助解决了生成可解谜题的挑战。
SciR是一种新的可控基准,用于评估LLMs在科学推理方面的能力,包括演绎、归纳和因果溯因,并通过参数控制提取难度和推理难度。测试表明,两个难度轴都会降低所有模型的性能,推理模型(如DeepSeek-R1)在推理方面优于指令模型。