标签
澄清了关于 /dev/urandom 和 /dev/random 的常见误解,说明 /dev/urandom 是类 Unix 系统中加密随机性的首选来源。
本文研究了语言模型的概率校准能力是否可以通过微调得到提升,并在12种模型上比较了软目标和硬目标两种方法。结果表明,校准能力是可以训练的,但有时会导致下游算术推理能力的下降。
本文介绍了 Diamond Attention,这是一种用于多智能体强化学习的方法,通过引入结构化随机性来打破对称性,从而实现同质智能体之间的角色区分,在 XOR 游戏等对称任务中实现了完美的协调。