标签
本文介绍了一种残差化与置换诊断方法,用于从基因组基础模型的调控重要性分数中分离由可预测性驱动和由调控驱动的方差,并应用于胶质瘤相关位点的暗基因组元件。
SHARP 提出了一种受生物学启发的框架,将记忆积累与模式识别分离,在离线睡眠阶段使用加速重放来学习流式环境中的长程非平稳时序模式。它在 text8 和 PG-19 上提升了上下文保持能力,同时保持了计算效率。
本文形式化了下个token预测中的充分性差距,证明即使理想的序列模型在文本前缀不足以统计潜在情况时,也可能变得过于自信。它提出了一种外部观察者机制来减少但无法消除这一差距。
本文介绍了条件属性变换器(Conditional Attribute Transformers),一种联合估计条件概率和属性值的方法,能够在单次前向传播中实现信用分配、反事实分析和可引导生成。
本文介绍了 Toeplitz MLP Mixer(TMM),这是一种新型架构,它用 Toeplitz 矩阵乘法取代注意力机制,从而在保持高信息保留率和训练效率的同时实现更低的计算复杂度。