标签
介绍了ChainzRule,一种使用多项式引擎和微分正则化的神经架构,用于平衡准确性、硬件效率和功能稳定性,以15.5倍的参数减少和更平滑的梯度优于标准模型。
WorldString是一种神经架构,能够从点云或RGB-D视频流中建模物体状态流形,作为物理世界模型的基础组件,其可微结构便于与策略学习集成。
研究人员介绍了Raven,这是一种新颖的序列模型,它将状态空间模型的效率与受滑动窗口注意力启发的选择性槽更新机制相结合,以改进长上下文检索。该方法为现有的线性时间模型提供了一种更严谨的替代方案。
CTNet 提出了一种新型神经网络架构,把计算过程重新定义为持久状态的演化,而非逐层重写,融合了可重入记忆、多尺度一致性和投影式输出。
OpenAI推出了稀疏Transformer,一种深度神经网络,将注意力机制的复杂度从O(N²)优化到O(N√N),使得能够对长度超过以前30倍的序列进行建模,适用于文本、图像和音频领域。该模型采用稀疏注意力模式和基于检查点的内存优化技术,可以训练深达128层的网络,在多个领域实现了最先进的性能。