neural-architecture

标签

Cards List
#neural-architecture

逐层导数控制网络

arXiv cs.LG · 2026-05-18 缓存

介绍了ChainzRule,一种使用多项式引擎和微分正则化的神经架构,用于平衡准确性、硬件效率和功能稳定性,以15.5倍的参数减少和更平滑的梯度优于标准模型。

0 人收藏 0 人点赞
#neural-architecture

可操作的世界表示

Hugging Face Daily Papers · 2026-05-18 缓存

WorldString是一种神经架构,能够从点云或RGB-D视频流中建模物体状态流形,作为物理世界模型的基础组件,其可微结构便于与策略学习集成。

0 人收藏 0 人点赞
#neural-architecture

@_albertgu: 介绍一种新的序列模型Raven,它突破了固定状态大小序列模型的边界!Raven连接了流行的…

X AI KOLs Timeline · 2026-05-07

研究人员介绍了Raven,这是一种新颖的序列模型,它将状态空间模型的效率与受滑动窗口注意力启发的选择性槽更新机制相结合,以改进长上下文检索。该方法为现有的线性时间模型提供了一种更严谨的替代方案。

0 人收藏 0 人点赞
#neural-architecture

我发布了 CTNet:一种将计算视为持久状态演化的架构 [D]

Reddit r/MachineLearning · 2026-04-23

CTNet 提出了一种新型神经网络架构,把计算过程重新定义为持久状态的演化,而非逐层重写,融合了可重入记忆、多尺度一致性和投影式输出。

0 人收藏 0 人点赞
#neural-architecture

使用稀疏Transformer进行生成建模

OpenAI Blog · 2019-04-23 缓存

OpenAI推出了稀疏Transformer,一种深度神经网络,将注意力机制的复杂度从O(N²)优化到O(N√N),使得能够对长度超过以前30倍的序列进行建模,适用于文本、图像和音频领域。该模型采用稀疏注意力模式和基于检查点的内存优化技术,可以训练深达128层的网络,在多个领域实现了最先进的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈