llm-architectures

#llm-architectures

LLM架构的最新发展：KV共享、mHC与压缩注意力 [P]

Reddit r/MachineLearning ↗ · 7小时前缓存

Sebastian Raschka回顾了LLM架构中针对长上下文效率的最新创新，包括KV共享、压缩卷积注意力和来自Gemma 4、ZAYA1、Laguna XS.2和DeepSeek V4等模型的逐层注意力预算。

0 人收藏 0 人点赞

#llm-architectures

arXiv cs.AI ↗ · 2天前缓存

本文提出了一种结合认知功能轴和执行拓扑轴的AI代理设计模式二维分类框架，识别出27个命名模式，并通过跨领域分析推导出经验法则。

0 人收藏 0 人点赞