llm-architectures

标签

Cards List
#llm-architectures

LLM架构的最新发展:KV共享、mHC与压缩注意力 [P]

Reddit r/MachineLearning · 8小时前 缓存

Sebastian Raschka回顾了LLM架构中针对长上下文效率的最新创新,包括KV共享、压缩卷积注意力和来自Gemma 4、ZAYA1、Laguna XS.2和DeepSeek V4等模型的逐层注意力预算。

0 人收藏 0 人点赞
#llm-architectures

AI代理设计模式的二维框架:认知功能与执行拓扑

arXiv cs.AI · 2天前 缓存

本文提出了一种结合认知功能轴和执行拓扑轴的AI代理设计模式二维分类框架,识别出27个命名模式,并通过跨领域分析推导出经验法则。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈