attention-mask

标签

Cards List
#attention-mask

Block-Based Double Decoders

arXiv cs.LG · 2026-05-20 缓存

提出了一种基于块的雙解碼器(block-based double decoders),这是一种使用双重因果块注意力掩码的新型Transformer架构,结合了解码器仅训练效率与编码器-解码器推理效率,实现了强大的扩展性能并减少了KV缓存内存。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈