BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
full-attention
标签
Cards
List
#full-attention
HydraHead:从头部级功能异质性到专注意力混合
Hugging Face Daily Papers
↗
· 2026-06-18
缓存
HydraHead 是一种新颖的注意力混合架构,通过在头部层级结合完全注意力和线性注意力,利用可解释性驱动的选择和尺度归一化融合,实现长上下文性能卓越并减少训练开销。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交