BitTide
首页
Trending
论文
模型
工具
新闻
产品
事件
时间轴
搜索
订阅
English
登录
grouped-query-attention
标签
Cards
List
#grouped-query-attention
架构而非规模:大语言模型中的电路局部化
arXiv cs.CL
↗
· 2天前
缓存
本文挑战了“随着模型规模扩大,机制可解释性变得愈发困难”的假设,表明架构(特别是分组查询注意力与多头注意力之间的差异)对电路局部化和稳定性的影响比参数量更为关键。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交