coherence

标签

Cards List
#coherence

提示-激活对偶性:通过注意力层干预改进激活引导

Hugging Face Daily Papers · 4天前 缓存

本文识别出KV缓存污染是对话中激活引导的一种失败模式,并提出了GCAD方法,该方法从提示贡献中提取引导信号,并应用词元级门控来改进长程连贯性,在多轮基准上取得了显著提升。

0 人收藏 0 人点赞
#coherence

为什么A10b以下的MOE让我像在赌博

Reddit r/LocalLLaMA · 2026-04-22

开发者报告称,像 qwen3.6-35b-A3b 这种“活跃参数量”较小的 MOE 模型,相比稠密的 qwen3.5-27b,一致性更低、需要更多引导,很难直接塞进智能体工作流。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈