标签
对Kimi K2.6的逆向工程分析显示,其架构优先考虑编排和技能注入,而非原始参数数量,通过多智能体协作无需再训练即可获得高SWE-Bench分数。
本文系统研究了跨模态技能注入,将领域专家大语言模型融入视觉语言模型以激发新兴多模态能力。评估了不同场景(指令遵循、跨语言、数学推理)、融合方法(TA、DARE等)及超参数,发现TA和DARE在除数学推理外表现良好。