标签
本文提出了一个模型自适应的工具必要性定义,并发现 LLM 内部识别需要工具与实际调用工具之间存在 26% 到 54% 的不匹配,集中体现在认知到行动的转换阶段。它揭示了一个“知行差距”(knowing-doing gap),即模型通常知道应该调用工具,但由于后期层几何结构将信号旋转至几乎与行动正交,导致调用失败。
Skill-RAG 是一个故障感知的 RAG 框架,利用隐层状态探测和技能路由来诊断和纠正检索增强生成中的查询-证据不对齐问题。该方法检测检索失败并有选择性地应用目标技能(查询重写、问题分解、证据聚焦)以提高硬案例和分布外数据集的准确率。