标签
本文探讨了大语言模型在结构化临床数据上无法识别自身知识局限的问题,提出了一种跨模型归因差异方法来检测认知盲点。该方法结合少样本示例和 SHAP 衍生的特征证据,无需训练即可改进校准性和准确性。
本文提出了一种分布感知的训练方法,用于对并发Go程序中的下一步事件预测进行建模,将调度器的非确定性视为一种信号。在少于一千个轨迹上微调一个7B模型,在生产环境的bug检测上达到了36.2%的准确率,优于Gemini 3.5 Flash的零样本性能。
本文介绍了自适应工具信任校准(ATTC)框架,该框架通过使工具集成推理模型能够根据代码置信度得分自适应地决定是否相信或忽视工具结果,从而改进了这些模型。该方法解决了模型错误地忽视正确工具输出的"工具被忽视"问题,在多个模型和数据集上实现了4.1%-7.5%的性能提升。