标签
本文提出对抗性概念搜索(Adversarial Concept Search),一种利用大型语言模型表示几何来预测组合性失败的方法,无需评估特定输入。该方法通过测量显著特征之间的干扰来识别高风险场景。