标签
本文通过分析早期解码动态,研究了激活引导在LLM上何时成功或失败。作者引入了ASTEER,这是一个包含大量引导生成结果的大型测试平台,并训练了一个GBDT分类器,通过早期隐藏状态预测引导结果,从而实现高效的引导强度搜索。
本文研究了用于安全评估的LLM-as-judge适应情境信息及不同安全定义的能力,发现它们基本是刚性的,当情境与其内部先验相矛盾时无法调整。