steerability

#steerability

你的LLM何时可引导？

arXiv cs.CL ↗ · 2026-06-11 缓存

本文通过分析早期解码动态，研究了激活引导在LLM上何时成功或失败。作者引入了ASTEER，这是一个包含大量引导生成结果的大型测试平台，并训练了一个GBDT分类器，通过早期隐藏状态预测引导结果，从而实现高效的引导强度搜索。

0 人收藏 0 人点赞

#steerability

arXiv cs.AI ↗ · 2026-06-09 缓存

本文研究了用于安全评估的LLM-as-judge适应情境信息及不同安全定义的能力，发现它们基本是刚性的，当情境与其内部先验相矛盾时无法调整。

0 人收藏 0 人点赞