steerability

标签

Cards List
#steerability

你的LLM何时可引导?

arXiv cs.CL · 17小时前 缓存

本文通过分析早期解码动态,研究了激活引导在LLM上何时成功或失败。作者引入了ASTEER,这是一个包含大量引导生成结果的大型测试平台,并训练了一个GBDT分类器,通过早期隐藏状态预测引导结果,从而实现高效的引导强度搜索。

0 人收藏 0 人点赞
#steerability

安全是情境性的,LLM评判者则不然:驾驭评估者的刚性先验

arXiv cs.AI · 2天前 缓存

本文研究了用于安全评估的LLM-as-judge适应情境信息及不同安全定义的能力,发现它们基本是刚性的,当情境与其内部先验相矛盾时无法调整。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈