behavioral-evidence

#behavioral-evidence

你在提问前阅读的内容会改变语言模型的回答方式——即使问题与你所读的内容完全无关。LLM中的潜在对齐漏洞：来自Gemma-3-12B的行为和隐藏状态证据

Reddit r/ArtificialInteligence ↗ · 昨天

文章报告了LLM中的一个潜在对齐漏洞：模型在处理一个结构化的段落之后，即使后续问题与段落内容完全无关，其回答也可能发生变化。来自Gemma-3-12B的机制证据显示了隐藏状态的分离。

0 人收藏 0 人点赞