behavioral-evidence

标签

Cards List
#behavioral-evidence

你在提问前阅读的内容会改变语言模型的回答方式——即使问题与你所读的内容完全无关。LLM中的潜在对齐漏洞:来自Gemma-3-12B的行为和隐藏状态证据

Reddit r/ArtificialInteligence · 昨天

文章报告了LLM中的一个潜在对齐漏洞:模型在处理一个结构化的段落之后,即使后续问题与段落内容完全无关,其回答也可能发生变化。来自Gemma-3-12B的机制证据显示了隐藏状态的分离。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈