BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
behavioral-evidence
标签
Cards
List
#behavioral-evidence
你在提问前阅读的内容会改变语言模型的回答方式——即使问题与你所读的内容完全无关。LLM中的潜在对齐漏洞:来自Gemma-3-12B的行为和隐藏状态证据
Reddit r/ArtificialInteligence
↗
· 昨天
文章报告了LLM中的一个潜在对齐漏洞:模型在处理一个结构化的段落之后,即使后续问题与段落内容完全无关,其回答也可能发生变化。来自Gemma-3-12B的机制证据显示了隐藏状态的分离。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交