nudge

标签

Cards List
#nudge

对与错,模型都服从:LLM道德判断中的方向盲视

arXiv cs.CL · 2026-06-15 缓存

本文引入了一种双向诊断方法——顺从不对称性,发现LLM在道德判断中表现出“方向盲视”:它们对有益和有害的社会提示同样顺从,而事实领域则会选择性地遵循有益纠正。该现象在多种模型和提示类型中持续存在,突显了当前LLM对齐中的一种独特失败模式。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈