标签
本文介绍了 YFPO,这是一种神经元引导的偏好优化框架,利用内部激活信号来提高大型语言模型在数学推理方面的能力。
这项研究表明,通过靶向负责拒绝响应的单个神经元,可以绕过大型语言模型的安全对齐机制,揭示了安全机制并非稳健地分布在整个模型中,而是由单个神经元介导的。
本文介绍了IRiS,一种无需训练的情境人格引导框架,它通过识别和利用情境依赖的人格神经元,超越了静态人格建模。该方法表明,大型语言模型的行为随情境变化,并提出了基于神经元的识别、检索和加权引导方法,在PersonalityBench和新增的SPBench基准上得到验证。
论文页面 - MNAFT:用于图像翻译的多模态大语言模型模态神经元感知微调 来源:[https://huggingface.co/papers/2604.16943](https://huggingface.co/papers/2604.16943) 发布日期:4月18日 · 提交者 [https://huggingface.co/liboaccn](https://huggingface.co/liboaccn) [](https://huggingface.co/liboaccn) [Bo Li](https://huggingface.co/liboaccn)