neuron-analysis

#neuron-analysis

YFPO：基于神经元引导奖励的耦合特征偏好优化在数学推理中的初步研究

arXiv cs.CL ↗ · 21小时前缓存

本文介绍了 YFPO，这是一种神经元引导的偏好优化框架，利用内部激活信号来提高大型语言模型在数学推理方面的能力。

0 人收藏 0 人点赞

#neuron-analysis

单个神经元足以绕过大型语言模型的安全对齐

arXiv cs.CL ↗ · 昨天缓存

这项研究表明，通过靶向负责拒绝响应的单个神经元，可以绕过大型语言模型的安全对齐机制，揭示了安全机制并非稳健地分布在整个模型中，而是由单个神经元介导的。

0 人收藏 0 人点赞

#neuron-analysis

超越静态人格：大型语言模型的情境人格引导

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了IRiS，一种无需训练的情境人格引导框架，它通过识别和利用情境依赖的人格神经元，超越了静态人格建模。该方法表明，大型语言模型的行为随情境变化，并提出了基于神经元的识别、检索和加权引导方法，在PersonalityBench和新增的SPBench基准上得到验证。

0 人收藏 0 人点赞

#neuron-analysis

MNAFT：用于图像翻译的多模态大语言模型模态神经元感知微调

Hugging Face Daily Papers ↗ · 2026-04-18 缓存

论文页面 - MNAFT：用于图像翻译的多模态大语言模型模态神经元感知微调来源：[https://huggingface.co/papers/2604.16943](https://huggingface.co/papers/2604.16943) 发布日期：4月18日 · 提交者 [https://huggingface.co/liboaccn](https://huggingface.co/liboaccn) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/6582c482f3006507ea10302a/KbgSsq0FnbMngBcWPhIXi.jpeg)](https://huggingface.co/liboaccn) [Bo Li](https://huggingface.co/liboaccn)

0 人收藏 0 人点赞

neuron-analysis

YFPO：基于神经元引导奖励的耦合特征偏好优化在数学推理中的初步研究

单个神经元足以绕过大型语言模型的安全对齐

超越静态人格：大型语言模型的情境人格引导

MNAFT：用于图像翻译的多模态大语言模型模态神经元感知微调

提交意见反馈