neuron-analysis

标签

Cards List
#neuron-analysis

YFPO:基于神经元引导奖励的耦合特征偏好优化在数学推理中的初步研究

arXiv cs.CL · 21小时前 缓存

本文介绍了 YFPO,这是一种神经元引导的偏好优化框架,利用内部激活信号来提高大型语言模型在数学推理方面的能力。

0 人收藏 0 人点赞
#neuron-analysis

单个神经元足以绕过大型语言模型的安全对齐

arXiv cs.CL · 昨天 缓存

这项研究表明,通过靶向负责拒绝响应的单个神经元,可以绕过大型语言模型的安全对齐机制,揭示了安全机制并非稳健地分布在整个模型中,而是由单个神经元介导的。

0 人收藏 0 人点赞
#neuron-analysis

超越静态人格:大型语言模型的情境人格引导

arXiv cs.CL · 2026-04-20 缓存

本文介绍了IRiS,一种无需训练的情境人格引导框架,它通过识别和利用情境依赖的人格神经元,超越了静态人格建模。该方法表明,大型语言模型的行为随情境变化,并提出了基于神经元的识别、检索和加权引导方法,在PersonalityBench和新增的SPBench基准上得到验证。

0 人收藏 0 人点赞
#neuron-analysis

MNAFT:用于图像翻译的多模态大语言模型模态神经元感知微调

Hugging Face Daily Papers · 2026-04-18 缓存

论文页面 - MNAFT:用于图像翻译的多模态大语言模型模态神经元感知微调 来源:[https://huggingface.co/papers/2604.16943](https://huggingface.co/papers/2604.16943) 发布日期:4月18日 · 提交者 [https://huggingface.co/liboaccn](https://huggingface.co/liboaccn) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/6582c482f3006507ea10302a/KbgSsq0FnbMngBcWPhIXi.jpeg)](https://huggingface.co/liboaccn) [Bo Li](https://huggingface.co/liboaccn)

0 人收藏 0 人点赞
← 返回首页

提交意见反馈