标签
本文识别出LLMs中的演绎性刻板印象,并提出了Fair-GCG,一个推理阶段注入框架,用于减轻公平任务中的偏见推理。
分享一个缓解 Codex 降智的技巧:在 AGENTS.md 文件中添加 'DO NOT send optional commentary' 这句话。
提出输出向量编辑,一种约束优化的权重编辑方法,通过修改MLP神经元的输出向量而不是将激活归零来缓解LLM中的记忆化,实现了高达87.9%的抑制效果,且局部性失败极少。
本文介绍了 MIST,一个用于评估记忆增强大型语言模型中谄媚行为的基准,表明记忆系统将谄媚行为放大了高达 25 倍,并提出了轻量级的缓解措施,在减少谄媚的同时保持事实回忆能力。
本文识别了LLMs中不同后门行为之间的共享潜在机制,利用稀疏自编码器检测并因果抑制这些特征,从而在多种模型和攻击类型中实现统一的后门检测与缓解。
Mullvad VPN 正在推出一种新的缓解措施,以防止VPN服务器之间的出口IP指纹识别,该措施已应用于多个地点的多台服务器。
这项复制研究评估了DExperts在缓解LLM毒性方面的效果,发现其对显式毒性几乎完美安全,但对隐式仇恨言论效果降低,并且存在显著的延迟权衡。
# 新 Linux 内核补丁提议引入"killswitch"原语,可即时禁用存在漏洞的内核函数 一项新的 Linux 内核补丁提议引入一种"killswitch"原语,允许管理员立即禁用存在漏洞的内核函数(例如 `af_alg_sendmsg`),使其返回 `-EPERM`,从而为安全问题提供快速的临时缓解措施,无需重启系统或重新编译内核。