mitigation

#mitigation

等等，我是否公平？刻画演绎性刻板印象并用Fair-GCG加以缓解

arXiv cs.CL ↗ · 14小时前缓存

本文识别出LLMs中的演绎性刻板印象，并提出了Fair-GCG，一个推理阶段注入框架，用于减轻公平任务中的偏见推理。

0 人收藏 0 人点赞

#mitigation

@alin_zone: 一句话缓解 Codex 降智，L站大佬提供的缓解降智方案将这句话放到 AGENTS.md 文件中可以缓解 Codex 降智： DO NOT send optional commentary 原文链接在评论区，大家按需自取

X AI KOLs Timeline ↗ · 2天前缓存

分享一个缓解 Codex 降智的技巧：在 AGENTS.md 文件中添加 'DO NOT send optional commentary' 这句话。

0 人收藏 0 人点赞

#mitigation

大型语言模型中记忆缓解的输出向量编辑

arXiv cs.CL ↗ · 2026-06-18 缓存

提出输出向量编辑，一种约束优化的权重编辑方法，通过修改MLP神经元的输出向量而不是将激活归零来缓解LLM中的记忆化，实现了高达87.9%的抑制效果，且局部性失败极少。

0 人收藏 0 人点赞

#mitigation

记忆过度：记忆增强模型中的谄媚评估与缓解

arXiv cs.AI ↗ · 2026-06-10 缓存

本文介绍了 MIST，一个用于评估记忆增强大型语言模型中谄媚行为的基准，表明记忆系统将谄媚行为放大了高达 25 倍，并提出了轻量级的缓解措施，在减少谄媚的同时保持事实回忆能力。

0 人收藏 0 人点赞

#mitigation

共享潜在结构实现LLMs中后门攻击的统一检测与缓解

arXiv cs.AI ↗ · 2026-06-09 缓存

本文识别了LLMs中不同后门行为之间的共享潜在机制，利用稀疏自编码器检测并因果抑制这些特征，从而在多种模型和攻击类型中实现统一的后门检测与缓解。

0 人收藏 0 人点赞

#mitigation

推出VPN服务器出口IP指纹缓解措施

Hacker News Top ↗ · 2026-05-25 缓存

Mullvad VPN 正在推出一种新的缓解措施，以防止VPN服务器之间的出口IP指纹识别，该措施已应用于多个地点的多台服务器。

0 人收藏 0 人点赞

#mitigation

大型语言模型中的毒性测量与缓解：一项全面的复制研究

arXiv cs.CL ↗ · 2026-05-15 缓存

这项复制研究评估了DExperts在缓解LLM毒性方面的效果，发现其对显式毒性几乎完美安全，但对隐式仇恨言论效果降低，并且存在显著的延迟权衡。

0 人收藏 0 人点赞

#mitigation

killswitch：一种基于函数粒度的短路熔断原语

Lobsters Hottest ↗ · 2026-05-09 缓存

# 新 Linux 内核补丁提议引入"killswitch"原语，可即时禁用存在漏洞的内核函数一项新的 Linux 内核补丁提议引入一种"killswitch"原语，允许管理员立即禁用存在漏洞的内核函数（例如 `af_alg_sendmsg`），使其返回 `-EPERM`，从而为安全问题提供快速的临时缓解措施，无需重启系统或重新编译内核。

0 人收藏 0 人点赞

mitigation

提交意见反馈