mitigation

标签

Cards List
#mitigation

等等,我是否公平?刻画演绎性刻板印象并用Fair-GCG加以缓解

arXiv cs.CL · 14小时前 缓存

本文识别出LLMs中的演绎性刻板印象,并提出了Fair-GCG,一个推理阶段注入框架,用于减轻公平任务中的偏见推理。

0 人收藏 0 人点赞
#mitigation

@alin_zone: 一句话缓解 Codex 降智,L站大佬提供的缓解降智方案 将这句话放到 AGENTS.md 文件中可以缓解 Codex 降智: DO NOT send optional commentary 原文链接在评论区,大家按需自取

X AI KOLs Timeline · 2天前 缓存

分享一个缓解 Codex 降智的技巧:在 AGENTS.md 文件中添加 'DO NOT send optional commentary' 这句话。

0 人收藏 0 人点赞
#mitigation

大型语言模型中记忆缓解的输出向量编辑

arXiv cs.CL · 2026-06-18 缓存

提出输出向量编辑,一种约束优化的权重编辑方法,通过修改MLP神经元的输出向量而不是将激活归零来缓解LLM中的记忆化,实现了高达87.9%的抑制效果,且局部性失败极少。

0 人收藏 0 人点赞
#mitigation

记忆过度:记忆增强模型中的谄媚评估与缓解

arXiv cs.AI · 2026-06-10 缓存

本文介绍了 MIST,一个用于评估记忆增强大型语言模型中谄媚行为的基准,表明记忆系统将谄媚行为放大了高达 25 倍,并提出了轻量级的缓解措施,在减少谄媚的同时保持事实回忆能力。

0 人收藏 0 人点赞
#mitigation

共享潜在结构实现LLMs中后门攻击的统一检测与缓解

arXiv cs.AI · 2026-06-09 缓存

本文识别了LLMs中不同后门行为之间的共享潜在机制,利用稀疏自编码器检测并因果抑制这些特征,从而在多种模型和攻击类型中实现统一的后门检测与缓解。

0 人收藏 0 人点赞
#mitigation

推出VPN服务器出口IP指纹缓解措施

Hacker News Top · 2026-05-25 缓存

Mullvad VPN 正在推出一种新的缓解措施,以防止VPN服务器之间的出口IP指纹识别,该措施已应用于多个地点的多台服务器。

0 人收藏 0 人点赞
#mitigation

大型语言模型中的毒性测量与缓解:一项全面的复制研究

arXiv cs.CL · 2026-05-15 缓存

这项复制研究评估了DExperts在缓解LLM毒性方面的效果,发现其对显式毒性几乎完美安全,但对隐式仇恨言论效果降低,并且存在显著的延迟权衡。

0 人收藏 0 人点赞
#mitigation

killswitch:一种基于函数粒度的短路熔断原语

Lobsters Hottest · 2026-05-09 缓存

# 新 Linux 内核补丁提议引入"killswitch"原语,可即时禁用存在漏洞的内核函数 一项新的 Linux 内核补丁提议引入一种"killswitch"原语,允许管理员立即禁用存在漏洞的内核函数(例如 `af_alg_sendmsg`),使其返回 `-EPERM`,从而为安全问题提供快速的临时缓解措施,无需重启系统或重新编译内核。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈