adversarial-context

标签

Cards List
#adversarial-context

测量LLMs在误导性医疗语境下的认知韧性

Hugging Face Daily Papers · 2026-06-10 缓存

介绍了MedMisBench,用于测量LLMs在误导性语境下维持正确医疗推理的能力。结果显示,在对抗性条件下,准确率从71.1%骤降至38.0%,临床专家组指出存在潜在危害。

0 人收藏 0 人点赞
#adversarial-context

内存增强型LLM智能体中的状态污染

arXiv cs.AI · 2026-05-19 缓存

本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈