BadWorld:对世界模型的对抗性攻击
摘要
BadWorld是一种无标签的对抗框架,通过生成不可察觉的扰动来揭示视觉世界模型中的结构漏洞,这些扰动会导致未来展开中的灾难性失败。
查看缓存全文
缓存时间: 2026/06/16 11:33
论文页面 - BadWorld:对世界模型的对抗攻击
来源:https://huggingface.co/papers/2606.16519
摘要
BadWorld 是一个无标签的对抗框架,通过生成难以察觉的扰动来揭示视觉世界模型中的结构性脆弱性,从而导致未来展开(rollouts)出现灾难性失败。
视觉世界模型(https://huggingface.co/papers?q=Visual%20world%20models)(VWMs)能够从单张上下文图像中合成交互式的、受动作条件约束的展开序列。然而,这些模型对于对抗扰动(https://huggingface.co/papers?q=adversarial%20perturbations)的鲁棒性仍有待探究。标准的对抗攻击因攻击者缺乏真实未来视频且无法预测后续用户控制,难以评估这种脆弱性。我们提出 BadWorld,这是一个专为自回归 VWMs 量身定制的无标签对抗框架,系统地克服了上述两个限制。首先,为了绕过对未来监督的需求,我们提出了一种自监督速度攻击(https://huggingface.co/papers?q=self-supervised%20velocity%20attack),直接破坏模型早期的去噪动力学(https://huggingface.co/papers?q=denoising%20dynamics)。其次,为确保攻击能泛化到不可预测的用户动作,我们设计了轨迹自适应双层优化(https://huggingface.co/papers?q=trajectory-adaptive%20bi-level%20optimization),主动挖掘困难的控制序列以锻造控制无关的扰动(https://huggingface.co/papers?q=control-agnostic%20perturbations)。在具有连续和离散控制的代表性 VWMs 上评估,BadWorld 暴露了显著的结构脆弱性(https://huggingface.co/papers?q=structural%20fragility)。视觉上难以区分的对抗图像可靠地触发了未来展开(https://huggingface.co/papers?q=future%20rollouts)中的灾难性退化,导致去噪不完整、结构坍塌和控制不一致。这些发现揭示了在安全关键系统中部署 VWMs 的关键风险,同时突显了一种实用的隐私保护机制。
查看 arXiv 页面(https://arxiv.org/abs/2606.16519)查看 PDF(https://arxiv.org/pdf/2606.16519)项目页面(https://linghuiishen.github.io/BadWorld/)GitHub3(https://github.com/LinghuiiShen/BadWorld)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.16519)
在你的 agent 中获取这篇论文:
hf papers read 2606.16519
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2606.16519 以从本页面链接。
引用此论文的数据集0
没有数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.16519 以从本页面链接。
引用此论文的 Space0
没有 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2606.16519 以从本页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将这篇论文添加到收藏集(https://huggingface.co/new-collection)以从本页面链接。
相似文章
Baba in Wonderland:面向可执行世界模型的在线自监督动态发现
介绍了Alice,一个闭环系统,通过将失败的候选更新视为结构信号,在先验不对齐的情况下在线学习可执行世界模型,在具有语义重新映射标签的Baba Is You变体上实现了改进的性能。
stable-worldmodel-v1:可复现的世界建模研究与评估
Stable-Worldmodel (SWM) 是一个模块化、标准化的研究框架,用于开发和评估世界模型,旨在提高可复现性并支持鲁棒性和持续学习研究。
背景也重要:用可迁移攻击攻破医学视觉语言模型
MedFocusLeak 首次提出针对医学视觉语言模型的可迁移黑盒对抗攻击,通过不可察觉的背景扰动在六种成像模态上误导临床诊断。
神经网络策略的对抗性攻击
OpenAI 研究人员展示了对抗性攻击(先前在计算机视觉中研究过)对强化学习中的神经网络策略也同样有效,即使在白盒和黑盒设置中进行微小的难以察觉的扰动也会导致显著的性能下降。
ActWorld:从可探索到可交互的世界模型——基于动作感知记忆
ActWorld提出了一种分块自回归世界模型,具有层次化动作感知记忆,支持物体交互与导航,解决了现有交互世界模型中的数据和记忆瓶颈问题。