BadWorld:对世界模型的对抗性攻击

Hugging Face Daily Papers 论文

摘要

BadWorld是一种无标签的对抗框架,通过生成不可察觉的扰动来揭示视觉世界模型中的结构漏洞,这些扰动会导致未来展开中的灾难性失败。

视觉世界模型(VWMs)从单张上下文图像合成交互式的、受动作控制的展开。然而,这些模型对对抗性扰动的鲁棒性仍然是一个悬而未决的问题。标准的对抗性攻击无法评估这种脆弱性,因为攻击者缺乏真实未来视频,也无法预测后续的用户控制。我们提出BadWorld,一种专门为自回归VWMs设计的无标签对抗框架,系统性地克服了这两个限制。首先,为了绕过对未来监督的需求,我们提出了一种自监督速度攻击,直接干扰模型的早期去噪动力学。其次,为了确保攻击能够泛化到不可预测的用户动作,我们设计了一种轨迹自适应双层优化,主动挖掘困难控制序列以生成与控制无关的扰动。在具有连续和离散控制的代表性VWMs上进行评估,BadWorld暴露了严重的结构脆弱性。视觉上无法区分的对抗图像可靠地触发未来展开中的灾难性退化,导致去噪不完整、结构坍塌和控制不一致。这些发现揭示了在安全关键系统中部署VWMs的关键风险,同时也突出了用于隐私保护的一种实用机制。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:33

论文页面 - BadWorld:对世界模型的对抗攻击

来源:https://huggingface.co/papers/2606.16519

摘要

BadWorld 是一个无标签的对抗框架,通过生成难以察觉的扰动来揭示视觉世界模型中的结构性脆弱性,从而导致未来展开(rollouts)出现灾难性失败。

视觉世界模型(https://huggingface.co/papers?q=Visual%20world%20models)(VWMs)能够从单张上下文图像中合成交互式的、受动作条件约束的展开序列。然而,这些模型对于对抗扰动(https://huggingface.co/papers?q=adversarial%20perturbations)的鲁棒性仍有待探究。标准的对抗攻击因攻击者缺乏真实未来视频且无法预测后续用户控制,难以评估这种脆弱性。我们提出 BadWorld,这是一个专为自回归 VWMs 量身定制的无标签对抗框架,系统地克服了上述两个限制。首先,为了绕过对未来监督的需求,我们提出了一种自监督速度攻击(https://huggingface.co/papers?q=self-supervised%20velocity%20attack),直接破坏模型早期的去噪动力学(https://huggingface.co/papers?q=denoising%20dynamics)。其次,为确保攻击能泛化到不可预测的用户动作,我们设计了轨迹自适应双层优化(https://huggingface.co/papers?q=trajectory-adaptive%20bi-level%20optimization),主动挖掘困难的控制序列以锻造控制无关的扰动(https://huggingface.co/papers?q=control-agnostic%20perturbations)。在具有连续和离散控制的代表性 VWMs 上评估,BadWorld 暴露了显著的结构脆弱性(https://huggingface.co/papers?q=structural%20fragility)。视觉上难以区分的对抗图像可靠地触发了未来展开(https://huggingface.co/papers?q=future%20rollouts)中的灾难性退化,导致去噪不完整、结构坍塌和控制不一致。这些发现揭示了在安全关键系统中部署 VWMs 的关键风险,同时突显了一种实用的隐私保护机制。

查看 arXiv 页面(https://arxiv.org/abs/2606.16519)查看 PDF(https://arxiv.org/pdf/2606.16519)项目页面(https://linghuiishen.github.io/BadWorld/)GitHub3(https://github.com/LinghuiiShen/BadWorld)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.16519)

在你的 agent 中获取这篇论文:

hf papers read 2606.16519

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.16519 以从本页面链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.16519 以从本页面链接。

引用此论文的 Space0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.16519 以从本页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将这篇论文添加到收藏集(https://huggingface.co/new-collection)以从本页面链接。

相似文章

神经网络策略的对抗性攻击

OpenAI Blog

OpenAI 研究人员展示了对抗性攻击(先前在计算机视觉中研究过)对强化学习中的神经网络策略也同样有效,即使在白盒和黑盒设置中进行微小的难以察觉的扰动也会导致显著的性能下降。