BadWorld：对世界模型的对抗性攻击

Hugging Face Daily Papers 2026/06/15 00:00 论文

adversarial-attacks world-models robustness perturbations safety-critical self-supervised

摘要

BadWorld是一种无标签的对抗框架，通过生成不可察觉的扰动来揭示视觉世界模型中的结构漏洞，这些扰动会导致未来展开中的灾难性失败。

视觉世界模型（VWMs）从单张上下文图像合成交互式的、受动作控制的展开。然而，这些模型对对抗性扰动的鲁棒性仍然是一个悬而未决的问题。标准的对抗性攻击无法评估这种脆弱性，因为攻击者缺乏真实未来视频，也无法预测后续的用户控制。我们提出BadWorld，一种专门为自回归VWMs设计的无标签对抗框架，系统性地克服了这两个限制。首先，为了绕过对未来监督的需求，我们提出了一种自监督速度攻击，直接干扰模型的早期去噪动力学。其次，为了确保攻击能够泛化到不可预测的用户动作，我们设计了一种轨迹自适应双层优化，主动挖掘困难控制序列以生成与控制无关的扰动。在具有连续和离散控制的代表性VWMs上进行评估，BadWorld暴露了严重的结构脆弱性。视觉上无法区分的对抗图像可靠地触发未来展开中的灾难性退化，导致去噪不完整、结构坍塌和控制不一致。这些发现揭示了在安全关键系统中部署VWMs的关键风险，同时也突出了用于隐私保护的一种实用机制。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:33

论文页面 - BadWorld：对世界模型的对抗攻击

来源：https://huggingface.co/papers/2606.16519

摘要

BadWorld 是一个无标签的对抗框架，通过生成难以察觉的扰动来揭示视觉世界模型中的结构性脆弱性，从而导致未来展开（rollouts）出现灾难性失败。

视觉世界模型（https://huggingface.co/papers?q=Visual%20world%20models）（VWMs）能够从单张上下文图像中合成交互式的、受动作条件约束的展开序列。然而，这些模型对于对抗扰动（https://huggingface.co/papers?q=adversarial%20perturbations）的鲁棒性仍有待探究。标准的对抗攻击因攻击者缺乏真实未来视频且无法预测后续用户控制，难以评估这种脆弱性。我们提出 BadWorld，这是一个专为自回归 VWMs 量身定制的无标签对抗框架，系统地克服了上述两个限制。首先，为了绕过对未来监督的需求，我们提出了一种自监督速度攻击（https://huggingface.co/papers?q=self-supervised%20velocity%20attack），直接破坏模型早期的去噪动力学（https://huggingface.co/papers?q=denoising%20dynamics）。其次，为确保攻击能泛化到不可预测的用户动作，我们设计了轨迹自适应双层优化（https://huggingface.co/papers?q=trajectory-adaptive%20bi-level%20optimization），主动挖掘困难的控制序列以锻造控制无关的扰动（https://huggingface.co/papers?q=control-agnostic%20perturbations）。在具有连续和离散控制的代表性 VWMs 上评估，BadWorld 暴露了显著的结构脆弱性（https://huggingface.co/papers?q=structural%20fragility）。视觉上难以区分的对抗图像可靠地触发了未来展开（https://huggingface.co/papers?q=future%20rollouts）中的灾难性退化，导致去噪不完整、结构坍塌和控制不一致。这些发现揭示了在安全关键系统中部署 VWMs 的关键风险，同时突显了一种实用的隐私保护机制。

查看 arXiv 页面（https://arxiv.org/abs/2606.16519）查看 PDF（https://arxiv.org/pdf/2606.16519）项目页面（https://linghuiishen.github.io/BadWorld/）GitHub3（https://github.com/LinghuiiShen/BadWorld）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.16519）

在你的 agent 中获取这篇论文：

hf papers read 2606.16519

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.16519 以从本页面链接。

引用此论文的数据集0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.16519 以从本页面链接。

引用此论文的 Space0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.16519 以从本页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将这篇论文添加到收藏集（https://huggingface.co/new-collection）以从本页面链接。

BadWorld：对世界模型的对抗性攻击

论文页面 - BadWorld：对世界模型的对抗攻击

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集0

相似文章

Baba in Wonderland：面向可执行世界模型的在线自监督动态发现

stable-worldmodel-v1：可复现的世界建模研究与评估

背景也重要：用可迁移攻击攻破医学视觉语言模型

神经网络策略的对抗性攻击

ActWorld：从可探索到可交互的世界模型——基于动作感知记忆

提交意见反馈