Micro-World - 动作控制的交互世界模型 - AMD

Reddit r/LocalLLaMA 2026/07/03 13:47 模型

interactive-world-model action-controlled open-source video-generation diffusion-model amd

摘要

AMD 发布了 Micro-World，这是一个基于 Wan2.1 系列构建的动作控制交互世界模型，并提供了开源权重、代码和精心整理的数据集，用于可控世界建模。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/07/03 14:39

amd/Micro-World · Hugging Face

来源：https://huggingface.co/amd/Micro-World 在这项工作中，我们提出了 Micro-World，一种动作控制的交互式世界模型，旨在生成高质量、开放域场景。基于 Wan2.1 模型系列，我们训练了图像到世界（I2W）和文本到世界（T2W）两种变体，以支持广泛的用例。为了促进社区内的开放研究和实际应用，我们发布了模型权重、完整的训练和推理代码，以及一个专门为可控世界建模而策划的数据集。

对于动作注入，我们倾向于使用 adaLN（因其轻量级参数）和 ControlNet（因其在训练期间具有强大的经验稳定性）。请注意，发布的 T2W 模型是使用 ControlNet 训练的，而 I2W 模型是使用 adaLN 训练的。

更多信息请参考 GitHub 仓库 (https://github.com/AMD-AGI/Micro-World)。

https://huggingface.co/amd/Micro-World#model-architecture 模型架构

模型架构模型架构

https://huggingface.co/amd/Micro-World#video-result 视频结果

https://huggingface.co/amd/Micro-World#t2w-model T2W 模型

https://huggingface.co/amd/Micro-World#in-domain 域内

多种控制

鼠标向下和向上

鼠标向右和向左

https://huggingface.co/amd/Micro-World#open-domain 开放域

查看提示：一个舒适的客厅，阳光透过窗户照进来，复古家具，柔和的阴影。

查看提示：以第一人称视角沿着热带岛屿的悬崖小径奔跑，下方蓝绿色的海水拍打着岩石，海风带来海洋的咸味，远处海浪的声音与海鸥的叫声交织，小径沿着陡峭的悬崖蜿蜒。

查看提示：一只小熊站在草地上一棵大树旁，黑色的皮毛在柔和的日光下闪闪发光。小熊似乎很镇定，在宁静的风景中观察周围环境，背景是连绵起伏的山丘和稀疏的树木，天空是浅蓝色的。

查看提示：一只大熊猫在一棵盛开的樱花树下安详地休息，黑白相间的毛发与粉嫩的花瓣形成美丽的对比。地面上散落着一些花瓣，宁静的场景被柔和的樱花色调和树周围的草地所框定。

查看提示：以第一人称视角探索古老的丛林遗迹，周围是巨大的石像，上面覆盖着苔藓和藤蔓。

https://huggingface.co/amd/Micro-World#i2w-model I2W 模型

查看提示：第一人称视角在夜晚的繁华城市街道上行走。霓虹灯和明亮的广告牌在两侧发光，汽车驶过，车灯和尾灯留下轻微的光轨。相机运动直接与用户动作对齐，沉浸式城市夜景。

查看提示：第一人称视角站在一座华丽的中国传统寺庙前。对称的正面装饰着红灯笼、精细的雕刻和带有龙形装饰的弧形瓦顶。明亮的日间光线，一致的环境，相机运动直接与用户动作对齐，沉浸式交互探索。

查看提示：第一人称视角站在岩石沙漠山谷中，看着几米外的一只骆驼。骆驼平静地站在不平整的石头上，长腿和单峰清晰可见。正午的阳光，干燥的空气，柔和的大地色调，远处的荒山。自然的掌机感，相机运动由用户动作控制，平滑移动，电影般的真实感。

查看提示：第一人称视角穿过一条狭窄的城市小巷，两侧是老旧的红砖工业建筑，鹅卵石街道向前延伸，具有强烈的纵深感，金属走道连接上方的建筑，阴天的日光，柔和的漫射光，冷色调，安静空旷的环境，无人，相机运动由用户动作控制，平滑移动，稳定的地平线，真实的尺度和几何，高真实感，电影般的城市场景。

查看提示：第一人称视角的海岸探索场景，沿着一条有木栏杆的悬崖石径行走，两旁是绿色的灌木丛，左边是大海，有轻柔的波浪，远处可见岛屿，天空晴朗。真实的头戴式相机视角，平滑的前进运动，稳定的地平线，自然的人眼高度，高真实感，一致的环境，相机运动直接与用户动作对齐，沉浸式交互探索。

查看提示：第一人称视角在一个舒适的客厅里，围绕温暖的壁炉走动，脚下的柔软地毯，家具整齐摆放，两侧有书架、植物和温暖的台灯，温暖的室内灯光，平静安静的氛围，自然的视线高度相机运动，相机运动由用户动作驱动，真实的尺度和深度，高真实感，电影般的灯光，无人，无失真。

Micro-World - 动作控制的交互世界模型 - AMD

amd/Micro-World · Hugging Face

https://huggingface.co/amd/Micro-World#model-architecture 模型架构

https://huggingface.co/amd/Micro-World#video-result 视频结果

https://huggingface.co/amd/Micro-World#t2w-model T2W 模型

https://huggingface.co/amd/Micro-World#in-domain 域内

https://huggingface.co/amd/Micro-World#open-domain 开放域

https://huggingface.co/amd/Micro-World#i2w-model I2W 模型

相似文章

WorldAct: 将单体3D世界激活为可交互的以对象为中心的场景

ActWorld：从可探索到可交互的世界模型——基于动作感知记忆

minWM：用于实时交互式视频世界模型的全栈开源框架

@AdinaYakup: Qwen 发布了 WebWorld，一个用于 Web Agent 的开放世界模型系列（8B/14B/32B），附带数据集，采用 Apache 2.0 许可证，在 MiniWob++ 上提升 9.9%，在 W…

DreamX-World 1.0: 通用交互式世界模型

提交意见反馈