Micro-World - 动作控制的交互世界模型 - AMD

Reddit r/LocalLLaMA 模型

摘要

AMD 发布了 Micro-World,这是一个基于 Wan2.1 系列构建的动作控制交互世界模型,并提供了开源权重、代码和精心整理的数据集,用于可控世界建模。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/07/03 14:39

amd/Micro-World · Hugging Face

来源:https://huggingface.co/amd/Micro-World 在这项工作中,我们提出了 Micro-World,一种动作控制的交互式世界模型,旨在生成高质量、开放域场景。基于 Wan2.1 模型系列,我们训练了图像到世界(I2W)和文本到世界(T2W)两种变体,以支持广泛的用例。为了促进社区内的开放研究和实际应用,我们发布了模型权重、完整的训练和推理代码,以及一个专门为可控世界建模而策划的数据集。

对于动作注入,我们倾向于使用 adaLN(因其轻量级参数)和 ControlNet(因其在训练期间具有强大的经验稳定性)。请注意,发布的 T2W 模型是使用 ControlNet 训练的,而 I2W 模型是使用 adaLN 训练的。

更多信息请参考 GitHub 仓库 (https://github.com/AMD-AGI/Micro-World)。

https://huggingface.co/amd/Micro-World#model-architecture 模型架构

模型架构模型架构

https://huggingface.co/amd/Micro-World#video-result 视频结果

https://huggingface.co/amd/Micro-World#t2w-model T2W 模型

https://huggingface.co/amd/Micro-World#in-domain 域内

多种控制

鼠标向下和向上

鼠标向右和向左

https://huggingface.co/amd/Micro-World#open-domain 开放域

查看提示:一个舒适的客厅,阳光透过窗户照进来,复古家具,柔和的阴影。

查看提示:一个舒适的客厅,阳光透过窗户照进来,复古家具,柔和的阴影。

查看提示:以第一人称视角沿着热带岛屿的悬崖小径奔跑,下方蓝绿色的海水拍打着岩石,海风带来海洋的咸味,远处海浪的声音与海鸥的叫声交织,小径沿着陡峭的悬崖蜿蜒。

查看提示:一只小熊站在草地上一棵大树旁,黑色的皮毛在柔和的日光下闪闪发光。小熊似乎很镇定,在宁静的风景中观察周围环境,背景是连绵起伏的山丘和稀疏的树木,天空是浅蓝色的。

查看提示:一只大熊猫在一棵盛开的樱花树下安详地休息,黑白相间的毛发与粉嫩的花瓣形成美丽的对比。地面上散落着一些花瓣,宁静的场景被柔和的樱花色调和树周围的草地所框定。

查看提示:以第一人称视角探索古老的丛林遗迹,周围是巨大的石像,上面覆盖着苔藓和藤蔓。

https://huggingface.co/amd/Micro-World#i2w-model I2W 模型

查看提示:第一人称视角在夜晚的繁华城市街道上行走。霓虹灯和明亮的广告牌在两侧发光,汽车驶过,车灯和尾灯留下轻微的光轨。相机运动直接与用户动作对齐,沉浸式城市夜景。

查看提示:第一人称视角站在一座华丽的中国传统寺庙前。对称的正面装饰着红灯笼、精细的雕刻和带有龙形装饰的弧形瓦顶。明亮的日间光线,一致的环境,相机运动直接与用户动作对齐,沉浸式交互探索。

查看提示:第一人称视角站在岩石沙漠山谷中,看着几米外的一只骆驼。骆驼平静地站在不平整的石头上,长腿和单峰清晰可见。正午的阳光,干燥的空气,柔和的大地色调,远处的荒山。自然的掌机感,相机运动由用户动作控制,平滑移动,电影般的真实感。

查看提示:第一人称视角穿过一条狭窄的城市小巷,两侧是老旧的红砖工业建筑,鹅卵石街道向前延伸,具有强烈的纵深感,金属走道连接上方的建筑,阴天的日光,柔和的漫射光,冷色调,安静空旷的环境,无人,相机运动由用户动作控制,平滑移动,稳定的地平线,真实的尺度和几何,高真实感,电影般的城市场景。

查看提示:第一人称视角的海岸探索场景,沿着一条有木栏杆的悬崖石径行走,两旁是绿色的灌木丛,左边是大海,有轻柔的波浪,远处可见岛屿,天空晴朗。真实的头戴式相机视角,平滑的前进运动,稳定的地平线,自然的人眼高度,高真实感,一致的环境,相机运动直接与用户动作对齐,沉浸式交互探索。

查看提示:第一人称视角在一个舒适的客厅里,围绕温暖的壁炉走动,脚下的柔软地毯,家具整齐摆放,两侧有书架、植物和温暖的台灯,温暖的室内灯光,平静安静的氛围,自然的视线高度相机运动,相机运动由用户动作驱动,真实的尺度和深度,高真实感,电影般的灯光,无人,无失真。

相似文章

DreamX-World 1.0: 通用交互式世界模型

Hugging Face Daily Papers

DreamX-World 1.0 是一个通用的交互式文本/图像到视频世界模型,支持相机导航、场景持久化和跨多个领域的可提示事件,利用 E-PRoPE、因果强制和记忆条件场景持久化等新技术实现可控的长时程生成。