标签
4DThinker 是一个新框架,使视觉-语言模型能够利用 4D 潜在心理意象执行动态空间推理。该论文引入了可扩展的数据生成方法以及新颖的微调技术(包括 4D 强化学习),以提升模型在复杂动态任务上的性能。