RemoteZero:实现零人工标注的地理空间推理

Hugging Face Daily Papers 论文

摘要

RemoteZero 是一个框架,通过利用多模态大语言模型(MLLMs)的语义验证能力,消除了地理空间推理中对人工标注框监督的需求,从而实现了从未经标注的遥感数据中进行自我演进的定位能力。

地理空间推理要求模型将复杂的空间语义和用户意图解析为地球观测中的精确目标位置。近期的进展使推理路径摆脱了人工策划的限制,允许模型生成自己的推理链。然而,最终依赖仍然存在:模型仍然受到人工标注的真实坐标监督。这使得推理过程具有自主性,但其空间终点并非如此,从而阻碍了在大量未标注遥感数据上的真正自我演进。为了突破这一瓶颈,我们引入了 RemoteZero,这是一个无需框监督的地理空间推理框架。RemoteZero 的灵感来源于一个简单的不对称性:与直接生成精确坐标相比,MLLM 通常更擅长验证某个区域是否满足查询。利用这种更强的判别能力,RemoteZero 用内在的语义验证取代了几何监督,并实现了无需框标注的 GRPO 训练。由此产生的框架进一步支持迭代式自我演进,使模型能够通过自身的验证信号从未标注的遥感图像中不断提升。实验表明,RemoteZero 在与强监督方法的对比中取得了具有竞争力的性能,展示了自验证训练在地理空间推理定位方面的潜力。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 06:56

论文页面 - RemoteZero: 零人类标注下的地理空间推理

来源: https://huggingface.co/papers/2605.04451

摘要

RemoteZero 利用多模态大型语言模型(MLLM)的语义验证能力,无需边界框监督即可从无标注的遥感数据中进行自演进定位,从而实现地理空间推理。

地理空间推理 (https://huggingface.co/papers?q=Geospatial%20reasoning) 要求模型将复杂的空间语义和用户意图解析为地球观测中的精确目标位置。最近的进展解放了推理路径,使其不再依赖人工策划,允许模型生成自己的推理链。然而,仍存在一个最后的依赖项:它们仍然受到人工标注的真值坐标的监督。这使得推理过程是自主的,但其空间端点并非如此,从而阻止了在丰富的无标注遥感数据上进行真正的自演进 (https://huggingface.co/papers?q=self-evolution)。为了打破这一瓶颈,我们引入了 RemoteZero,这是一个无需边界框监督 (https://huggingface.co/papers?q=box-supervision-free) 的地理空间推理 (https://huggingface.co/papers?q=geospatial%20reasoning) 框架。RemoteZero 的动机源于一个简单的不对称性:多模态大模型 (https://huggingface.co/papers?q=MLLM) 通常更擅长验证某个区域是否满足查询,而不是直接生成精确的坐标。利用这种更强的判别能力,RemoteZero 用内在的语义验证 (https://huggingface.co/papers?q=semantic%20verification) 替代了几何监督,并实现了无需边界框标注的 GRPO 训练 (https://huggingface.co/papers?q=GRPO%20training)。该框架进一步支持迭代式自演进 (https://huggingface.co/papers?q=self-evolution),允许模型通过自身的验证信号从无标注的遥感图像 (https://huggingface.co/papers?q=remote%20sensing%20imagery) 中提升性能。实验表明,RemoteZero 在与强监督方法相比时取得了具有竞争力的性能,证明了自验证训练在地理空间推理 (https://huggingface.co/papers?q=geospatial%20reasoning) 定位 (https://huggingface.co/papers?q=localization) 中的潜力。

查看 arXiv 页面 (https://arxiv.org/abs/2605.04451) 查看 PDF (https://arxiv.org/pdf/2605.04451) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.04451)

在您的代理中获取此论文:

hf papers read 2605\.04451

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.04451 以从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.04451 以从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.04451 以从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

Self-Distillation Zero:自我修订将二元奖励转化为密集监督

Hugging Face Daily Papers

Self-Distillation Zero (SD-Zero) 是一种新颖的训练方法,通过双角色训练将稀疏的二元奖励转化为密集的token级监督,其中模型同时充当生成器和修订者,在数学和代码推理基准上实现了超过10%的性能提升,且样本效率高于强化学习方法。

乱码也有效:提示空间扰动拓宽推理探索

Hugging Face Daily Papers

本文介绍了 LoPE,这是一种利用提示空间扰动来解决可验证奖励强化学习中“零优势问题”的训练框架,从而增强大语言模型的推理探索能力。