RemoteZero:实现零人工标注的地理空间推理
摘要
RemoteZero 是一个框架,通过利用多模态大语言模型(MLLMs)的语义验证能力,消除了地理空间推理中对人工标注框监督的需求,从而实现了从未经标注的遥感数据中进行自我演进的定位能力。
查看缓存全文
缓存时间: 2026/05/08 06:56
论文页面 - RemoteZero: 零人类标注下的地理空间推理
来源: https://huggingface.co/papers/2605.04451
摘要
RemoteZero 利用多模态大型语言模型(MLLM)的语义验证能力,无需边界框监督即可从无标注的遥感数据中进行自演进定位,从而实现地理空间推理。
地理空间推理 (https://huggingface.co/papers?q=Geospatial%20reasoning) 要求模型将复杂的空间语义和用户意图解析为地球观测中的精确目标位置。最近的进展解放了推理路径,使其不再依赖人工策划,允许模型生成自己的推理链。然而,仍存在一个最后的依赖项:它们仍然受到人工标注的真值坐标的监督。这使得推理过程是自主的,但其空间端点并非如此,从而阻止了在丰富的无标注遥感数据上进行真正的自演进 (https://huggingface.co/papers?q=self-evolution)。为了打破这一瓶颈,我们引入了 RemoteZero,这是一个无需边界框监督 (https://huggingface.co/papers?q=box-supervision-free) 的地理空间推理 (https://huggingface.co/papers?q=geospatial%20reasoning) 框架。RemoteZero 的动机源于一个简单的不对称性:多模态大模型 (https://huggingface.co/papers?q=MLLM) 通常更擅长验证某个区域是否满足查询,而不是直接生成精确的坐标。利用这种更强的判别能力,RemoteZero 用内在的语义验证 (https://huggingface.co/papers?q=semantic%20verification) 替代了几何监督,并实现了无需边界框标注的 GRPO 训练 (https://huggingface.co/papers?q=GRPO%20training)。该框架进一步支持迭代式自演进 (https://huggingface.co/papers?q=self-evolution),允许模型通过自身的验证信号从无标注的遥感图像 (https://huggingface.co/papers?q=remote%20sensing%20imagery) 中提升性能。实验表明,RemoteZero 在与强监督方法相比时取得了具有竞争力的性能,证明了自验证训练在地理空间推理 (https://huggingface.co/papers?q=geospatial%20reasoning) 定位 (https://huggingface.co/papers?q=localization) 中的潜力。
查看 arXiv 页面 (https://arxiv.org/abs/2605.04451) 查看 PDF (https://arxiv.org/pdf/2605.04451) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.04451)
在您的代理中获取此论文:
hf papers read 2605\.04451
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.04451 以从此页面链接。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.04451 以从此页面链接。
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.04451 以从此页面链接。
包含此论文的收藏集 0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
TRN-R1-Zero:仅通过强化学习实现富文本网络推理
TRN-R1-Zero 提出一种后训练框架,让大模型在无需监督微调或思维链数据的情况下,仅凭强化学习即可对富文本网络进行零样本推理。
DiZiNER: 分歧引导的指令优化通过模拟试点标注实现零样本命名实体识别
DiZiNER 是一个利用多个大语言模型之间的分歧来优化零样本命名实体识别任务指令的框架,在18个基准测试中的14个上取得了最先进的结果,并显著缩小了零样本与监督系统之间的性能差距。
Self-Distillation Zero:自我修订将二元奖励转化为密集监督
Self-Distillation Zero (SD-Zero) 是一种新颖的训练方法,通过双角色训练将稀疏的二元奖励转化为密集的token级监督,其中模型同时充当生成器和修订者,在数学和代码推理基准上实现了超过10%的性能提升,且样本效率高于强化学习方法。
GeoStack:一种用于VLMs中拟阿贝尔知识组合的框架
GeoStack 引入了一种几何框架,用于在视觉语言模型中组合独立训练的领域专家,而不会出现灾难性遗忘,实现了常数时间推理,并将几何误差降低了10倍。
乱码也有效:提示空间扰动拓宽推理探索
本文介绍了 LoPE,这是一种利用提示空间扰动来解决可验证奖励强化学习中“零优势问题”的训练框架,从而增强大语言模型的推理探索能力。