Falcon Perception

Hugging Face Blog 2026/04/01 07:13 模型

computer-vision multimodal open-source segmentation grounding tiiuae

摘要

Falcon Perception 是由 TII UAE 发布的 0.6B 参数早期融合 Transformer 模型，用于基于自然语言提示的开放词汇定位与分割，采用混合注意力机制和专用头（specialized heads）设计。

暂无内容

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 09:10

Falcon Perception

来源：https://huggingface.co/blog/tiiuae/falcon-perception

返回文章列表

FalconPerception的头像

Falcon Logo - 问题：为什么感知系统最终都变成了流水线？

TL;DR — Falcon Perception 是一个 0.6B 参数 的早期融合 Transformer，用于从自然语言提示进行开放词汇 grounding 和分割。该模型使用混合注意力掩码，在单一序列中处理 图像块 + 文本，并通过小型结构化 token 接口和轻量级输出头生成可变数量的实例。在 SA-Co 上，Falcon Perception 达到 68.0 Macro-F1（SAM 3 为 62.3），目前主要差距在于存在性校准（MCC 0.64 vs. 0.82）。我们还推出了 PBench（https://huggingface.co/datasets/tiiuae/PBench），一个诊断性基准测试，按能力（属性、OCR 引导消歧、空间约束、关系）和稠密长上下文拥挤场景分解性能。此外，我们还发布了 Falcon OCR，一个 0.3B 参数 的模型，在 olmOCR 基准和 OmniDocBench 上分别取得 80.3 和 88.6 的分数，同时拥有所有开源 OCR 模型中最高的吞吐量。

本文是对我们构建的内容、构建方式以及过程中经验总结的简洁实用概述。

问题：为什么感知系统最终都变成了流水线？

许多开放词汇感知系统采用模块化流水线构建：一个（通常是冻结的）视觉骨干网络提取特征，单独的融合/解码器阶段将其与语言结合，额外组件处理匹配和后处理。这类设计在许多场景下表现良好，但存在权衡：难以干净地扩展、难以将改进归因到正确组件，且容易随着为每种失效模式添加修复而累积复杂度。

我们提出了一个更简单的问题：如果选择合适的注意力模式、输出接口和训练信号，单个早期融合 Transformer 骨干网络能否同时处理感知和语言建模？

在我们的实验中，答案很大程度上是肯定的。本文的其余部分将描述主要设计选择及其背后的证据。

架构：早期融合、混合注意力与高效稠密接口

falcon_inference

单个自回归 Transformer 处理图像块、文本和任务 token 的统一序列。模型按固定顺序预测目标属性：<坐标> → <尺寸> → <分割>。边界框坐标和尺寸通过专用头解码，并以傅里叶特征形式重新注入。高分辨率分割掩码通过 <分割> token 与上采样图像特征的点积生成。

一个骨干网络，两种行为模式

Falcon Perception 的核心是一个稠密 Transformer，从第一层起就在共享参数空间中处理图像块和文本 token。我们不采用单独的视觉骨干网络加后期融合解码器，而是保持单一骨干网络，通过掩码和轻量级输出接口使稠密预测问题变得可处理。

图像和文本具有不同结构：像素是二维的，受益于双向上下文；而预测接口本质上是序列化的。我们通过混合注意力掩码来解决这一问题：

图像 token 对所有其他图像 token 双向关注，构建全局视觉上下文（类似于视觉编码器）。
文本和任务 token 对之前所有内容——完整的视觉前缀和前面的文本——进行因果关注。

这使得同一骨干网络在图像 token 上表现为双向视觉编码器，同时支持任务 token 上的自回归预测。

Chain-of-Perception：面向稠密输出的由粗到细监督

稠密感知不是固定尺寸的预测问题：图像可能包含零个实例或数百个实例。自回归生成提供了清晰的变长接口，但完全自回归的稠密生成（例如逐 token 的多边形或高分辨率掩码）很快变得昂贵。

我们使用小型结构化接口 Chain-of-Perception，将每个实例分解为三个步骤：

<坐标> → <尺寸> → <分割>

坐标 token：模型首先预测实例中心——解决是哪个对象的问题。
尺寸 token：然后预测空间范围——解决有多大的问题。
分割 token：最后，单个嵌入与上采样图像特征做点积，生成全分辨率二值掩码。

这种顺序是精心设计的。先确定几何信息可以减少歧义（“哪个实例？”），并使掩码预测步骤更接近在已解析对象条件下的像素细化。

专用输出头，最小化开销

骨干网络共享，解码使用针对输出类型定制的轻量级头：

坐标与尺寸头 使用 傅里叶特征编码：通过随机高斯投影将连续坐标映射到高维正弦空间。这克服了神经网络的谱偏，比离散分箱实现更精确的定位。解码后的坐标重新注入序列，作为后续 token 的条件。
分割头 计算 <分割> token 的隐状态与内容感知上采样图像特征之间的点积。由于 <分割> token 在几何信息之后生成，且能访问早期融合的视觉上下文，我们可以避免基于解码器的实例分割训练中常见的单独掩码查询机制和匈牙利匹配。

PBench：一个旨在精准定位缺失能力的基准测试

现有指代表达基准如 RefCOCO 已趋于饱和——模型 routinely 达到 90%+——且它们混淆了哪里出错。模型失败是因为读不懂文本？无法理解空间关系？无法处理拥挤场景？

我们推出 PBench，一个诊断性基准测试，按所需主导能力分离样本：

层级	能力	示例提示
L0	简单对象	“car”
L1	属性与子类型	“red car”, “broken fence”
L2	OCR 引导识别	“Diet Coke bottle”, “Nike shoes”
L3	空间理解	“car on the left”, “third window from left”
L4	关系与交互	“person holding umbrella”, “tallest building”
Dense	拥挤度压力测试	每张图像数百个实例

每个样本针对一种主导能力：OCR 提示避免空间限定词，空间提示避免图像内文本消歧。这产生能力画像而非单一不透明分数，使决定下一步投资方向（数据、训练课程或后训练）更加容易。

训练：蒸馏、大规模数据与三阶段方案

多教师蒸馏

不同于从随机权重训练（在我们的消融实验中这对分割不稳定），Falcon Perception 通过 多教师蒸馏 初始化。两个强大的视觉教师提供互补信号：

DINOv3 (ViT-H)：对分割至关重要的强局部特征
SigLIP2：用于开放词汇理解的语言对齐特征

蒸馏初始化在 ImageNet-1k 上达到 74.25% 零样本准确率，在 Pascal VOC 上达到 85.11% 线性探针 mIoU，为感知特定训练提供了强大的视觉基础。

数据：5400万张图像、1.95亿条正向表达式、4.88亿条困难负样本

我们通过多阶段流水线构建训练集：

层次聚类：通过 DINOv3 嵌入对网络爬取图像进行聚类，确保概念覆盖均匀。
VLM 驱动列举：每张图像生成稠密对象描述，按 PBench 复杂度层级分类（60% 基础，40% 高级）。
负样本挖掘：生成语义、视觉和细粒度困难负样本以对抗幻觉。
集成共识——SAM 3、Qwen3-VL-30B 和 Moondream3 必须达成一致（IoU > 0.8）才能自动接受。
人工验证——分歧样本送交标注员，恢复使自动化系统困惑的困难样本。

我们严格保持正负样本 1:1 比例。这使存在性校准成为一等目标：模型应可靠地说“不存在“，而非仅在自信时才绘制掩码。

三阶段训练（总计700 GT）

第一阶段 — 上下文列举（450 GT）： 模型学习自回归列举场景清单——预测文本表达式和它们的位置。查询之间的完全因果注意力使模型能够学习目标共现（“叉子，然后刀，然后盘子”）。这构建广泛的场景理解。

第二阶段 — 任务对齐（225 GT）： 修改注意力掩码使查询无法再相互看到，模拟推理时的独立查询。文本 token 上的损失被掩码，将梯度信号完全聚焦于存在性分类和定位。这一阶段从“场景理解“过渡到“回答这个具体问题“。

第三阶段 — 长上下文微调（10 GT）： 一个短阶段，掩码上限提升至每表达式 600 个，使用极小的恒定学习率。这使模型适应极端拥挤密度，同时不遗忘先前能力。

通过消融验证的关键设计选择：

Muon 优化器用于专用头（对比 AdamW）——在 SA-Co 检测上提升 +4.8 分
栅格顺序排列实例（对比随机/按大小）——在 SA-Co 上比随机排序提升 +10 分
Gram 特征正则化——防止偏离蒸馏特征，分割提升 +1.5 分
跨 rank 全局损失归一化——纠正 FSDP 中变长打包序列带来的偏差

实验结果

SA-Co：同类最佳的掩码质量

在 SA-Co 开放词汇分割基准上，Falcon Perception（0.6B 参数）达到 68.0 Macro-F1，对比 SAM 3 的 62.3，在属性丰富（+8.2）、食品饮料（+12.2）和运动器材（+4.0）等子集上大幅领先。同时，Falcon Perception 在存在性校准上落后 SAM 3（MCC：0.64 vs 0.82），这是最清晰的改进方向。

以下是一个输出示例——提示 “Falcon” 生成精确的实例掩码：

falcon_demo

Falcon Perception 在指代表达上也表现良好，能够正确分割视频中每帧的黑面包汉堡：

burger_output

PBench：随提示复杂度扩展

这是早期融合设计展现最大差异的地方：

| 能力 | SAM 3 | Falcon Perceptio |

Falcon Perception

Falcon Perception

问题：为什么感知系统最终都变成了流水线？

架构：早期融合、混合注意力与高效稠密接口

一个骨干网络，两种行为模式

Chain-of-Perception：面向稠密输出的由粗到细监督

专用输出头，最小化开销

PBench：一个旨在精准定位缺失能力的基准测试

训练：蒸馏、大规模数据与三阶段方案

多教师蒸馏

数据：5400万张图像、1.95亿条正向表达式、4.88亿条困难负样本

三阶段训练（总计700 GT）

实验结果

SA-Co：同类最佳的掩码质量

PBench：随提示复杂度扩展

相似文章

Olmo Hybrid：从理论到实践再回到理论

TwelveLabs 的 Pegasus 1.5

思维的谱几何：相变、指令反转、Token级动力学与Transformers推理中的完美正确性预测

ConFu：通过未来思考实现更好的推测采样

PRISM：用于顺序决策的感知与推理交织方法

提交意见反馈