标签
本文介绍了FBK在IWSLT 2026指令跟随共享任务中的提交,开发了用于短时和长时语音指令跟随的SpeechLLMs,探索了分割方法,并通过固定30秒分割实现了稳健的长时性能。
本文介绍了CALHippo,一个利用最先进的分割和密度估计模型对人脑海马体中的神经元和胶质细胞进行3D映射的框架。
本文提出MAOAM,一个统一的视觉-语言模型框架,能够通过文本或点击交互实现精确的物体和材质选择,用于交互式图像编辑。它引入了一个可扩展的数据生成流程,并展示了在推理时结合文本和点击的涌现提升。
组提示(Group Prompting)引入了一种无训练框架,用于细胞实例分割,只需对每种细胞类型进行一次点击,利用Segment Anything Model的特征空间递归扩展提示,无需训练即可实现有竞争力的性能。
InstructSAM 提出了一个统一的框架,用于多实例分割,采用指令驱动的查询,桥接视觉语言模型和 SAM3,在复杂基准上取得了强劲结果。
介绍了语义生成微调(SGT),一种利用图像分割作为生成代理来对齐统一多模态模型中的视觉理解和生成任务的范式,从而提升理解能力和生成保真度。
AuralSAM2通过AuralFuser模块将音频集成到SAM2中,该模块从视听特征生成稀疏和密集提示,在保持交互效率的同时增强跨模态分割。
介绍了CAFE,一种通过反事实属性操作来评估可提示分割模型是否真正理解概念的基准,揭示了精确的掩码预测并不能保证忠实的语义基础。
# 论文页面 - TwinTrack:医学影像分割的事后多标注者校准 来源:[https://huggingface.co/papers/2604.15950](https://huggingface.co/papers/2604.15950) ## 摘要 TwinTrack 框架通过将集成概率事后校准为经验平均人类响应,解决胰腺癌分割中的模糊性,在多标注者基准上提升校准指标。
Falcon Perception 是由 TII UAE 发布的 0.6B 参数早期融合 Transformer 模型,用于基于自然语言提示的开放词汇定位与分割,采用混合注意力机制和专用头(specialized heads)设计。