vision-language

#vision-language

LocateAnything: 快速高质量的视觉-语言定位与并行框解码

Hugging Face Daily Papers ↗ · 2026-05-26 缓存

LocateAnything 提出并行框解码用于统一视觉定位与目标检测，将几何元素解码为原子单元，以提高吞吐量和定位精度，并得到包含1.38亿样本的大规模数据集的支持。

0 人收藏 0 人点赞

#vision-language

Kwai-Keye/Keye-VL-2.0-30B-A3B

Hugging Face Models Trending ↗ · 2026-05-25 缓存

Kwai-Keye 发布了 Keye-VL-2.0-30B-A3B，这是一款 30B 级别的视觉语言模型，具备先进的视频理解、稀疏注意力机制和智能体能力，在多项基准测试中达到顶尖水平。

0 人收藏 0 人点赞

#vision-language

LLaVA-OneVision-2：迈向下一代感知智能

Hugging Face Daily Papers ↗ · 2026-05-25 缓存

LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解，在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。

0 人收藏 0 人点赞

#vision-language

@dealignai: Qwen3.6-27b 和 35b 的 MXFP4 与 MXFP8 CRACK 版本现已推出，支持 MTP。尽享无审查的极速体验！35b mxfp4: https://huggingface…

X AI KOLs Timeline ↗ · 2026-05-24 缓存

DealignAI 发布了 Qwen3.6-27B 和 35B 模型的 CRACK-abliterated 以及 MXFP4/MXFP8 量化版本，保留了 MTP，可在 Apple Silicon 上实现更快的推测解码。

0 人收藏 0 人点赞

#vision-language

stepfun-ai/Step-3.7-Flash

Hugging Face Models Trending ↗ · 2026-05-23 缓存

Step 3.7 Flash 是一个198B参数的稀疏MoE视觉语言模型，每个token有11B活跃参数，支持256k上下文和三种推理级别，专为高吞吐量的代理工作流设计。

0 人收藏 0 人点赞

#vision-language

对应用地球观测中组合图像检索的基准测试

Hugging Face Daily Papers ↗ · 2026-05-23 缓存

本文提出了一个地球观测中组合图像检索的统一基准，评估了视觉-语言骨干网络，并引入了一个以变化为中心的灾害监测数据集（xView2-CIR），强调了与基于属性检索相比的独特挑战。

0 人收藏 0 人点赞

#vision-language

看我之意：面向视频细粒度对象理解的视觉与语言表征对齐

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

SWIM是一种新颖的训练策略，仅使用文本提示即可对齐视觉和语言表征以实现细粒度对象理解，并在训练期间利用掩码监督来改善跨模态注意力。该方法引入了NL-Refer数据集，并在细粒度对象理解基准测试中取得了优于基于视觉提示的方法的性能。

0 人收藏 0 人点赞

#vision-language

统一多模态模型的语义生成微调

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

介绍了语义生成微调（SGT），一种利用图像分割作为生成代理来对齐统一多模态模型中的视觉理解和生成任务的范式，从而提升理解能力和生成保真度。

0 人收藏 0 人点赞

#vision-language

@FeitengLi: OpenBMB 开源 MiniCPM-V 4.6 了，1.3B 参数（SigLIP2-400M + Qwen3.5-0.8B），262k 上下文，视觉编码 FLOPs 比上一代少 50%+。同任务 token 成本比 Qwen3.5-0…

X AI KOLs Timeline ↗ · 2026-05-16 缓存

OpenBMB releases MiniCPM-V 4.6, a 1.3B-parameter multimodal LLM with 262k context and significantly reduced visual encoding FLOPs, achieving strong benchmark performance and broad inference framework support.

0 人收藏 0 人点赞

#vision-language

看不清还是想不对？面向视觉语言推理的感知奖励

arXiv cs.AI ↗ · 2026-05-15 缓存

本文提出一种强化学习框架，通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同，利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。

0 人收藏 0 人点赞

#vision-language

Physics-R1: 经过审计的奥赛语料库与视觉物理推理配方

arXiv cs.CL ↗ · 2026-05-15 缓存

本文对多模态物理评估流程进行了审计，揭示了诸如训练-评估污染、翻译漂移和多项选择题(MCQ)饱和等问题。它发布了新数据集（PhysCorp-A、PhysR1Corp、PhysOlym-A）和一个训练配方（Physics-R1），显著提高了在保留的奥赛问题上的性能。

0 人收藏 0 人点赞

#vision-language

贝叶斯模型合并

arXiv cs.LG ↗ · 2026-05-14 缓存

介绍贝叶斯模型合并（BMM），这是一个即插即用的双层优化框架，用于将多个任务特定的专家模型合并为一个单一模型，在视觉和语言基准测试上实现了最先进的性能。

0 人收藏 0 人点赞

#vision-language

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face

Reddit r/LocalLLaMA ↗ · 2026-05-13 缓存

Ovis2.6-80B-A3B 是 AIDC-AI 最新发布的多模态大语言模型，采用混合专家（Mixture-of-Experts）架构，总参数达 80B，但在推理时仅激活 3B 参数。该模型具备增强的长上下文处理能力、高分辨率理解能力以及主动视觉推理能力。

0 人收藏 0 人点赞

#vision-language

@AdinaYakup：Alibaba AIDC 团队全新 MoE 多模态大语言模型 Ovis2.6-80B-A3B ｜ 80B/3B 激活参数｜ Apache 2.0 ｜ 64K 上下文 / 2880×2880 图像…

X AI KOLs Following ↗ · 2026-05-12 缓存

Alibaba AIDC 团队已发布 Ovis2.6-80B-A3B，这是一款遵循 Apache 2.0 许可的混合专家（MoE）多模态大语言模型。该模型具备 80B 总参数量与 3B 激活参数，支持 64K 上下文长度，并原生支持 2880×2880 图像分辨率以及链式思考（CoT）视觉推理。

0 人收藏 0 人点赞

#vision-language

@berryxia: Apple 一直其实在赌端侧模型的应用！统一架构内存就是端侧模型的天然温床！统一内存也就是，内存即显存。也看到越来越多的优秀端侧模型出现。 OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了，我看完…

X AI KOLs Timeline ↗ · 2026-05-12

OpenBMB 发布了 MiniCPM-V 4.6，一个 1.3B 参数的多模态模型，通过高分辨率视觉处理和高效压缩技术，在消费级硬件和手机上实现快速推理，性能超过同类大模型，且全面开源支持多种推理和量化框架。

0 人收藏 0 人点赞

#vision-language

AI CFD Scientist: 迈向基于物理感知AI代理的开放式计算流体动力学发现

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

本文介绍了AI CFD Scientist，一个用于计算流体动力学的开源AI代理，它利用视觉语言验证和代码修改自主发现物理修正，在CFD任务上优于通用AI科学家。

0 人收藏 0 人点赞

#vision-language

SenseNova-U1：基于 NEO-unify 架构统一多模态理解与生成

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

本文介绍了 SenseNova-U1，这是一种统一的多模态架构，整合了理解与生成任务。我们发布了两个变体（8B 和 30B），在感知能力和图像合成方面均表现出竞争力的性能。

0 人收藏 0 人点赞

#vision-language

SleepWalk：一个用于压力测试指令引导的视觉语言导航的三层基准

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

SleepWalk 是一个三层基准，用于评估视觉语言模型从文本指令和视觉观察中预测3D环境中空间连贯轨迹的能力，揭示了在遮挡和多步指令下接地空间推理的系统性失败。

0 人收藏 0 人点赞

#vision-language

OpenSearch-VL：一种用于前沿多模态搜索智能体的开源训练配方

Hugging Face Daily Papers ↗ · 2026-05-06 缓存

OpenSearch-VL 是一个开源框架及论文，介绍了一种利用强化学习训练前沿多模态搜索智能体的方法，其中包含专用的数据筛选流程以及一种新颖的训练算法。

0 人收藏 0 人点赞

#vision-language

numind/NuExtract3

Hugging Face Models Trending ↗ · 2026-04-29 缓存

NuExtract3 是一个 4B 参数规模的视觉-语言推理模型，用于文档理解，支持结构化提取和图像到 Markdown 的转换。

0 人收藏 0 人点赞

vision-language

提交意见反馈