vision-language

#vision-language

REVEAL++：面向阿尔茨海默病风险视觉-语言视网膜建模的可微分表型分组

arXiv cs.AI ↗ · 4天前缓存

本文介绍了REVEAL++，一种用于视觉-语言对比学习的可微分表型分组方法，应用于视网膜眼底图像和临床风险叙述，以预测阿尔茨海默病风险，其性能优于离散分组基线方法。

0 人收藏 0 人点赞

#vision-language

研究人员推出T-Rex，一个统一视觉、语言和触觉感知的框架，使机器人能够实时响应物理接触，而非仅依赖视觉

Reddit r/singularity ↗ · 4天前

研究人员推出了T-Rex，这是一个集成了视觉、语言和触觉感知的框架，使机器人能够实时响应物理接触，而非仅依赖视觉。

0 人收藏 0 人点赞

#vision-language

DeepSeek 推出视觉功能

Hacker News Top ↗ · 6天前

DeepSeek 宣布推出新的视觉功能，很可能是一个视觉语言模型，拓展其人工智能服务。

0 人收藏 0 人点赞

#vision-language

重新审视用于3D CT报告生成的LLM适配：规模与诊断先验研究

arXiv cs.CL ↗ · 2026-06-17 缓存

本文研究了将大语言模型适配到3D CT报告生成的参数高效策略，提出了RAD3D-Prefix，一个轻量级的诊断先验条件框架，该框架保持LLM冻结，仅需极少的可训练参数。结果表明，冻结更大的LLM（约10亿参数以上）并仅训练轻量级投影层，能够在性能、泛化能力和计算效率之间实现更优的权衡。

0 人收藏 0 人点赞

#vision-language

强化空间视觉语言模型中的双路径推理

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

本文介绍了SR-REAL，一个统一的空间视觉语言模型框架，通过强化学习结合了语言推理和三维几何推理，使得模型能够在多种任务中实现稳健的多步空间推理。

0 人收藏 0 人点赞

#vision-language

UniDDT: 通过解耦扩散变换器统一多模态理解与生成

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

UniDDT提出了一种解耦扩散变换器框架，通过利用Noisy ViT编码器和LLM进行语义编码，统一了多模态理解与生成，在两个任务上均取得了强劲性能。

0 人收藏 0 人点赞

#vision-language

OpenMedQ：面向医学视觉语言模型的广泛开放预训练

arXiv cs.AI ↗ · 2026-06-12 缓存

OpenMedQ 是一个完全开放的医学视觉语言模型，在 14 个数据集（约 335 万样本）上进行预训练，在医学 VQA 和分类基准上取得了最先进的结果。

0 人收藏 0 人点赞

#vision-language

JoyAI-VL-Interaction: 实时视觉-语言交互智能

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

本文介绍了JoyAI-VL-Interaction，一个开源8B规模的视觉-语言模型，可实时持续运行，自主决定何时响应或委派。它包含一个完整的可部署系统和一个训练配方，在人类评估中优于Doubao和Gemini。

0 人收藏 0 人点赞

#vision-language

通过最差维度优化改进多模态推理

arXiv cs.AI ↗ · 2026-06-09 缓存

本文提出了多模态多维度标量化过程奖励建模（MMS-PRM），该方法在多模态推理中强制最差维度的鲁棒性，以防止视觉幻觉等失败被强大的文本逻辑掩盖。

0 人收藏 0 人点赞

#vision-language

Embodied-R1.5: 通过具身基础模型进化物理智能

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

Embodied-R1.5 是一个统一的具身基础模型，通过多任务平衡强化学习在 24 个具身视觉-语言基准测试中的 16 个上取得了最先进性能。它引入了一个规划器-接地器-校正器闭环框架用于长视界任务，并且已开源以促进未来研究。

0 人收藏 0 人点赞

#vision-language

ARM：采用统一离散表示的自回归大型多模态模型

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

ARM提出了一种统一的基于离散语义标记化和强化学习优化的自回归框架，用于图像理解、生成与编辑，并展示了跨任务协同效果。

0 人收藏 0 人点赞

#vision-language

AsyncWebRL：面向视觉Web代理的高效多步强化学习

arXiv cs.LG ↗ · 2026-06-05 缓存

AsyncWebRL提出了一种异步多步强化学习系统，用于视觉语言Web代理，通过用常数替换每条轨迹的归一化项以减少轨迹长度低效问题，实现了高达2.9倍的训练加速，并在WebGym上取得了新的最优结果。

0 人收藏 0 人点赞

#vision-language

@liquidai: 推出 LFM2.5-VL-1.6B-Extract 和 LFM2.5-VL-450M-Extract：返回结构化JSON的视觉语言模型，而非…

X AI KOLs Timeline ↗ · 2026-06-05 缓存

Liquid AI发布了LFM2.5-VL-1.6B-Extract和LFM2.5-VL-450M-Extract，这些视觉语言模型能从图像和字段列表中输出结构化JSON。模型为开放权重，提供两种规格。

0 人收藏 0 人点赞

#vision-language

Struct-Searcher：基于主体结构思维推进多模态深度信息获取

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

Struct-Searcher 引入了一种基于信念修正理论的结构化主体工作流，用于多模态深度信息获取，相较于现有的视觉语言模型和深度研究智能体，实现了显著的准确率提升。

0 人收藏 0 人点赞

#vision-language

KODA：面向视觉-语言基础模型的对比表示比较与对齐

arXiv cs.LG ↗ · 2026-06-04 缓存

本文介绍了KODA（Kernel Optimization for Discrepancy Analysis，差异分析核优化），一种基于核的框架，用于比较和对齐视觉-语言模型表示，通过识别在CLIP、SigLIP和BLIP等模型中聚类方式不同的样本子集。该方法使用对比嵌入聚类和随机低维近似，能够扩展到大型数据集，同时提供表示之间可解释的结构差异。

0 人收藏 0 人点赞

#vision-language

基于查询的跨模态投影器增强 Mamba 多模态大语言模型

arXiv cs.CL ↗ · 2026-06-04 缓存

本文提出了一种基于查询的跨模态投影器，通过交叉注意力机制对视觉标记进行压缩，以提升基于 Mamba 的多模态大语言模型的性能。该方法在视觉语言基准测试中同时提高了模型性能和吞吐量，并消除了手动设计二维扫描顺序的需求。

0 人收藏 0 人点赞

#vision-language

多模态长对话中的细粒度片段检索

arXiv cs.CL ↗ · 2026-06-04 缓存

本文提出了细粒度片段检索（FFR）这一新任务，旨在长对话中定位语义连贯的多模态片段（文本与图像）。作者提出了基于生成的检索模型 F2RVLM（通过强化学习训练）和两阶段检索系统 FFRS，并构建了新的评测数据集 MLDR。

0 人收藏 0 人点赞

#vision-language

通用智能体能否自动化数据整理流程？

arXiv cs.AI ↗ · 2026-06-04 缓存

研究人员推出 Curation-Bench，一个用于评估通用编程智能体能否在 AI 开发中自动完成迭代数据整理循环的基准测试。结果表明，智能体可在十次迭代内达到强基线水平，但可靠的数据研究需要有脚手架支撑的方法适配，而非仅依赖开放式提示。

0 人收藏 0 人点赞

#vision-language

ToolGate：面向工具增强型视觉语言代理的令牌高效预调用控制

arXiv cs.AI ↗ · 2026-06-03 缓存

ToolGate 是一个轻量级的外部控制器，能够预测在视觉语言代理中是否执行或跳过感知工具调用，从而将令牌成本降至基线的64%-69%，同时保持跨域设置下的准确性。

0 人收藏 0 人点赞

#vision-language

MapAgent：面向城市级车道级地图生成的工业级自主框架

Hugging Face Daily Papers ↗ · 2026-06-03 缓存

MapAgent 是一个工业级自主框架，融合视觉语言处理与约束感知推理，能够自动生成符合规范的车道级地图，已在百度地图中为超过360个城市实现了95%以上的自动化。

0 人收藏 0 人点赞

vision-language

提交意见反馈