multi-modal

#multi-modal

OmniPath：用于审计轮椅无障碍性的多模态代理框架

arXiv cs.AI ↗ · 昨天缓存

OmniPath是一个多模态代理框架，结合了OpenStreetMap网络拓扑与航空LiDAR数据，通过高分辨率分析坡度、表面不连续等物理障碍来审计轮椅无障碍性，并经过实地调查验证。

0 人收藏 0 人点赞

#multi-modal

IV-CoT: 隐式视觉思维链用于结构感知的文本到图像生成

Hugging Face Daily Papers ↗ · 2天前缓存

IV-CoT 将视觉条件分解为结构和语义级联，以改进结构感知的图像生成，使用仅训练阶段的草图监督来指导结构查询。在 GenEval 和 T2I-CompBench 上达到了最先进的结果。

0 人收藏 0 人点赞

#multi-modal

ChartWalker：跨图表RAG任务基准测试

Hugging Face Daily Papers ↗ · 3天前缓存

ChartWalker 提出了一种新颖的跨图表检索增强生成（RAG）框架，采用分层知识图谱构建和结构感知采样。它发布了一个具有挑战性的基准测试（ChartWalker-Bench）和一个智能体基线（ChartWalker-Agent），揭示了当前RAG范式中的显著性能差距。

0 人收藏 0 人点赞

#multi-modal

@mervenoyann：这条管线的第二天发现 > 它有效，在道路标志检测中针对人工标注得到了 map@50=0.8028，使用了……

X AI KOLs Timeline ↗ · 2026-06-17 缓存

Merve (@mervenoyann) 分享了使用多个小型 VLM 作为评判器的管线的第二天发现，在道路标志检测中仅用 1.3k 样本就达到了 map@50=0.8028。这条推文比较了模型拒绝率，讨论了数据集缩小、超具体提示以及泛化该库的计划。

0 人收藏 0 人点赞

#multi-modal

QoS感知的令牌调度与多模态智能体网络的私有数据估值

arXiv cs.AI ↗ · 2026-06-16 缓存

本研究论文提出了一种面向去中心化多模态智能体系统的公平令牌分配和私有数据估值框架，利用差分隐私原型在调度有限的边缘AI资源的同时平衡隐私与效用。

0 人收藏 0 人点赞

#multi-modal

@mishig25: 开源真的回来了 http://hf.co/mistralai/Mistral-Medium-3.5-128B…

X AI KOLs Following ↗ · 2026-06-15 缓存

Mistral AI发布了Mistral Medium 3.5，这是一个开源的128B稠密模型，支持256k上下文、多模态输入、可配置推理和智能体能力。

0 人收藏 0 人点赞

#multi-modal

LLM Gateway Chat

Product Hunt ↗ · 2026-06-15

LLM Gateway Chat 是一个平台，提供对多种AI模型的访问，用于聊天、图像、视频和音频生成。

0 人收藏 0 人点赞

#multi-modal

PermaVid: 通过解耦上下文记忆实现编辑间一致的视频生成

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

PermaVid 引入了一种多模态上下文记忆，将外观和几何结构解耦，从而在编辑操作后保持长期视频一致性，超越了此前的方法。

0 人收藏 0 人点赞

#multi-modal

@PyTorch: 在他的PyTorch Conference Europe 2026主题演讲中，Patrick von Platen (@MistralAI)讨论了为什么现实世界的……

X AI KOLs Following ↗ · 2026-06-12 缓存

在PyTorch Conference Europe 2026上，Mistral AI的Patrick von Platen解释了为什么现实世界的AI交互需要能够处理连续输入并产生连续输出的流式架构，并以Vox Real Time作为实时转录示例。

0 人收藏 0 人点赞

#multi-modal

面向配电缺陷检测的多模态智能体：基础模型评估

arXiv cs.AI ↗ · 2026-06-12 缓存

本文提出了一种用于配电缺陷检测的多模态智能体框架，评估了基础模型在感知、推理和工具使用能力方面的表现，并提供了新的领域特定数据集和基准。

0 人收藏 0 人点赞

#multi-modal

ProcessThinker: 通过基于展开的过程奖励增强多模态大语言模型推理

arXiv cs.CL ↗ · 2026-06-11 缓存

ProcessThinker 引入了一种实用的后训练流程，无需训练显式的过程奖励模型即可提供步骤级的过程奖励。它利用基于展开的奖励为多模态大语言模型中的多步推理提供密集的信用分配，在视频基准测试上持续提升性能。

0 人收藏 0 人点赞

#multi-modal

使用多模态语言模型检测社交媒体上的AI生成内容

arXiv cs.CL ↗ · 2026-06-11 缓存

来自Meta和卡内基梅隆大学的这篇论文提出了一种多模态视觉-语言模型管道，用于检测社交媒体上的AI生成内容，实现了最先进的性能，并对用户参与度产生了积极的下游影响。

0 人收藏 0 人点赞

#multi-modal

统一多模态智能金融系统框架：整合强化学习、高频交易、博弈论方法与跨模态情感分析

arXiv cs.AI ↗ · 2026-06-10 缓存

本文提出了一种统一的多模态框架，融合强化学习、高频交易、博弈论方法及跨模态情感分析，用于构建智能金融系统，并声称相比单领域系统有显著提升。

0 人收藏 0 人点赞

#multi-modal

面向基于证据的计算病理学的多模态智能体协同助手

arXiv cs.AI ↗ · 2026-06-09 缓存

PathPocket是一个多模态AI智能体协同助手，专门用于基于证据的病理学，利用全面的证据语料库和超图，在超过20万个真实病例上超越了现有最先进的方法。

0 人收藏 0 人点赞

#multi-modal

工业场景中的零样本学习：新的大规模基准、挑战与基线

arXiv cs.AI ↗ · 2026-06-09 缓存

本文提出了一个用于零样本工业缺陷检测的大规模多模态数据集（MMIO），并介绍了改进文本-视觉提示（RTVP）方法，在该基准上取得了最优结果。

0 人收藏 0 人点赞

#multi-modal

封闭-开放工业检测场景的统一：新的大规模基准、挑战与基线

arXiv cs.AI ↗ · 2026-06-09 缓存

介绍了MMIOC-1M，一个用于工业缺陷检测的大规模多模态基准，并提出了RTVPNet，一种精细的文本-视觉提示网络，实现了最先进的性能。

0 人收藏 0 人点赞

#multi-modal

PathoSage：通过经验感知的代理工作流实现病理学中的多源证据裁决

arXiv cs.AI ↗ · 2026-06-09 缓存

PathoSage 提出了一个三阶段框架，用于病理学多模态推理，该框架将知识检索、证据收集和证据裁决分开，以减少幻觉并处理冲突证据，并包含一个无需训练的 Beta-Bernoulli 经验系统，用于建模工具可靠性。

0 人收藏 0 人点赞

#multi-modal

Az8 Studio：我们最接近多模态“智能体”画布的视频管线工具？（初印象）

Reddit r/AI_Agents ↗ · 2026-06-08

Az8 Studio 是一个无限画布，带有互联节点，用于多模态 AI 视频管线，支持跨节点的上下文记忆、并行多模型编排以及持久化资产到智能体的工作流。它代表着从线性 AI 工具向空间智能体环境的转变。

0 人收藏 0 人点赞

#multi-modal

面向车辆网络的联邦基础模型

arXiv cs.LG ↗ · 2026-06-08 缓存

本文提出了将多模态多任务联邦基础模型（M3T FedFMs）集成到车辆网络中的愿景，讨论了训练原理、应用场景、挑战以及基于Waymo开放数据集的案例研究。

0 人收藏 0 人点赞

#multi-modal

@hasantoxr: Google 打造了 NotebookLM。现在一位开发者构建了一个更好的版本，可以将你的文件变成私有的 AI 研究助手……

X AI KOLs Timeline ↗ · 2026-06-07 缓存

Open Notebook 是一个开源、注重隐私的 Google NotebookLM 替代品，可本地运行并支持多种 AI 模型，用于研究辅助。

0 人收藏 0 人点赞

multi-modal

提交意见反馈