标签
OmniPath是一个多模态代理框架,结合了OpenStreetMap网络拓扑与航空LiDAR数据,通过高分辨率分析坡度、表面不连续等物理障碍来审计轮椅无障碍性,并经过实地调查验证。
IV-CoT 将视觉条件分解为结构和语义级联,以改进结构感知的图像生成,使用仅训练阶段的草图监督来指导结构查询。在 GenEval 和 T2I-CompBench 上达到了最先进的结果。
ChartWalker 提出了一种新颖的跨图表检索增强生成(RAG)框架,采用分层知识图谱构建和结构感知采样。它发布了一个具有挑战性的基准测试(ChartWalker-Bench)和一个智能体基线(ChartWalker-Agent),揭示了当前RAG范式中的显著性能差距。
Merve (@mervenoyann) 分享了使用多个小型 VLM 作为评判器的管线的第二天发现,在道路标志检测中仅用 1.3k 样本就达到了 map@50=0.8028。这条推文比较了模型拒绝率,讨论了数据集缩小、超具体提示以及泛化该库的计划。
本研究论文提出了一种面向去中心化多模态智能体系统的公平令牌分配和私有数据估值框架,利用差分隐私原型在调度有限的边缘AI资源的同时平衡隐私与效用。
Mistral AI发布了Mistral Medium 3.5,这是一个开源的128B稠密模型,支持256k上下文、多模态输入、可配置推理和智能体能力。
PermaVid 引入了一种多模态上下文记忆,将外观和几何结构解耦,从而在编辑操作后保持长期视频一致性,超越了此前的方法。
在PyTorch Conference Europe 2026上,Mistral AI的Patrick von Platen解释了为什么现实世界的AI交互需要能够处理连续输入并产生连续输出的流式架构,并以Vox Real Time作为实时转录示例。
本文提出了一种用于配电缺陷检测的多模态智能体框架,评估了基础模型在感知、推理和工具使用能力方面的表现,并提供了新的领域特定数据集和基准。
ProcessThinker 引入了一种实用的后训练流程,无需训练显式的过程奖励模型即可提供步骤级的过程奖励。它利用基于展开的奖励为多模态大语言模型中的多步推理提供密集的信用分配,在视频基准测试上持续提升性能。
来自Meta和卡内基梅隆大学的这篇论文提出了一种多模态视觉-语言模型管道,用于检测社交媒体上的AI生成内容,实现了最先进的性能,并对用户参与度产生了积极的下游影响。
本文提出了一种统一的多模态框架,融合强化学习、高频交易、博弈论方法及跨模态情感分析,用于构建智能金融系统,并声称相比单领域系统有显著提升。
PathPocket是一个多模态AI智能体协同助手,专门用于基于证据的病理学,利用全面的证据语料库和超图,在超过20万个真实病例上超越了现有最先进的方法。
本文提出了一个用于零样本工业缺陷检测的大规模多模态数据集(MMIO),并介绍了改进文本-视觉提示(RTVP)方法,在该基准上取得了最优结果。
介绍了MMIOC-1M,一个用于工业缺陷检测的大规模多模态基准,并提出了RTVPNet,一种精细的文本-视觉提示网络,实现了最先进的性能。
PathoSage 提出了一个三阶段框架,用于病理学多模态推理,该框架将知识检索、证据收集和证据裁决分开,以减少幻觉并处理冲突证据,并包含一个无需训练的 Beta-Bernoulli 经验系统,用于建模工具可靠性。
Az8 Studio 是一个无限画布,带有互联节点,用于多模态 AI 视频管线,支持跨节点的上下文记忆、并行多模型编排以及持久化资产到智能体的工作流。它代表着从线性 AI 工具向空间智能体环境的转变。
本文提出了将多模态多任务联邦基础模型(M3T FedFMs)集成到车辆网络中的愿景,讨论了训练原理、应用场景、挑战以及基于Waymo开放数据集的案例研究。
Open Notebook 是一个开源、注重隐私的 Google NotebookLM 替代品,可本地运行并支持多种 AI 模型,用于研究辅助。