vlm

标签

Cards List
#vlm

FragileFlow:通过频谱控制正确但脆弱的预测以增强基础模型的鲁棒性

arXiv cs.CL · 昨天 缓存

本文介绍了 FragileFlow,这是一种插件式正则化器,通过频谱分析和 PAC-Bayes 界来控制“正确但脆弱”的预测,从而提高 LLM 和 VLM 的鲁棒性。

0 人收藏 0 人点赞
#vlm

世界行动模型:具身智能的下一个前沿

Hugging Face Daily Papers · 昨天 缓存

本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。

0 人收藏 0 人点赞
#vlm

自动评分标准作为奖励:从隐性偏好到显式多模态生成准则

Hugging Face Daily Papers · 5天前 缓存

本文介绍了自动评分标准作为奖励(ARR)框架,该框架将隐性偏好知识外显化为多模态对齐的显式评分标准。文章提出了评分标准策略优化(RPO)以稳定策略梯度,在文生图和图像编辑任务中取得了更佳的性能。

0 人收藏 0 人点赞
#vlm

@jerryjliu0:ParseBench 是首个在完整企业文档中评测 VLM 图表理解能力的基准

X AI KOLs Timeline · 2026-04-21 缓存

ParseBench 首次把图表理解放进整份企业文档中评测视觉-语言模型,填补了以往仅针对孤立图表的基准空白。

0 人收藏 0 人点赞
#vlm

@nomadicai:计算机视觉的未来是智能体。1/ 我们创立 Nomadic,是因为在视频理解中反复看到一个缺口:VLM……

X AI KOLs Following · 2026-04-21 缓存

NomadicAI 正在打造一款智能体计算机视觉产品,解决 VLM 对真实视频内容 grounding 不足的问题。

0 人收藏 0 人点赞
#vlm

@jerryjliu0: 使用VLM解析PDF的一个缺点是难以保证输出文本的*正确性*和正确的阅读顺序……

X AI KOLs Following · 2026-04-18 缓存

Jerry Liu讨论了使用视觉语言模型进行PDF解析所面临的挑战,特别是关于确保文本正确性和保持正确阅读顺序的同时避免出现幻觉问题。

0 人收藏 0 人点赞
#vlm

PersonaVLM:长期个性化多模态大语言模型

Hugging Face Daily Papers · 2026-03-20 缓存

PersonaVLM 提出了一种个性化多模态大语言模型框架,通过记忆保留、多轮推理和响应对齐实现长期用户适应,在新推出的 Persona-MME 基准测试中比 GPT-4o 高出 5.2%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈