document-understanding

标签

Cards List
#document-understanding

LFRAG:面向布局的多模态文档理解细粒度检索增强生成

arXiv cs.AI · 2026-05-25 缓存

LFRAG提出了一种面向布局的细粒度检索增强生成框架,该框架在多模态文档中从页面级检索转向块级检索,在新提出的LFDocQA基准上实现了最先进的性能,并将令牌数量减少了73%。

0 人收藏 0 人点赞
#document-understanding

@NasdaqExchange: “我们专注于提供一流的文档理解与OCR技术。”与@Wing_VC合作…

X AI KOLs Following · 2026-05-24 缓存

纳斯达克专访了Llama Index首席执行官Jerry Liu,讨论了该公司用于企业AI代理的文档理解与OCR技术,本次合作基于Wing VC的Enterprise Tech 30榜单。

0 人收藏 0 人点赞
#document-understanding

@jerryjliu0:目前有很多针对AI智能体的编码和推理基准测试,但在文档理解方面却很少——而这正是所有下游知识工作的前提。

X AI KOLs Following · 2026-05-18 缓存

LlamaIndex发布了ParseBench,这是一个用于评估AI智能体文档理解能力的全面基准测试,涵盖包含表格、图表和布局的复杂企业文档。将举办一场在线研讨会,讨论该基准测试的方法和结果。

0 人收藏 0 人点赞
#document-understanding

@jerryjliu0:一组新的开源权重模型正在登顶文档理解排行榜,INF 刚刚发布了两个模型:Inf…

X AI KOLs Following · 2026-05-15 缓存

Infinity 发布了两个开源权重模型,Infinity-Parser2-Pro(35B)和 Infinity-Parser2-Flash(2B),它们登顶了 ParseBench 文档理解排行榜,利用了合成数据引擎和一种新颖的联合强化学习算法。

0 人收藏 0 人点赞
#document-understanding

CiteVQA: 面向可信文档智能的证据归因基准测试

Hugging Face Daily Papers · 2026-05-13 缓存

CiteVQA 是一个面向文档视觉-语言模型的基准,它同时评估答案正确性与支持证据的引用,揭示了广泛的归因幻觉现象,即模型提供正确答案但引用错误区域。

0 人收藏 0 人点赞
#document-understanding

DocScope:用于值得信赖的长文档理解的可靠推理基准测试

arXiv cs.CL · 2026-05-12 缓存

DocScope 是一个新的基准测试,旨在评估多模态大语言模型在长文档上的可靠推理能力和可信度,引入了包含页面定位、区域定位、事实提取和答案验证四个阶段的评估协议。

0 人收藏 0 人点赞
#document-understanding

DocAtlas:跨越80多种语言的多语言文档理解

Hugging Face Daily Papers · 2026-05-12 缓存

DocAtlas是一个框架,通过差异渲染和合成生成,构建了覆盖82种语言的高保真OCR数据集和基准。它表明,直接偏好优化能够改善多语言模型的适配,而不会降低基础语言的性能。

0 人收藏 0 人点赞
#document-understanding

numind/NuExtract3

Hugging Face Models Trending · 2026-04-29 缓存

NuExtract3 是一个 4B 参数规模的视觉-语言推理模型,用于文档理解,支持结构化提取和图像到 Markdown 的转换。

0 人收藏 0 人点赞
#document-understanding

@jerryjliu0:ParseBench 是首个在完整企业文档中评测 VLM 图表理解能力的基准

X AI KOLs Timeline · 2026-04-21 缓存

ParseBench 首次把图表理解放进整份企业文档中评测视觉-语言模型,填补了以往仅针对孤立图表的基准空白。

0 人收藏 0 人点赞
#document-understanding

@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者

X AI KOLs Timeline · 2026-04-20 缓存

仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。

0 人收藏 0 人点赞
#document-understanding

Granite 4.0 3B Vision:面向企业文档的紧凑型多模态智能模型

Hugging Face Blog · 2026-03-31 缓存

IBM 发布 Granite 4.0 3B Vision,这是一款专为理解企业文档而设计的紧凑型视觉语言模型,具备表格提取、基于 ChartNet 的图表解读以及键值对 grounding 等专业能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈