标签
LFRAG提出了一种面向布局的细粒度检索增强生成框架,该框架在多模态文档中从页面级检索转向块级检索,在新提出的LFDocQA基准上实现了最先进的性能,并将令牌数量减少了73%。
纳斯达克专访了Llama Index首席执行官Jerry Liu,讨论了该公司用于企业AI代理的文档理解与OCR技术,本次合作基于Wing VC的Enterprise Tech 30榜单。
LlamaIndex发布了ParseBench,这是一个用于评估AI智能体文档理解能力的全面基准测试,涵盖包含表格、图表和布局的复杂企业文档。将举办一场在线研讨会,讨论该基准测试的方法和结果。
Infinity 发布了两个开源权重模型,Infinity-Parser2-Pro(35B)和 Infinity-Parser2-Flash(2B),它们登顶了 ParseBench 文档理解排行榜,利用了合成数据引擎和一种新颖的联合强化学习算法。
CiteVQA 是一个面向文档视觉-语言模型的基准,它同时评估答案正确性与支持证据的引用,揭示了广泛的归因幻觉现象,即模型提供正确答案但引用错误区域。
DocScope 是一个新的基准测试,旨在评估多模态大语言模型在长文档上的可靠推理能力和可信度,引入了包含页面定位、区域定位、事实提取和答案验证四个阶段的评估协议。
DocAtlas是一个框架,通过差异渲染和合成生成,构建了覆盖82种语言的高保真OCR数据集和基准。它表明,直接偏好优化能够改善多语言模型的适配,而不会降低基础语言的性能。
NuExtract3 是一个 4B 参数规模的视觉-语言推理模型,用于文档理解,支持结构化提取和图像到 Markdown 的转换。
ParseBench 首次把图表理解放进整份企业文档中评测视觉-语言模型,填补了以往仅针对孤立图表的基准空白。
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。
IBM 发布 Granite 4.0 3B Vision,这是一款专为理解企业文档而设计的紧凑型视觉语言模型,具备表格提取、基于 ChartNet 的图表解读以及键值对 grounding 等专业能力。