document-understanding

#document-understanding

@jerryjliu0: 我们在文档理解方面对 Gemini 3.6 Flash 和 Gemini 3.5 Flash Lite 进行了基准测试。我们与之前的版本进行了比较…

X AI KOLs Following ↗ · 22小时前缓存

这条推文对 Gemini 3.6 Flash 和 Gemini 3.5 Flash Lite 在文档理解方面进行了基准测试，发现虽然 Flash 系列最初在视觉理解方面表现出色，但最新版本由于针对编码和推理进行了后期训练，性能已趋于平稳甚至有所退步。

0 人收藏 0 人点赞

#document-understanding

@0x0SojalSec: 3B小模型 DeepSeek OCR 2 击败 Gemini 3 Pro。本地运行。DeepSeek OCR 2，一个最先进的3B模型，比Gemini 3 P…

X AI KOLs Timeline ↗ · 2026-07-15 缓存

DeepSeek OCR 2 是一个拥有3B参数的模型，在OCR和文档理解方面超越了Gemini 3 Pro，具有类似人类的阅读顺序，并支持本地微调。

0 人收藏 0 人点赞

#document-understanding

SynthDocBench：长上下文视觉文档理解的控制基准

Hugging Face Daily Papers ↗ · 2026-07-11 缓存

SynthDocBench 是一个完全合成的长上下文视觉文档理解基准，它系统地控制文档长度、布局、模态和问题类型，揭示了当前VLM中的失败模式，如长度退化和位置敏感性。

0 人收藏 0 人点赞

#document-understanding

@jerryjliu0：我们对GPT-5.6在文档理解方面进行了全面基准测试。总体来说，GPT-5.6 Sol与GPT-5.5相比没有变化…

X AI KOLs Timeline ↗ · 2026-07-09 缓存

LlamaIndex对GPT-5.6在文档理解方面进行了基准测试，发现其相比GPT-5.5没有改进；该模型在文本和表格上表现良好，但在图表和布局方面仍有不足。

0 人收藏 0 人点赞

#document-understanding

BaFCo：针对复杂孟加拉语表单理解的文档理解基准

arXiv cs.CL ↗ · 2026-07-08 缓存

提出了BaFCo，一个面向孟加拉语表单理解的基准数据集，重点关注文档布局分析（DLA）和关键信息提取（KIE）。该数据集包含200份多页复杂孟加拉国政府表单，涵盖26种实体类型的细粒度标注，并对多个多模态大型语言模型（MLLMs）进行了评估，揭示了当前模型在理解复杂孟加拉语表单方面的局限性。

0 人收藏 0 人点赞

#document-understanding

HunyuanOCR-1.5：让轻量级OCR视觉语言模型更快更优

Hugging Face Daily Papers ↗ · 2026-07-06 缓存

HunyuanOCR-1.5 是一款轻量级端到端OCR视觉语言模型，通过DFlash（推理速度提升6.37倍）提高效率，通过Agentic Data Flow增强能力，在文档解析、OCR和多语言任务上达到顶级性能。

0 人收藏 0 人点赞

#document-understanding

LEDGER：企业年报长上下文有依据金融检索与提取基准测试

arXiv cs.CL ↗ · 2026-06-12 缓存

LEDGER是一个新的基准测试，用于评估大语言模型在企业年报上的长上下文能力，提供了4,999份数字化报告，包含31个财务关键绩效指标，以及涵盖检索和提取的三项评估任务。

0 人收藏 0 人点赞

#document-understanding

@jerryjliu0: 我们的团队在CVPR 2026现场，想打招呼就过来吧 :)

X AI KOLs Following ↗ · 2026-06-04 缓存

Jerry Liu的团队正在CVPR 2026上展示ParseBench，这是一个针对视觉语言模型（VLM）的全面文档理解基准。该基准包含2000页真实企业文档，以及针对表格、图表和视觉定位的评估指标。

0 人收藏 0 人点赞

#document-understanding

MM-BizRAG：重新思考面向通用企业问答的多模态检索增强生成

arXiv cs.CL ↗ · 2026-06-04 缓存

MM-BizRAG 是一个面向企业问答的多模态检索增强生成系统，通过文档结构感知分割和版式感知解析，在异构企业文档上的表现比以视觉为中心的基线方法最高提升 32%。该论文还提出了 FastRAGEval——一种基于 LLM 的高效评估指标，其与人类判断的对齐程度优于 RAGChecker，且成本更低。

0 人收藏 0 人点赞

#document-understanding