标签
MM-BizRAG 是一个面向企业问答的多模态检索增强生成系统,通过文档结构感知分割和版式感知解析,在异构企业文档上的表现比以视觉为中心的基线方法最高提升 32%。该论文还提出了 FastRAGEval——一种基于 LLM 的高效评估指标,其与人类判断的对齐程度优于 RAGChecker,且成本更低。
MinerU2.5 是一个拥有 12 亿参数的视觉-语言模型,通过采用由粗到细的解析策略,在保持高计算效率的同时实现了最先进的文档解析准确率。