document-processing

标签

Cards List
#document-processing

Docling vs Liteparse vs Mineru vs Unstructured 用于大学的本地文档处理对比

Reddit r/LocalLLaMA · 昨天

面向大学使用场景的本地文档处理工具(Docling、Liteparse、Mineru 和 Unstructured)对比,评估它们对本地部署的适用性。

0 人收藏 0 人点赞
#document-processing

@ErickSky: 百度刚刚打破了当前OCR最大的限制之一。Unlimited-OCR一次性处理整个文档…

X AI KOLs Timeline · 昨天 缓存

百度发布了Unlimited-OCR,它可以一次性处理整个文档而无需分块,克服了当前OCR技术的一个主要限制。

0 人收藏 0 人点赞
#document-processing

@VikParuchuri: 我们正在开源一个9B模型,它可以从文档中提取结构化数据,性能接近前沿水平。 - 90.2% 在我们基准测试上…

X AI KOLs Following · 5天前 缓存

Vik Paruchuri 正在开源一个9B模型,该模型可以从文档中提取结构化数据,性能接近前沿水平(在其基准测试中达到90.2%,而Gemini 3.5 Flash为91.3%)。

0 人收藏 0 人点赞
#document-processing

@DataChaz: 混乱文档输入,复杂知识图谱输出,仅需一条命令行。如果你的流水线只是将数据编译成通用……

X AI KOLs Timeline · 2026-06-17 缓存

Hyper-Extract 是一个开源框架,可将混乱文档转换为类型化知识结构,支持多种图谱架构(如 GraphRAG、LightRAG 和 KG-Gen),拥有 10 多种提取引擎和 80 多个面向不同领域的 YAML 模板。

0 人收藏 0 人点赞
#document-processing

Typst 0.15 包含众多新内容

Lobsters Hottest · 2026-06-15 缓存

Typst 0.15 是开源排版系统的一个重要版本,引入了对可变字体、MathML 导出、多文件输出、多个参考文献列表和多个 PDF 标准的支持,同时还改进了文档和诊断功能。

0 人收藏 0 人点赞
#document-processing

@TeksEdge: 需要OCR文档吗?PP-OCRv6已发布——目前你可以下载的最佳开源OCR模型 ◆︎ 完全开源…

X AI KOLs Timeline · 2026-06-12 缓存

PP-OCRv6是百度PaddleOCR新推出的开源OCR模型系列,提供Tiny/Small/Medium三种尺寸,精度和速度优秀,优于多个商业模型。

0 人收藏 0 人点赞
#document-processing

@DailyDoseOfDS_:在您自己的语言上微调DeepSeek-OCR!(100%本地)大多数视觉模型将文档视为巨大的序列…

X AI KOLs Timeline · 2026-06-08 缓存

DeepSeek-OCR是一个3B参数的视觉模型,使用上下文光学压缩进行高效的文档处理。使用Unsloth在波斯语文本上进行微调,字符错误率降低了88.26%,全部开源且可在单GPU上运行。

0 人收藏 0 人点赞
#document-processing

# 我让一个小型本地模型(llama3.2 3B)稳定地从文档中提取结构化 JSON——难点不在模型本身,而在于围绕它的一切 我一直在做一个项目,需要从各种文档(PDF、邮件、扫描件)中提取结构化数据。我最初以为瓶颈会是模型本身——毕竟 3B 参数不算多。结果发现模型其实还好,真正让我头疼的是周围的工程问题。 以下是我踩过的坑,以及最终解决方案。 --- ## 问题所在 我需要从发票、合同、表单中提取字段,并输出成一致的 JSON 格式,供下游系统使用。需求看起来很简单: ```json { "vendor": "Acme Corp", "invoice_date": "2024-01-15", "total_amount": 1250.00, "line_items": [...] } ``` 但实际情况远比这复杂。 --- ## 坑一:输出格式不一致 这是最明显的问题。即使在 prompt 里明确要求返回 JSON,模型也会: - 在 JSON 前面加上 "Here is the extracted data:" - 混用单引号和双引号 - 在末尾加上解释性文字 - 随机缩进或不缩进 **解决方案:结构化输出 + 严格解析** 与其祈求模型乖乖听话,不如在它输出之后做强制处理。我写了一个提取函数,专门从响应文本中找出 JSON 块: ```python import re import json def extract_json_from_response(text: str) -> dict: # 先尝试直接解析 try: return json.loads(text.strip()) except json.JSONDecodeError: pass # 查找 markdown 代码块 pattern = r'```(?:json)?\s*([\s\S]*?)```' matches = re.findall(pattern, text) if matches: try: return json.loads(matches[0].strip()) except json.JSONDecodeError: pass # 查找第一个完整的 JSON 对象 brace_count = 0 start = None for i, char in enumerate(text): if char == '{': if start is None: start = i brace_count += 1 elif char == '}': brace_count -= 1 if brace_count == 0 and start is not None: try: return json.loads(text[start:i+1]) except json.JSONDecodeError: start = None raise ValueError("响应中未找到有效的 JSON") ``` --- ## 坑二:字段缺失或命名不一致 模型有时会把 `invoice_date` 写成 `date`、`invoice_number` 写成 `number`,或者直接漏掉某些字段。 **解决方案:用 Pydantic 做 schema 验证** ```python from pydantic import BaseModel, validator from typing import Optional, List from datetime import date class LineItem(BaseModel): description: str quantity: float unit_price: float total: float class Invoice(BaseModel): vendor: str invoice_number: Optional[str] = None invoice_date: Optional[date] = None total_amount: float line_items: List[LineItem] = [] @validator('total_amount', pre=True) def parse_amount(cls, v): if isinstance(v, str): # 去掉货币符号和逗号 v = re.sub(r'[,$£€]', '', v) return float(v) ``` Pydantic 帮我做了两件事:一是验证字段是否存在,二是自动做类型转换(比如把字符串金额转成浮点数)。 --- ## 坑三:上下文窗口溢出 3B 的模型上下文窗口有限。一旦文档稍长,提取质量就会急剧下降——模型会开始"幻觉",或者漏掉文档后半部分的内容。 **解决方案:智能分块** 不要把整个文档塞进去,而是先识别文档结构,按逻辑块切分: ```python def chunk_document(text: str, max_tokens: int = 1500) -> list[str]: # 按段落分割 paragraphs = text.split('\n\n') chunks = [] current_chunk = [] current_length = 0 for para in paragraphs: para_length = len(para.split()) if current_length + para_length > max_tokens and current_chunk: chunks.append('\n\n'.join(current_chunk)) current_chunk = [para] current_length = para_length else: current_chunk.append(para) current_length += para_length if current_chunk: chunks.append('\n\n'.join(current_chunk)) return chunks ``` 对于多块文档,我采用"逐块提取 + 合并结果"的策略,以第一块提取的结构为基准,后续块补充缺失字段。 --- ## 坑四:Prompt 工程 这部分花了我最多时间。几个关键发现: **要具体,不要笼统** ❌ 差的 prompt: ``` 从这份文档中提取信息并返回 JSON。 ``` ✅ 好的 prompt: ``` 你是一个发票数据提取专家。从下方发票文本中提取以下字段, 严格以 JSON 格式返回,不要包含任何其他文字: 必填字段: - vendor(字符串):供应商公司名称 - total_amount(数字):发票总金额,不含货币符号 - line_items(数组):每项包含 description、quantity、unit_price、total 可选字段: - invoice_number(字符串) - invoice_date(字符串,格式 YYYY-MM-DD) 如果某个字段在文档中找不到,用 null 表示。 发票文本: {document_text} ``` **给出示例输出** 在 prompt 里加一个 few-shot 示例,输出稳定性会显著提升: ```python EXAMPLE_OUTPUT = """ { "vendor": "示例公司", "invoice_number": "INV-001", "invoice_date": "2024-01-15", "total_amount": 500.00, "line_items": [ { "description": "咨询服务", "quantity": 10, "unit_price": 50.00, "total": 500.00 } ] } """ ``` --- ## 坑五:错误处理和重试 模型偶尔就是会输出垃圾。与其让整个流程崩掉,不如建一个有意义的重试机制: ```python async def extract_with_retry( document: str, schema: type[BaseModel], max_retries: int = 3 ) -> BaseModel: last_error = None for attempt in range(max_retries): try: raw_response = await call_llm(document) json_data = extract_json_from_response(raw_response) return schema(**json_data) except (ValueError, ValidationError) as e: last_error = e if attempt < max_retries - 1: # 把错误信息反馈给模型,让它修正 document = f""" 上一次尝试失败,错误信息:{str(e)} 请修正以下问题并重新提取: {document} """ raise RuntimeError(f"经过 {max_retries} 次尝试后仍然失败:{last_error}") ``` 把错误信息反馈给模型这个技巧很有效——模型通常能根据错误提示自我纠正。 --- ## 最终效果 在一个包含 200 份真实发票的测试集上: | 指标 | 优化前 | 优化后 | |------|--------|--------| | 有效 JSON 率 | 71% | 97% | | 字段完整率 | 58% | 89% | | 端到端成功率 | 43% | 94% | 模型本身从头到尾都是同一个 llama3.2 3B,没有微调,没有换模型。所有提升都来自周围的工程。 --- ## 总结 用小模型做结构化提取,真正的工作量在于: 1. **输出解析**:不要假设模型会输出干净的 JSON 2. **Schema 验证**:用 Pydantic 或类似工具强制约束结构 3. **上下文管理**:主动分块,别等模型自己"决定"忽略什么 4. **Prompt 设计**:具体、有示例、明确格式要求 5. **容错重试**:把错误信息反馈回去,让模型自我修正 模型是拼图的一块,但不是最难的那块。

Reddit r/AI_Agents · 2026-06-05

# 用本地 LLM 构建文档转 JSON 提取器的心得——模型大小没你想的那么重要 几个月前,我着手构建一个完全本地运行的文档信息提取流水线。目标很简单:输入 PDF 或纯文本文档,输出结构化 JSON,整个过程不调用任何外部 API,数据不离开本机。 以下是我踩过的坑、学到的东西,以及目前仍在纠结的问题。 --- ## 技术栈 - **模型**:llama3.2 3B(通过 Ollama 运行) - **语言**:Python - **关键库**:`ollama` Python 客户端、`pydantic` 做数据校验、`pypdf` 解析 PDF - **运行环境**:普通消费级笔记本,无独立 GPU 选择 3B 模型是迫不得已——硬件限制。但这个限制反而逼着我把更多精力放在**系统设计**上,而不是一味依赖模型能力。 --- ## 核心发现:后处理比模型更重要 这是最反直觉的收获。 一开始,我以为只要 prompt 写得足够好,模型就能输出干净的 JSON。现实是:**即使提示词再完美,模型输出也会夹带噪声**——多余的解释性文字、截断的括号、偶尔出现的幻觉字段。 真正让提取质量飞跃的,是在模型输出之后加了一层**确定性后处理**: ```python import re import json def extract_json_from_response(text: str) -> dict: # 先尝试直接解析 try: return json.loads(text.strip()) except json.JSONDecodeError: pass # 用正则抓取第一个 JSON 块 pattern = r'\{[^{}]*(?:\{[^{}]*\}[^{}]*)*\}' matches = re.findall(pattern, text, re.DOTALL) for match in matches: try: return json.loads(match) except json.JSONDecodeError: continue raise ValueError(f"响应中未找到有效 JSON:{text[:200]}") ``` 这个简单的函数处理了大约 80% 的格式异常情况。 --- ## Schema 约束:另一个关键杠杆 与其让模型"自由发挥"决定输出哪些字段,不如把 schema 直接塞进 prompt,效果会好很多。 我用 Pydantic 定义目标结构,然后动态生成提示词: ```python from pydantic import BaseModel from typing import Optional, List class InvoiceData(BaseModel): invoice_number: str date: str vendor_name: str total_amount: float line_items: List[str] currency: Optional[str] = "CNY" def build_extraction_prompt(document_text: str, schema: BaseModel) -> str: schema_json = schema.schema() return f"""你是一个结构化数据提取助手。请从以下文档中提取信息,并**严格按照**指定的 JSON schema 输出。 ## 目标 Schema ```json {json.dumps(schema_json, ensure_ascii=False, indent=2)} ``` ## 文档内容 {document_text} ## 输出要求 - 只输出 JSON,不要有任何额外说明 - 所有字段必须存在 - 找不到的信息填 null,不要编造 """ ``` 加了这个约束之后,幻觉字段(模型凭空捏造的字段名)减少了大约 60%。 --- ## 仍在头疼的两个问题 ### 1. 长文档的上下文截断 llama3.2 3B 的上下文窗口有限。处理超过 3000 词的文档时,模型会开始"忘记"前面的内容,提取质量明显下降。 我目前的临时方案是滑动窗口分块: ```python def chunk_document(text: str, chunk_size: int = 2000, overlap: int = 200) -> List[str]: words = text.split() chunks = [] start = 0 while start < len(words): end = start + chunk_size chunk = ' '.join(words[start:end]) chunks.append(chunk) start += chunk_size - overlap # 重叠区域保留上下文 return chunks ``` 但分块之后又带来新问题:**如何合并来自不同块的提取结果?** 当一条关键信息横跨两个块的边界时,两边都只拿到了残缺的片段,合并逻辑变得很复杂。 有没有人处理过这类跨块实体合并的问题? ### 2. 幻觉:模型会"脑补"不存在的信息 这是目前最让我头疼的问题。模型有时会对 `null` 值感到"不安",倾向于用听起来合理的内容填充空字段。 我加了一个置信度校验层,但感觉还是治标不治本: ```python def validate_extraction(extracted: dict, source_text: str, threshold: float = 0.8) -> dict: validated = {} for key, value in extracted.items(): if value is None: validated[key] = None continue # 粗略检查:提取的值是否在原文中有据可查 value_str = str(value).lower() source_lower = source_text.lower() if value_str in source_lower: validated[key] = value else: # 标记为存疑,而非直接丢弃 validated[key] = { "value": value, "confidence": "low", "warning": "原文中未找到该值,请人工核查" } return validated ``` 这个方法对数字和日期还算有效,但对于语义层面的幻觉(比如用同义词替换原文表述)就完全失效了。 --- ## 意外惊喜:3B 模型的表现超出预期 坦白说,我预期 3B 模型会很拉垮,结果出乎意料。 在**结构清晰的文档**(发票、表单、标准合同)上,只要后处理做扎实,准确率能到 85–90%。 真正的瓶颈不是模型智力,而是: - 文档格式混乱(扫描件 OCR 质量差) - 字段定义模糊("总金额"到底含不含税?) - 上下文跨块丢失 这让我重新思考一个问题:**在结构化提取任务上,我们是不是高估了大模型的必要性?** 很多时候,一个设计良好的小模型 + 严密的工程约束,能干掉一个被随意调用的大模型。 --- ## 希望听到你们的想法 目前最想求解的几个问题: 1. **跨块合并**:处理长文档分块提取时,你们是怎么做实体对齐和结果合并的? 2. **幻觉检测**:有没有比字符串匹配更可靠的本地化幻觉检测方案? 3. **替代方案**:有没有人试过用 `phi3` 或 `qwen2.5` 做类似任务?在相同硬件上表现如何? 4. **上下文窗口**:Ollama 的 `num_ctx` 参数调大之后,内存占用和推理速度的权衡是怎样的?实际用下来值不值? 这个项目目前是我自用的小工具,但如果能把幻觉问题压下去,我觉得可以做成一个更通用的本地文档处理框架。 欢迎拍砖、分享经验,或者告诉我哪里的思路完全走偏了。

0 人收藏 0 人点赞
#document-processing

@0xSilver_Time: 用了6个月NotebookLM,我敢说它最大程度革新了我的工作流程。 但前提是我掌握了这10个提示词。 这套系统能在1小时内把200页文档转化为清晰答案。

X AI KOLs Timeline · 2026-06-03 缓存

用户分享了使用NotebookLM 6个月的经验,并给出了10个提示词,声称可以在1小时内将200页文档转化为清晰答案。

0 人收藏 0 人点赞
#document-processing

@IndieDevHailey: 文档地狱终结者 MarkItDown,一键把所有文件秒变 LLM 完美 Markdown! Microsoft 直接开源 MarkItDown,138k+ Star 霸榜 Trending, 从此告别 PDF 乱码、Word 表格炸裂、P…

X AI KOLs Timeline · 2026-06-02 缓存

Microsoft 开源了 MarkItDown 工具,可将 PDF、Word、Excel、PPT 等文件一键转换为结构完整的 Markdown 格式,便于直接喂给 LLM,目前 GitHub Star 超过 138k。

0 人收藏 0 人点赞
#document-processing

@itsclelia: 昨天在@techeurope_的柏林应用人工智能大会上玩得很开心!我做了一个关于构建文档...的演讲

X AI KOLs Following · 2026-05-29 缓存

参加了在柏林举办的应用人工智能大会,并做了关于构建文档代理的演讲,其中包括使用LlamaIndex构建的文档处理代理LobsterX的详细演示,该代理采用了结构化输出和事件驱动工作流。

0 人收藏 0 人点赞
#document-processing

使用Temporal构建可扩展的数据摄取管道(第一部分)

Lobsters Hottest · 2026-05-26 缓存

这篇博客文章描述了使用Temporal构建可扩展的数据摄取管道的架构,用于处理来自不同来源的客户文档的抓取、提取、分块和嵌入,强调了持久性、状态性和并发控制。

0 人收藏 0 人点赞
#document-processing

@AYi_AInotes: https://x.com/AYi_AInotes/status/2058536443174158504

X AI KOLs Timeline · 2026-05-24 缓存

作者分享了自己三年使用PDF喂AI的踩坑经历,指出Markdown比PDF更适合作为AI输入格式,因为PDF本质上是坐标+字符的混合体,AI需要先解析结构,容易出错且消耗更多token。文章提供了具体案例和推荐工具(markitdown、pandoc、LlamaParse),并预告了一个名为“喂AI的艺术”的新系列。

0 人收藏 0 人点赞
#document-processing

@huang_chao4969: LightRAG v1.5 来了!史上最大更新!35k+ GitHub | 1.1M+ 下载量 | 251 位贡献者 | 1.1k+ PR 已合并…

X AI KOLs Timeline · 2026-05-23 缓存

LightRAG v1.5 已发布,带来六大重大改进,包括多模态文档处理、增强的解析功能以及角色特定的 LLM 配置,使 RAG 更简单、更快速、更强大。

0 人收藏 0 人点赞
#document-processing

@jerryjliu0: 我们自豪地构建文档处理系统,不仅准确且成本低廉,还能大规模扩展到百万……

X AI KOLs Following · 2026-05-23 缓存

LlamaParse 现在为 Parse、Extract 和 Classify 任务提供延迟指标,包括排队时间、处理时间和总延迟的详细分解。这有助于用户监控和扩展其文档处理。

0 人收藏 0 人点赞
#document-processing

Parsewise API

Product Hunt · 2026-05-22

Parsewise 是一个用于智能体多文档处理的 API,能够高效处理多个文档。

0 人收藏 0 人点赞
#document-processing

@knowledgefxg: 实用开源小工具推荐:pdf-inspector 解决的是一个很实际的问题:并不是所有 PDF 都需要 OCR。 比方说你扔给它一个 PDF,它先判断这个 PDF 到底是什么类型——是正常的文字版(比如用 Word 导出的)、还是扫描版(图…

X AI KOLs Timeline · 2026-05-22 缓存

pdf-inspector 是一个开源的 Rust 库,用于智能分类 PDF 类型(文字版或扫描版),并提取文本和转换为 Markdown,避免不必要的 OCR,提高速度和节省成本。

0 人收藏 0 人点赞
#document-processing

MADP: 面向可持续文档处理的多智能体流水线,带有人机回环

arXiv cs.AI · 2026-05-19 缓存

MADP是一种用于企业文档处理的多智能体架构,结合了深度学习和大型语言模型,并采用人机回环验证,实现了97%的自动化率以及资源消耗的大幅降低。

0 人收藏 0 人点赞
#document-processing

@jerryjliu0: Agent 与文件沙盒是 2026 年的热门方向。这是 @itsclelia 提供的一个巧妙参考实现,向你展示了……

X AI KOLs Following · 2026-05-11 缓存

该参考实现展示了如何利用 Rust、LiteParse 和 microsandbox,在本地沙盒中安全运行 LLM Agent,从而处理和分析各类文档。该开源 CLI 工具借助 OpenAI 的 GPT 模型与原生 bash 命令,在隔离环境中执行文件检索与分析任务。

0 人收藏 0 人点赞
#document-processing

@tom_doerr: 将研究论文转换为可编辑的图表和幻灯片 https://github.com/OpenDCAI/Paper2Any…

X AI KOLs Timeline · 2026-05-10 缓存

Paper2Any 是一款开源 AI 工具,可将研究论文转换为可编辑的图表、技术路线图和幻灯片,支持通用文件格式和自定义样式。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈