text-extraction

标签

Cards List
#text-extraction

根据阅读者身份变化的PDF

Hacker News Top · 2天前 缓存

本文介绍了一种技术,利用PDF规范中的替换文本属性,在PDF内部嵌入隐藏的Markdown结构,使得LLMs能够提取干净、结构化的数据,而人类看到的仍然是相同的视觉文档。

0 人收藏 0 人点赞
#text-extraction

@knowledgefxg: 实用开源小工具推荐:pdf-inspector 解决的是一个很实际的问题:并不是所有 PDF 都需要 OCR。 比方说你扔给它一个 PDF,它先判断这个 PDF 到底是什么类型——是正常的文字版(比如用 Word 导出的)、还是扫描版(图…

X AI KOLs Timeline · 2026-05-22 缓存

pdf-inspector 是一个开源的 Rust 库,用于智能分类 PDF 类型(文字版或扫描版),并提取文本和转换为 Markdown,避免不必要的 OCR,提高速度和节省成本。

0 人收藏 0 人点赞
#text-extraction

@jerryjliu0: 使用VLM解析PDF的一个缺点是难以保证输出文本的*正确性*和正确的阅读顺序……

X AI KOLs Following · 2026-04-18 缓存

Jerry Liu讨论了使用视觉语言模型进行PDF解析所面临的挑战,特别是关于确保文本正确性和保持正确阅读顺序的同时避免出现幻觉问题。

0 人收藏 0 人点赞
#text-extraction

abiruyt/text-extract-ocr

Replicate Explore · 2026-05-17 缓存

abiruyt/text-extract-ocr 是一个开源OCR模型,可在Replicate上使用,在CPU上运行,成本低且推理速度快。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈