标签
来自@ecommartinez的推文,列出了10个用于网络爬虫的GitHub仓库,可从任何网站提取干净数据。
Datalab 的平衡模式提取在内部基准测试中实现了 95.9% 的准确率,超越 Reducto Deep Extract(95.1%),而价格不到其一半,并提供包含引用和推理的完整验证。
Liquid AI 发布 LFM2.5-230M,这是一款轻量级基础模型,可在从云端 GPU 到 CPU 乃至 Raspberry Pi 的设备上运行,在工具使用和数据提取任务上表现出色。
MinerU 是一款免费开源工具,可从 PDF 和扫描文档中提取文本、表格和公式,支持109种语言和批量处理,节省数小时的手动工作。
这篇文章介绍了10个用于网络爬虫的GitHub开源仓库,包括Firecrawl、Crawl4AI等,能够从网站提取干净数据,支持AI就绪的格式。
Vik Paruchuri 展示了 lift,一个能够从杂乱合同中提取结构化数据的开源提取模型。
一个精心整理的帖子,列出了 10 个用于网页抓取的 GitHub 仓库,包括 Firecrawl、Crawl4AI、Browser Use 等,涵盖从简单抓取到隐身工具以及面向 LLM 的数据提取。
Vik Paruchuri 正在开源一个9B模型,该模型可以从文档中提取结构化数据,性能接近前沿水平(在其基准测试中达到90.2%,而Gemini 3.5 Flash为91.3%)。
一项基准测试,比较了参数规模从2B到35B的AI模型在从HTML中提取结构化数据这一具有挑战性的任务上的表现和准确性。
Agentic Document Extraction 是一款利用AI智能体从非结构化文档中提取结构化数据,使文档变得可计算化的工具。
VikParuchuri 宣布推出 turbo mode 数据提取,声称速度比 Azure Content Understanding 快 5 倍,成本低 5 倍,准确度提高 7%,并且实现了具有竞争力的延迟,适用于实时工作流。
一款名为 Crawl4AI 的开源网络爬虫工具爆火,它提供免费且对 LLM 友好的抓取功能,包括 JavaScript 渲染、异步爬取和清晰的结构化输出,与 Firecrawl 等付费服务形成对比。
browser_use 是一款工具,通过一次 curl 调用将任何网站转换为干净的 JSON,处理 JavaScript 渲染并绕过 Cloudflare 等机器人防护。
Browser Use 推出了 Fetch Use,这是一个 Python SDK,用于通过隐身浏览器抓取网站,自动处理代理、Cookie 和会话。
本文介绍了5个开源工具(Agent-reach、Scrapling、Browser-use、Claude in Chrome、Web-access),让Claude Code等AI Agent具备网页数据抓取、浏览器操作等能力,从轻量到重量级覆盖不同场景,并提供配置心法。
开源 PDF 解析器 OpenDataLoader,每秒可转换 100 页为 Markdown,纯 CPU 运行,免费且开源,由 PDF 协会和 veraPDF 团队开发,在基准测试中排名第一。
这个开源项目能零代码抓取网页数据,绕过反爬机制,效率提升数十倍,已获得5万+star。
本文介绍了infilling extraction(填充提取)方法,这是一种通过使用任意二进制掩码从扩散语言模型中提取训练数据的新方法,表明此类模型比之前认为的更容易受到记忆化攻击。
关于从PDF中解析表格的建议:将PDF转换为PNG并使用Gemini 3.1 Pro配合low thinking模式,声称准确率达95%。其他工具如Extend、Reducto、Landing在此任务中表现不佳。