data-extraction

#data-extraction

空间启动优于语义提示：一种提高 LLM 图表数据提取准确率的基于网格的方法

arXiv cs.AI ↗ · 2026-05-12 缓存

本文探讨了提高大语言模型（LLM）在图表数据提取中准确率的方法，研究发现，通过坐标网格进行的空间启动策略显著优于语义提示策略。

0 人收藏 0 人点赞

#data-extraction

Reddit r/AI_Agents ↗ · 2026-05-09

作者宣布 Scavio AI（一款专为 AI 代理设计的在线搜索 API）现已新增对 TikTok 的支持。该 API 无需身份验证即可为主页、视频、评论及社交图谱提供结构化的 JSON 数据。

0 人收藏 0 人点赞

#data-extraction

X AI KOLs Timeline ↗ · 2026-05-09 缓存

OpenDataLoader 是一个开源工具，可将 PDF 转换为结构化的 Markdown 和 JSON，支持 100 页/秒的本地处理速度，无需 GPU 或 API 成本，专为 RAG 管道和 PDF 无障碍自动化设计。

0 人收藏 0 人点赞

#data-extraction

Product Hunt ↗ · 2026-03-21

BankStatementLab 是一款人工智能驱动的工具，可将银行对账单 PDF 转换为 Excel、CSV 或 JSON 格式。

0 人收藏 0 人点赞

#data-extraction

GitHub Trending (daily) ↗ · 5天前缓存

MinerU 是 OpenDataLab 开发的一款开源工具，用于从 PDF 和文档中提取数据。

0 人收藏 0 人点赞

#data-extraction

GitHub Trending (daily) ↗ · 2026-06-22 缓存

Firecrawl 是一个开源 API，用于搜索、抓取和将网页内容转换为干净的 Markdown 或结构化数据，供 AI 应用使用。它能处理代理、速率限制和 JavaScript 密集型页面，且延迟低。

0 人收藏 0 人点赞

#data-extraction

GitHub Trending (daily) ↗ · 2026-06-03 缓存

OpenDataLoader PDF 是一个开源PDF解析器，可提取结构化数据（Markdown、JSON、HTML），在基准测试中达到顶尖准确率（总体0.907），并自动进行PDF无障碍修复，符合标记PDF/PDF/UA标准。

0 人收藏 0 人点赞

#data-extraction

GitHub Trending (daily) ↗ · 2026-05-31 缓存

Scrapling 是一个现代、自适应的 Python 网页抓取库，能够处理反爬虫措施，并提供高级选择、获取和爬虫功能。

0 人收藏 0 人点赞