data-extraction

标签

Cards List
#data-extraction

空间启动优于语义提示:一种提高 LLM 图表数据提取准确率的基于网格的方法

arXiv cs.AI · 2026-05-12 缓存

本文探讨了提高大语言模型(LLM)在图表数据提取中准确率的方法,研究发现,通过坐标网格进行的空间启动策略显著优于语义提示策略。

0 人收藏 0 人点赞
#data-extraction

我构建了一个 TikTok 数据 API(无需鉴权)- 以纯净 JSON 格式提供主页、视频、评论、搜索、话题标签及社交图谱

Reddit r/AI_Agents · 2026-05-09

作者宣布 Scavio AI(一款专为 AI 代理设计的在线搜索 API)现已新增对 TikTok 的支持。该 API 无需身份验证即可为主页、视频、评论及社交图谱提供结构化的 JSON 数据。

0 人收藏 0 人点赞
#data-extraction

@AIExplorerTim: 有人刚刚开发了一个工具,可以将 PDF 转换为 干净、结构化的 Markdown 速度达到 100 页/秒 不需要 GPU。 不需要 API 成本。 没有混乱的解析。 只有原始的、可用的数据。 它可以轻松处理的内容: • 表格 → 完美提…

X AI KOLs Timeline · 2026-05-09 缓存

OpenDataLoader 是一个开源工具,可将 PDF 转换为结构化的 Markdown 和 JSON,支持 100 页/秒的本地处理速度,无需 GPU 或 API 成本,专为 RAG 管道和 PDF 无障碍自动化设计。

0 人收藏 0 人点赞
#data-extraction

BankStatementLab

Product Hunt · 2026-03-21

BankStatementLab 是一款人工智能驱动的工具,可将银行对账单 PDF 转换为 Excel、CSV 或 JSON 格式。

0 人收藏 0 人点赞
#data-extraction

opendatalab/MinerU

GitHub Trending (daily) · 5天前 缓存

MinerU 是 OpenDataLab 开发的一款开源工具,用于从 PDF 和文档中提取数据。

0 人收藏 0 人点赞
#data-extraction

firecrawl/firecrawl

GitHub Trending (daily) · 2026-06-22 缓存

Firecrawl 是一个开源 API,用于搜索、抓取和将网页内容转换为干净的 Markdown 或结构化数据,供 AI 应用使用。它能处理代理、速率限制和 JavaScript 密集型页面,且延迟低。

0 人收藏 0 人点赞
#data-extraction

opendataloader-project/opendataloader-pdf

GitHub Trending (daily) · 2026-06-03 缓存

OpenDataLoader PDF 是一个开源PDF解析器,可提取结构化数据(Markdown、JSON、HTML),在基准测试中达到顶尖准确率(总体0.907),并自动进行PDF无障碍修复,符合标记PDF/PDF/UA标准。

0 人收藏 0 人点赞
#data-extraction

D4Vinci/Scrapling

GitHub Trending (daily) · 2026-05-31 缓存

Scrapling 是一个现代、自适应的 Python 网页抓取库,能够处理反爬虫措施,并提供高级选择、获取和爬虫功能。

0 人收藏 0 人点赞
← Previous
← 返回首页

提交意见反馈