yifanfeng97/Hyper-Extract

GitHub Trending (daily) 工具

knowledge-extraction cli-tool open-source llm-powered knowledge-graph document-processing

摘要

Hyper-Extract 是一个开源命令行工具，利用大语言模型（LLMs）从非结构化文档中提取结构化知识，支持多种输出格式，如知识图谱和超图。

使用大语言模型将非结构化文本转换为结构化知识。图谱、超图以及时空提取——只需一条命令。

查看原文

查看缓存全文

缓存时间: 2026/06/18 23:40

yifanfeng97/Hyper-Extract 源码: https://github.com/yifanfeng97/Hyper-Extract 智能知识抽取 CLI 一键将文档转化为结构化知识。 📖 English Version · 中文版 PyPI 版本 (https://pypi.org/project/hyperextract/) Python 版本 (https://python.org) 许可证 状态文档 (https://yifanfeng97.github.io/Hyper-Extract/latest/) > “停止阅读，开始理解。” > “告别文档焦虑，让信息一目了然” Hyper-Extract 是一个由 LLM 驱动的智能知识抽取与进化框架。它彻底简化了将高度非结构化文本转化为持久、可预测且强类型的知识摘要的过程。它能轻松地将信息抽取到多种格式中——从简单的集合（列表/集合）和 Pydantic 模型，到复杂的知识图谱、超图乃至时空图。 ## ✨ 核心特性 | | | |:—|:—| | 🔷 8 种知识结构 | 从简单列表到高级图、超图和时空图 | | 🧠 10+ 抽取引擎 | GraphRAG、LightRAG、Hyper-RAG、KG-Gen 等——开箱即用 | | 📝 80+ YAML 模板 | 金融、法律、医疗、中医、工业、通用领域零代码抽取 | | 🔄 增量演化 | 随时加入新文档，扩展并完善您的知识库 | ## 🎯 你能用它做什么？ 📄 研究人员 —— 将论文变成知识图谱输入一篇 20 页的学术论文，获得包含关键概念、作者和引用的交互式图谱。 `bash he parse paper.pdf -t general/academic_graph -o ./paper_kb/ he show ./paper_kb/` 🏦 金融分析师 —— 从收益报告中抽取实体自动识别公司、高管、财务指标及其关系，无需结构化处理。 `bash he parse earnings.md -t finance/earnings_graph -o ./finance_kb/ he search ./finance_kb/ "主要风险因素有哪些？"` 🔒 本地部署 —— 使用 vLLM 将数据保留在本地通过 vLLM 本地运行 Qwen3.5-9B + bge-m3。数据不出机器。 `python from hyperextract import create_client llm, emb = create_client( llm="vllm:Qwen3.5-9B@http://localhost:8000/v1", embedder="vllm:bge-m3@http://localhost:8001/v1", api_key="dummy", )` ## 🚀 支持的平台与模型 Hyper-Extract 依赖大语言模型的结构化输出能力（`json_schema` 或函数调用）。 | 平台 | 已验证模型 | |–––––|—————–| | OpenAI | gpt-4o、gpt-4o-mini、gpt-5 | | 阿里云百炼 | qwen-plus、qwen-turbo、deepseek-r1 | | 本地 vLLM | Qwen3.5-9B (GPTQ-Marlin) | 嵌入模型（语义搜索）可配合任何兼容 OpenAI 的端点：`text-embedding-3-small`、`text-embedding-v4`（百炼）、`bge-m3`（本地 vLLM）。 > 📖 完整指南：提供商系统与本地模型支持 (https://yifanfeng97.github.io/Hyper-Extract/latest/concepts/provider-system/) ## ⚡ 30 秒快速上手 `bash # 安装 uv tool install hyperextract # 配置 API 密钥 he config init -k YOUR_OPENAI_API_KEY # 从文档中抽取知识 he parse examples/en/tesla.md -t general/biography_graph -o ./output/ -l en # 查询 he search ./output/ "特斯拉的主要成就是什么？" # 可视化 he show ./output/` 🐍 Python API（点击展开） `bash uv pip install hyperextract` `python from hyperextract import Template ka = Template.create("general/biography_graph") with open("examples/en/tesla.md") as f: result = ka.parse(f.read()) result.show()` > 🔗 更多示例：examples/en ## 📈 为什么选择 Hyper-Extract？ | 特性 | GraphRAG | LightRAG | KG-Gen | ATOM | Hyper-Extract | | :—— | :——: | :——: | :––: | :–: | :—————: | | 知识图谱 | ✅ | ✅ | ✅ | ✅ | ✅ | | 时间图 | ✅ | ❌ | ❌ | ✅ | ✅ | | 空间图 | ❌ | ❌ | ❌ | ❌ | ✅ | | 超图 | ❌ | ❌ | ❌ | ❌ | ✅ | | 领域模板 | ❌ | ❌ | ❌ | ❌ | ✅ | | 交互式 CLI | ✅ | ❌ | ❌ | ❌ | ✅ | | 多语言 | ✅ | ❌ | ❌ | ❌ | ✅ | ## 🧩 支持的知识结构从简单到复杂——为您的数据选择适当的结构：示例——自动图谱可视化： 📋 内部机制（架构与模板） Hyper-Extract 采用三层架构： - 自动类型 —— 8 种强类型数据结构（模型、列表、集合、图、超图、时间图、空间图、时空图） - 方法 —— 抽取算法：KG-Gen、GraphRAG、LightRAG、Hyper-RAG、Cog-RAG 等 - 模板 —— 覆盖 6 个领域的 80+ 预设，零代码配置。模板示例（图类型）： `yaml language: en name: Knowledge Graph type: graph tags: [general] description: '抽取实体及其关系。' output: entities: fields: - name: name type: str - name: type type: str - name: description type: str relations: fields: - name: source type: str - name: target type: str - name: type type: str identifiers: entity_id: name relation_id: '{source}|{type}|{target}'` - 浏览全部 80+ 模板 - 创建自定义模板 ## 📚 文档与资源 | 资源 | 链接 | | :—–– | :— | | 完整文档 | yifanfeng97.github.io/Hyper-Extract (https://yifanfeng97.github.io/Hyper-Extract/latest/) | | CLI 指南 | 命令行界面 (https://yifanfeng97.github.io/Hyper-Extract/latest/cli/) | | 提供商系统 | 模型兼容性与本地部署 (https://yifanfeng97.github.io/Hyper-Extract/latest/concepts/provider-system/) | | 模板库 | 80+ 预设 | | 示例 | 可运行代码 | ## 🤝 贡献与许可欢迎贡献！请提交 Issue (https://github.com/yifanfeng97/hyper-extract/issues) 和 PR (https://github.com/yifanfeng97/hyper-extract/pulls)。基于 Apache-2.0 许可。 ## ⭐ Star 历史 Star History 图表 (https://star-history.com/#yifanfeng97/hyper-Extract&Date)

相似文章

@hasantoxr: 现在只需一条命令就能将杂乱文档转化为结构化知识。它叫做Hyper-Extract。大多数RAG工具只是…

X AI KOLs Timeline

Hyper-Extract 是一款命令行工具，可将凌乱的非结构化文档转化为结构化知识，如知识图谱、超图、时间/空间图及Obsidian vault，支持本地LLM推理与MCP集成。

@DataChaz: 混乱文档输入，复杂知识图谱输出，仅需一条命令行。如果你的流水线只是将数据编译成通用……

X AI KOLs Timeline

Hyper-Extract 是一个开源框架，可将混乱文档转换为类型化知识结构，支持多种图谱架构（如 GraphRAG、LightRAG 和 KG-Gen），拥有 10 多种提取引擎和 80 多个面向不同领域的 YAML 模板。

我构建了一个开源知识图谱管道，结合混合检索以改进LLM多跳推理 [P]

Reddit r/MachineLearning

一个开源的全栈管道，从原始文本构建知识图谱，使用混合搜索（密集向量+稀疏+图遍历）解决LLM中的多跳推理问题，并通过倒数排名融合和交叉编码器对结果进行重排序。

@liquidai: 推出 LFM2.5-VL-1.6B-Extract 和 LFM2.5-VL-450M-Extract：返回结构化JSON的视觉语言模型，而非…

X AI KOLs Timeline

Liquid AI发布了LFM2.5-VL-1.6B-Extract和LFM2.5-VL-450M-Extract，这些视觉语言模型能从图像和字段列表中输出结构化JSON。模型为开放权重，提供两种规格。

@veyhon: 把代码、文档、论文、图片和视频统一抽成知识图谱，让 AI 编程助手先查关系图，再决定该读哪段上下文 https://github.com/safishamsi/graphify… Graphify 的管线是 detect → extrac…

X AI KOLs Timeline

Graphify 是一个开源工具，将代码、文档、论文、图片和视频统一抽取为知识图谱，供 AI 编程助手优先查询关系图以确定上下文，从而提升代码理解和生成的准确性。

相似文章

@hasantoxr: 现在只需一条命令就能将杂乱文档转化为结构化知识。它叫做Hyper-Extract。大多数RAG工具只是…

@DataChaz: 混乱文档输入，复杂知识图谱输出，仅需一条命令行。如果你的流水线只是将数据编译成通用……

我构建了一个开源知识图谱管道，结合混合检索以改进LLM多跳推理 [P]

@liquidai: 推出 LFM2.5-VL-1.6B-Extract 和 LFM2.5-VL-450M-Extract：返回结构化JSON的视觉语言模型，而非…

@veyhon: 把代码、文档、论文、图片和视频统一抽成知识图谱，让 AI 编程助手先查关系图，再决定该读哪段上下文 https://github.com/safishamsi/graphify… Graphify 的管线是 detect → extrac…

提交意见反馈