yifanfeng97/Hyper-Extract

GitHub Trending (daily) 工具

摘要

Hyper-Extract 是一个开源命令行工具,利用大语言模型(LLMs)从非结构化文档中提取结构化知识,支持多种输出格式,如知识图谱和超图。

使用大语言模型将非结构化文本转换为结构化知识。图谱、超图以及时空提取——只需一条命令。
查看原文
查看缓存全文

缓存时间: 2026/06/18 23:40

yifanfeng97/Hyper-Extract 源码: https://github.com/yifanfeng97/Hyper-Extract 智能知识抽取 CLI 一键将文档转化为结构化知识。 📖 English Version · 中文版 PyPI 版本 (https://pypi.org/project/hyperextract/) Python 版本 (https://python.org) 许可证 状态 文档 (https://yifanfeng97.github.io/Hyper-Extract/latest/) > “停止阅读,开始理解。” > “告别文档焦虑,让信息一目了然” Hyper-Extract 是一个由 LLM 驱动的智能知识抽取与进化框架。它彻底简化了将高度非结构化文本转化为持久、可预测且强类型的知识摘要的过程。它能轻松地将信息抽取到多种格式中——从简单的集合(列表/集合)和 Pydantic 模型,到复杂的知识图谱超图乃至时空图。 ## ✨ 核心特性 | | | |:—|:—| | 🔷 8 种知识结构 | 从简单列表到高级图、超图和时空图 | | 🧠 10+ 抽取引擎 | GraphRAG、LightRAG、Hyper-RAG、KG-Gen 等——开箱即用 | | 📝 80+ YAML 模板 | 金融、法律、医疗、中医、工业、通用领域零代码抽取 | | 🔄 增量演化 | 随时加入新文档,扩展并完善您的知识库 | ## 🎯 你能用它做什么? 📄 研究人员 —— 将论文变成知识图谱 输入一篇 20 页的学术论文,获得包含关键概念、作者和引用的交互式图谱。 bash he parse paper.pdf -t general/academic_graph -o ./paper_kb/ he show ./paper_kb/ 🏦 金融分析师 —— 从收益报告中抽取实体 自动识别公司、高管、财务指标及其关系,无需结构化处理。 bash he parse earnings.md -t finance/earnings_graph -o ./finance_kb/ he search ./finance_kb/ "主要风险因素有哪些?" 🔒 本地部署 —— 使用 vLLM 将数据保留在本地 通过 vLLM 本地运行 Qwen3.5-9B + bge-m3。数据不出机器。 python from hyperextract import create_client llm, emb = create_client( llm="vllm:Qwen3.5-9B@http://localhost:8000/v1", embedder="vllm:bge-m3@http://localhost:8001/v1", api_key="dummy", ) ## 🚀 支持的平台与模型 Hyper-Extract 依赖大语言模型的结构化输出能力(json_schema 或函数调用)。 | 平台 | 已验证模型 | |–––––|—————–| | OpenAI | gpt-4o、gpt-4o-mini、gpt-5 | | 阿里云百炼 | qwen-plus、qwen-turbo、deepseek-r1 | | 本地 vLLM | Qwen3.5-9B (GPTQ-Marlin) | 嵌入模型(语义搜索)可配合任何兼容 OpenAI 的端点:text-embedding-3-smalltext-embedding-v4(百炼)、bge-m3(本地 vLLM)。 > 📖 完整指南:提供商系统与本地模型支持 (https://yifanfeng97.github.io/Hyper-Extract/latest/concepts/provider-system/) ## ⚡ 30 秒快速上手 bash # 安装 uv tool install hyperextract # 配置 API 密钥 he config init -k YOUR_OPENAI_API_KEY # 从文档中抽取知识 he parse examples/en/tesla.md -t general/biography_graph -o ./output/ -l en # 查询 he search ./output/ "特斯拉的主要成就是什么?" # 可视化 he show ./output/ 🐍 Python API(点击展开) bash uv pip install hyperextract python from hyperextract import Template ka = Template.create("general/biography_graph") with open("examples/en/tesla.md") as f: result = ka.parse(f.read()) result.show() > 🔗 更多示例:examples/en ## 📈 为什么选择 Hyper-Extract? | 特性 | GraphRAG | LightRAG | KG-Gen | ATOM | Hyper-Extract | | :—— | :——: | :——: | :––: | :–: | :—————: | | 知识图谱 | ✅ | ✅ | ✅ | ✅ | ✅ | | 时间图 | ✅ | ❌ | ❌ | ✅ | ✅ | | 空间图 | ❌ | ❌ | ❌ | ❌ | ✅ | | 超图 | ❌ | ❌ | ❌ | ❌ | ✅ | | 领域模板 | ❌ | ❌ | ❌ | ❌ | ✅ | | 交互式 CLI | ✅ | ❌ | ❌ | ❌ | ✅ | | 多语言 | ✅ | ❌ | ❌ | ❌ | ✅ | ## 🧩 支持的知识结构 从简单到复杂——为您的数据选择适当的结构: 示例——自动图谱可视化: 📋 内部机制(架构与模板) Hyper-Extract 采用三层架构: - 自动类型 —— 8 种强类型数据结构(模型、列表、集合、图、超图、时间图、空间图、时空图) - 方法 —— 抽取算法:KG-Gen、GraphRAG、LightRAG、Hyper-RAG、Cog-RAG 等 - 模板 —— 覆盖 6 个领域的 80+ 预设,零代码配置。 模板示例(图类型): yaml language: en name: Knowledge Graph type: graph tags: [general] description: '抽取实体及其关系。' output: entities: fields: - name: name type: str - name: type type: str - name: description type: str relations: fields: - name: source type: str - name: target type: str - name: type type: str identifiers: entity_id: name relation_id: '{source}|{type}|{target}' - 浏览全部 80+ 模板 - 创建自定义模板 ## 📚 文档与资源 | 资源 | 链接 | | :—–– | :— | | 完整文档 | yifanfeng97.github.io/Hyper-Extract (https://yifanfeng97.github.io/Hyper-Extract/latest/) | | CLI 指南 | 命令行界面 (https://yifanfeng97.github.io/Hyper-Extract/latest/cli/) | | 提供商系统 | 模型兼容性与本地部署 (https://yifanfeng97.github.io/Hyper-Extract/latest/concepts/provider-system/) | | 模板库 | 80+ 预设 | | 示例 | 可运行代码 | ## 🤝 贡献与许可 欢迎贡献!请提交 Issue (https://github.com/yifanfeng97/hyper-extract/issues) 和 PR (https://github.com/yifanfeng97/hyper-extract/pulls)。 基于 Apache-2.0 许可。 ## ⭐ Star 历史 Star History 图表 (https://star-history.com/#yifanfeng97/hyper-Extract&Date)

相似文章