@Sumanth_077:作为AI工程师,你绝对应该查看的10个GitHub仓库!1. Hands on AI Engineering 精选的……
摘要
一条推文列出了AI工程师必须查看的10个GitHub仓库,涵盖动手实践AI工程、LLM、AI智能体、机器学习部署等。
查看缓存全文
缓存时间: 2026/06/14 07:38
作为AI工程师,你绝对应该查看的10个GitHub仓库!
-
Hands on AI Engineering — AI驱动应用和智能体系统的精选仓库,展示LLM的实用案例
查看:https://github.com/Sumanth077/Hands-On-AI-Engineering -
Hands on Large Language Models — 包含《Hands-On Large Language Models》一书的完整代码示例,涵盖从语言模型入门到微调的所有内容
查看:https://github.com/HandsOnLLM/Hands-On-Large-Language-Models -
AI Agents for Beginners — 面向初学者的AI智能体友好课程,共11课,教您构建AI智能体所需的一切
查看:https://github.com/microsoft/ai-agents-for-beginners -
GenAI Agents — 提供从基础到高级的各种生成式AI智能体技术的教程和实现,是构建智能交互AI系统的综合指南
查看:https://github.com/NirDiamant/GenAI_Agents -
Made with ML — 学习如何设计、开发、部署和迭代生产级ML应用
查看:https://github.com/GokuMohandas/Made-With-ML -
Learn Harness Engineering — 基于项目的课程,教授构建环境、状态管理、验证和控制机制,使AI编码智能体可靠工作
查看:https://github.com/walkinglabs/learn-harness-engineering -
AutoResearch by Andrej Karpathy — 学习如何构建自主ML实验循环,AI智能体修改训练代码、运行实验并自我迭代。这个630行的Python脚本展示了如何在单GPU上设置智能体研究流程,一夜运行约100个实验。自主研究系统的实用实现
查看:https://github.com/karpathy/autoresearch -
Designing Machine Learning Systems — 包含《Designing Machine Learning Systems》一书的摘要和资源
查看:https://github.com/chiphuyen/dmls-book -
Awesome LLM Inference — LLM/VLM推理论文精选列表,附代码,涵盖Flash-Attention、Paged-Attention、WINT8/4、并行等。LLM推理优化技术的综合资源,包括量化、KV缓存管理、注意力机制和部署策略
查看:https://github.com/xlite-dev/Awesome-LLM-Inference -
LLM Course: The best hands-on course to learn Large Language Models with roadmaps and Colab notebooks!
查看:https://github.com/mlabonne/llm-course
如果您觉得有启发,请转发给您的网络。关注我 → @Sumanth_077,获取更多AI工程方面的见解和教程!
Sumanth077/Hands-On-AI-Engineering
来源:https://github.com/Sumanth077/Hands-On-AI-Engineering
🚀 动手学AI工程
许可证:MIT (https://opensource.org/licenses/MIT)
欢迎PR
一个精选的实用、生产就绪的AI项目集合,涵盖多种模态,包括语言模型、多模态模型、OCR系统、RAG管道和AI智能体。每个项目旨在帮助您学习、实验并构建真实的AI应用。
📋 目录
🎯 为什么创建这个仓库?
- 动手实践:每个项目都包含完整代码、设置说明和文档
- 生产就绪:项目遵循最佳实践,可适应真实世界使用
- 多样化用例:从RAG系统到多智能体工作流和专用应用
- 多模型提供商:项目使用OpenAI、Anthropic、Google和开源模型
- 活跃社区:定期更新和新项目添加
🗂️ 项目分类
🤖 AI智能体
用于各种自动化任务的智能AI智能体。
- 多智能体金融分析师 — 由专业智能体组成的团队,进行全面的金融分析。
- FinAgent — 用于股市分析和洞察的金融助手智能体。
- 每日AI新闻摘要 — 自动化的每日摘要,从92个Karpathy策划的技术博客中提取,每天早晨发送到Telegram。MiniMax M2.7对过去24小时的文章进行评分,并筛选出最重要的3篇故事。
- 智能表单填充器 — 使用Landing AI进行布局解析、MiniMax M2.7进行多轮数据收集的智能表单填充智能体。
- AI旅行规划智能体 — 多智能体旅行规划器,将单一自然语言请求转化为完整旅行计划,包含航班、酒店和逐日行程。
- 竞争情报智能体 — 通过自身业务背景分析竞争对手,生成战略性销售对战卡。
- 多智能体研究助理 (AG2) — 使用AG2的多智能体研究管道,三位专家协作研究任何主题并生成结构化报告。
- 自我反思智能体RAG — LangGraph RAG系统,对检索到的上下文进行评分,若需要则重写查询,仅在上下文通过验证后才生成答案。
- 智能体SQL搜索 — 由Gemma 4驱动的自然语言转SQL智能体,能编写、执行和解释针对电商数据库的查询。
- 股票组合分析师 — 使用Agno和DeepSeek-V4-Flash构建的投资组合分析智能体。通过YFinance获取实时市场数据,生成涵盖盈亏、集中度风险和再平衡建议的报告。
- Eagle Eye — 使用OpenClaw和Telegram的GitHub PR审查智能体。通过GitHub MCP获取差异,进行结构化代码审查并给出严重性评级,在用户批准后发布反馈。
- CartMate — AI客户支持智能体 — 由Mem0和Mistral Small 4驱动的记忆型电商支持智能体,能记住客户并从中断处继续对话。
- 多智能体编码助手 — 由Mistral Small 4和LangChain驱动的四阶段编码管道。规划器、编码器和审查器智能体协作生成精炼的最终实现。
- 创业公司分析师 — 由MiniMax M2.5驱动的创业公司尽职调查智能体。使用Firecrawl抓取公司网站,生成涵盖市场地位、财务状况、团队和风险的投资级报告。
- 研究团队 — 由MiniMax M2.5驱动的多智能体研究系统。Seeker搜索网络,Scout导航内部文档,团队领导综合发现生成结构化报告。
- GitHub情报智能体 — 由Gemini 3 Flash和GitHub官方MCP服务器驱动的GitHub研究智能体。可查询任何关于仓库、贡献者、问题或代码库的信息。
- Smolagents代码智能体 — 由Mistral Small 4和HuggingFace smolagents驱动的智能体任务运行器。每一步使用DuckDuckGo和Wikipedia编写并执行Python代码。
- 智能体发现智能体 — 通过单一自然语言界面,在NANDA、MCP、Virtuals Protocol、A2A和ERC-8004中搜索和比较AI智能体。由Gemini 3 Flash驱动。
- Cal日程安排智能体 — 通过自然语言管理Cal.com约会的对话式日程安排助手。可预订、重新安排、取消和检查可用性,自动处理时区。
- Hacker News新闻简报智能体 — 获取最新的10篇Hacker News故事,使用Trafilatura抓取完整文章内容,用Gemma 4生成结构化HTML新闻简报,并通过Gmail SMTP发送到您的邮箱。
- 酒店查找智能体 — 由qwen3.6-flash(通过Orq.ai)和Trivago MCP服务器驱动的对话式酒店搜索智能体。可按地点、日期、客人数、价格范围、星级和设施搜索。
- 营销策略智能体 — 多智能体营销活动生成器。市场分析师(使用Serper网络搜索)、策略官和创意总监依次运行,生成市场研究、完整策略和创意活动内容。由deepseek-v4-flash(通过Orq.ai)驱动。
- 品牌监控器 — 单次运行监控Web、YouTube、Twitter/X和LinkedIn上的品牌提及。Scrapingdog收集平台数据,DeepSeek V4 Flash为每个渠道生成结构化情报简报。
- AI辩论智能体 - 两个LLM辩手就您选择的任何主题进行辩论。裁判为每一轮打分并宣布获胜者。
- 浏览器自动化智能体 - 接受自然语言指令,自主导航网页并使用浏览器操作完成指令。
- 文档问答智能体 - 通过URL与任何文档对话。使用Fetch MCP和NVIDIA NIM上的DeepSeek V4 Flash。
- 职位发布智能体 - 根据公司名称和职位,使用NVIDIA NIM上的DeepSeek V4 Flash生成量身定制的职位发布。
- LangChain数据智能体 - 通过对话式Streamlit聊天界面用普通英语查询Chinook SQLite数据库。
- 旅行规划智能体 - AI旅行规划助手,涵盖天气、预算、行李清单和逐日行程,一次请求即可完成。
- 个人财务智能体 - 上传银行对账单CSV,自动分类交易,并就开支提出自然语言问题。由LangChain工具调用智能体驱动,后端使用Orq.ai和SQLite持久化。
📸 OCR
从视觉数据和文档中提取结构和含义。
- 图像到结构化数据提取器 — 使用Mistral Large 3和Instructor将图像转换为经过验证的结构化JSON。
- LaTeX公式OCR — 使用本地视觉语言模型从图像和PDF中提取数学公式为LaTeX。
- 医疗处方数字化器 — 使用Mistral Large 3将手写或打印处方数字化为结构化输出,并实时针对RxNorm验证药物名称。
🎧 音频
用于音频理解和分析的项目。
- 音乐探索者 — 使用Gemini 3 Flash与任何音频文件或YouTube视频对话。可请求转录、情感分析、乐器识别和带时间戳的分解。
- 多语言音频翻译器 — 上传或录制任何语言的音频,使用faster-whisper转录,通过Gemini翻译,并使用Kokoro TTS播放合成的语音。
🎬 多模态
结合视觉、视频和语言模型的项目。
- GLM-OCR Pro — 使用GLM-OCR(通过Ollama)进行结构化文档提取,将图像和PDF本地转换为格式化Markdown。
- 视频理解智能体 — 使用Gemini Flash将YouTube视频总结为章节、关键要点和行动项。
- 多模态天气应用 — 上传地图图像获取实时天气。Mistral Small 4通过视觉识别城市,然后通过原生工具调用获取实时天气状况。
- 多模态RAG — 将文本、URL、PDF、图像、音频和视频摄入共享ChromaDB索引的RAG系统。Gemini Embedding 2处理检索,Gemini 3 Flash生成基于上下文的答案,并传递媒体源的实际文件URI。
- 图像问答 — 上传PDF,选择页面,提出视觉问题,由Gemma 4以思考模式回答。PyMuPDF将每个页面渲染为全分辨率图像,以便对图表、表格和图形进行基于上下文的推理。
- 医疗文档解析器 - 使用Gemma 4视觉从医疗PDF和图像中提取结构化的临床档案。
📚 RAG应用
用于知识增强型AI应用的检索增强生成系统。
- 基于O3-Mini和DuckDuckGo的智能体RAG — 使用O3-Mini和DuckDuckGo进行实时网络搜索的RAG系统。
- 基于Qwen和FireCrawl的智能体RAG — 使用Qwen和FireCrawl进行网页抓取和检索的RAG系统。
- 视觉RAG — 用于处理和查询视觉内容的多模态RAG系统。
- 基于ADE的临床RAG — 高精度临床RAG,使用LandingAI ADE进行视觉优先文档解析,Mistral Large进行基于上下文的推理。
- YouTube转录RAG — 使用Whisper转录、ChromaDB检索和Mistral Small 4与任何YouTube视频对话,答案带时间戳链接。
- GraphRAG知识系统 — 使用Mistral Small 4和NetworkX从上传文档构建本地知识图谱,支持实体级和主题查询。
- 混合RAG系统 — 将文档并行索引到知识图谱和向量存储中。Mistral Small 4使用来自两条检索路径的融合上下文回答问题。
- HyDE RAG — 使用假设文档嵌入的RAG管道。Gemini 3 Flash生成假设答案,Gemini Embedding 2嵌入并平均,结果从ChromaDB中检索更精确的片段。
- 摇滚音乐RAG — 基于维基百科构建的自定义摇滚音乐知识库。添加任何乐队,跨所有乐队提问,得到由BM25检索和Gemma 4驱动的带来源的答案。
- 带数据库路由的RAG智能体 — 使用Agno路由器智能体将查询路由到三个专门的Qdrant数据库(产品、支持、金融)。当未找到相关文档时,回退到LangGraph ReAct网络搜索智能体。
- 推理RAG - 针对任何网络来源提问,通过Gradio获得带引用的答案和实时逐步推理轨迹。
🤝 贡献
我们欢迎贡献!无论是添加新项目、改进现有项目还是修复错误,您的帮助使这个仓库对每个人都更好。
如何贡献
- 阅读指南:查看CONTRIBUTING.md获取详细说明
- 创建问题:提出您的项目或改进
- 遵循结构:使用适当的分类文件夹
- 提交PR:每个拉取请求一个项目
项目结构要求
- 每个项目必须放在相应分类下的独立文件夹中
- 必须包含全面的
README.md(使用我们的模板) - 必须包含
相似文章
@AvinashSingh_20: 深入学习 AI 工程的 10 个 GitHub 仓库! 1 :- https://github.com/Avik-Jain/100-Days-Of-ML-Code… 2 :- https://…
精选了 10 个 GitHub 仓库,推荐用于深入学习 AI 工程,涵盖机器学习基础、LLM 应用以及 RAG 技术等主题。
@RodmanAi: 10 个 GitHub 仓库,提升你的 AI Agent 技能(收藏此帖)1. Hands-On Large Language Models 完整代码笔记…
一篇 LinkedIn 帖子分享了 10 个覆盖 AI Agent 技能、LLM、提示工程和生成式 AI 的 GitHub 仓库,包括免费课程和实用资源。
@Sumanth_077: 动手实践AI工程!我开源了一个包含50多个动手AI工程教程的合集。它包含逐步指导…
一个包含50多个动手AI工程教程的合集,涵盖AI智能体、RAG、MCP、OCR、语音AI等,已开源,获得1000+ GitHub星标。
@heynavtoor:10个GitHub仓库,助你构建AI代理,在你睡觉时自动提交PR。收藏此文,在老板发现前保存这份清单……
一份精心整理的10个开源GitHub仓库清单,用于构建能够自动处理拉取请求、修复Bug和开发功能的AI代理,涵盖OpenHands、SWE-agent和Aider等工具。
@charliejhills:大多数人使用AI。最聪明的人向构建它的人学习。这里有11个GitHub仓库,感觉像是在开源互联网的集体智慧……
一条推文线程,精选了11个开源的GitHub仓库,涵盖AI工具、智能体(agents)和学习资源,包括PilotDeck、Karpathy的技能(Karpathy's skills)以及微软的AI智能体课程。