@Sumanth_077:作为AI工程师,你绝对应该查看的10个GitHub仓库!1. Hands on AI Engineering 精选的……

X AI KOLs Timeline 新闻

摘要

一条推文列出了AI工程师必须查看的10个GitHub仓库,涵盖动手实践AI工程、LLM、AI智能体、机器学习部署等。

作为AI工程师,你绝对应该查看的10个GitHub仓库! 1. Hands on AI Engineering 精选的AI驱动应用和智能体系统仓库,展示LLM的实际用例 查看:https://github.com/Sumanth077/Hands-On-AI-Engineering… 2. Hands on Large Language Models 该仓库包含《Hands-On Large Language Models》一书中的完整代码示例。 包含笔记本示例,涵盖从语言模型入门到微调的所有内容。 查看:https://github.com/HandsOnLLM/Hands-On-Large-Language-Models… 3. AI Agents for Beginners 面向初学者的AI智能体课程 这个免费的11节课程将教你构建AI智能体所需的一切。 查看:https://github.com/microsoft/ai-agents-for-beginners… 4. GenAI Agents 该仓库提供各种生成式AI智能体技术的教程和实现,从基础到高级。 作为构建智能交互式AI系统的全面指南。 查看:https://github.com/NirDiamant/GenAI_Agents… 5. Made with ML 学习如何设计、开发、部署和迭代生产级机器学习应用。 查看:https://github.com/GokuMohandas/Made-With-ML… 6. Learn Harness Engineering 一个基于项目的课程,教授构建使AI编程智能体可靠运行的环境、状态管理、验证和控制机制。 查看:https://github.com/walkinglabs/learn-harness-engineering… 7. AutoResearch by Andrej Karpathy 学习如何构建自主机器学习实验循环,让AI智能体自行修改训练代码、运行实验并迭代。 这个630行的Python脚本展示了如何设置一个智能体研究流程,在单个GPU上一夜运行约100个实验。自主研究系统的实际实现。 查看:https://github.com/karpathy/autoresearch… 8. Designing Machine Learning Systems 该仓库包含《Designing Machine Learning Systems》一书的摘要和资源。 查看:https://github.com/chiphuyen/dmls-book… 9. Awesome LLM Inference 精选的LLM/VLM推理论文列表,附代码,涵盖Flash-Attention、Paged-Attention、WINT8/4、并行化等。 涵盖量化、KV缓存管理、注意力机制和部署策略的LLM推理优化技术的全面资源。 查看:https://github.com/xlite-dev/Awesome-LLM-Inference… 10. LLM Course:学习大语言模型的最佳实践课程,包含路线图和Colab笔记本! 查看:https://github.com/mlabonne/llm-course… 如果你觉得有收获,请与你的网络分享。 关注我 → @Sumanth_077 获取更多关于AI工程的见解和教程!
查看原文
查看缓存全文

缓存时间: 2026/06/14 07:38

作为AI工程师,你绝对应该查看的10个GitHub仓库!

  1. Hands on AI Engineering — AI驱动应用和智能体系统的精选仓库,展示LLM的实用案例
    查看:https://github.com/Sumanth077/Hands-On-AI-Engineering

  2. Hands on Large Language Models — 包含《Hands-On Large Language Models》一书的完整代码示例,涵盖从语言模型入门到微调的所有内容
    查看:https://github.com/HandsOnLLM/Hands-On-Large-Language-Models

  3. AI Agents for Beginners — 面向初学者的AI智能体友好课程,共11课,教您构建AI智能体所需的一切
    查看:https://github.com/microsoft/ai-agents-for-beginners

  4. GenAI Agents — 提供从基础到高级的各种生成式AI智能体技术的教程和实现,是构建智能交互AI系统的综合指南
    查看:https://github.com/NirDiamant/GenAI_Agents

  5. Made with ML — 学习如何设计、开发、部署和迭代生产级ML应用
    查看:https://github.com/GokuMohandas/Made-With-ML

  6. Learn Harness Engineering — 基于项目的课程,教授构建环境、状态管理、验证和控制机制,使AI编码智能体可靠工作
    查看:https://github.com/walkinglabs/learn-harness-engineering

  7. AutoResearch by Andrej Karpathy — 学习如何构建自主ML实验循环,AI智能体修改训练代码、运行实验并自我迭代。这个630行的Python脚本展示了如何在单GPU上设置智能体研究流程,一夜运行约100个实验。自主研究系统的实用实现
    查看:https://github.com/karpathy/autoresearch

  8. Designing Machine Learning Systems — 包含《Designing Machine Learning Systems》一书的摘要和资源
    查看:https://github.com/chiphuyen/dmls-book

  9. Awesome LLM Inference — LLM/VLM推理论文精选列表,附代码,涵盖Flash-Attention、Paged-Attention、WINT8/4、并行等。LLM推理优化技术的综合资源,包括量化、KV缓存管理、注意力机制和部署策略
    查看:https://github.com/xlite-dev/Awesome-LLM-Inference

  10. LLM Course: The best hands-on course to learn Large Language Models with roadmaps and Colab notebooks!
    查看:https://github.com/mlabonne/llm-course

如果您觉得有启发,请转发给您的网络。关注我 → @Sumanth_077,获取更多AI工程方面的见解和教程!


Sumanth077/Hands-On-AI-Engineering

来源:https://github.com/Sumanth077/Hands-On-AI-Engineering

🚀 动手学AI工程

许可证:MIT (https://opensource.org/licenses/MIT)
欢迎PR

一个精选的实用、生产就绪的AI项目集合,涵盖多种模态,包括语言模型、多模态模型、OCR系统、RAG管道和AI智能体。每个项目旨在帮助您学习、实验并构建真实的AI应用。

📋 目录


🎯 为什么创建这个仓库?

  • 动手实践:每个项目都包含完整代码、设置说明和文档
  • 生产就绪:项目遵循最佳实践,可适应真实世界使用
  • 多样化用例:从RAG系统到多智能体工作流和专用应用
  • 多模型提供商:项目使用OpenAI、Anthropic、Google和开源模型
  • 活跃社区:定期更新和新项目添加

🗂️ 项目分类

🤖 AI智能体

用于各种自动化任务的智能AI智能体。

  • 多智能体金融分析师 — 由专业智能体组成的团队,进行全面的金融分析。
  • FinAgent — 用于股市分析和洞察的金融助手智能体。
  • 每日AI新闻摘要 — 自动化的每日摘要,从92个Karpathy策划的技术博客中提取,每天早晨发送到Telegram。MiniMax M2.7对过去24小时的文章进行评分,并筛选出最重要的3篇故事。
  • 智能表单填充器 — 使用Landing AI进行布局解析、MiniMax M2.7进行多轮数据收集的智能表单填充智能体。
  • AI旅行规划智能体 — 多智能体旅行规划器,将单一自然语言请求转化为完整旅行计划,包含航班、酒店和逐日行程。
  • 竞争情报智能体 — 通过自身业务背景分析竞争对手,生成战略性销售对战卡。
  • 多智能体研究助理 (AG2) — 使用AG2的多智能体研究管道,三位专家协作研究任何主题并生成结构化报告。
  • 自我反思智能体RAG — LangGraph RAG系统,对检索到的上下文进行评分,若需要则重写查询,仅在上下文通过验证后才生成答案。
  • 智能体SQL搜索 — 由Gemma 4驱动的自然语言转SQL智能体,能编写、执行和解释针对电商数据库的查询。
  • 股票组合分析师 — 使用Agno和DeepSeek-V4-Flash构建的投资组合分析智能体。通过YFinance获取实时市场数据,生成涵盖盈亏、集中度风险和再平衡建议的报告。
  • Eagle Eye — 使用OpenClaw和Telegram的GitHub PR审查智能体。通过GitHub MCP获取差异,进行结构化代码审查并给出严重性评级,在用户批准后发布反馈。
  • CartMate — AI客户支持智能体 — 由Mem0和Mistral Small 4驱动的记忆型电商支持智能体,能记住客户并从中断处继续对话。
  • 多智能体编码助手 — 由Mistral Small 4和LangChain驱动的四阶段编码管道。规划器、编码器和审查器智能体协作生成精炼的最终实现。
  • 创业公司分析师 — 由MiniMax M2.5驱动的创业公司尽职调查智能体。使用Firecrawl抓取公司网站,生成涵盖市场地位、财务状况、团队和风险的投资级报告。
  • 研究团队 — 由MiniMax M2.5驱动的多智能体研究系统。Seeker搜索网络,Scout导航内部文档,团队领导综合发现生成结构化报告。
  • GitHub情报智能体 — 由Gemini 3 Flash和GitHub官方MCP服务器驱动的GitHub研究智能体。可查询任何关于仓库、贡献者、问题或代码库的信息。
  • Smolagents代码智能体 — 由Mistral Small 4和HuggingFace smolagents驱动的智能体任务运行器。每一步使用DuckDuckGo和Wikipedia编写并执行Python代码。
  • 智能体发现智能体 — 通过单一自然语言界面,在NANDA、MCP、Virtuals Protocol、A2A和ERC-8004中搜索和比较AI智能体。由Gemini 3 Flash驱动。
  • Cal日程安排智能体 — 通过自然语言管理Cal.com约会的对话式日程安排助手。可预订、重新安排、取消和检查可用性,自动处理时区。
  • Hacker News新闻简报智能体 — 获取最新的10篇Hacker News故事,使用Trafilatura抓取完整文章内容,用Gemma 4生成结构化HTML新闻简报,并通过Gmail SMTP发送到您的邮箱。
  • 酒店查找智能体 — 由qwen3.6-flash(通过Orq.ai)和Trivago MCP服务器驱动的对话式酒店搜索智能体。可按地点、日期、客人数、价格范围、星级和设施搜索。
  • 营销策略智能体 — 多智能体营销活动生成器。市场分析师(使用Serper网络搜索)、策略官和创意总监依次运行,生成市场研究、完整策略和创意活动内容。由deepseek-v4-flash(通过Orq.ai)驱动。
  • 品牌监控器 — 单次运行监控Web、YouTube、Twitter/X和LinkedIn上的品牌提及。Scrapingdog收集平台数据,DeepSeek V4 Flash为每个渠道生成结构化情报简报。
  • AI辩论智能体 - 两个LLM辩手就您选择的任何主题进行辩论。裁判为每一轮打分并宣布获胜者。
  • 浏览器自动化智能体 - 接受自然语言指令,自主导航网页并使用浏览器操作完成指令。
  • 文档问答智能体 - 通过URL与任何文档对话。使用Fetch MCP和NVIDIA NIM上的DeepSeek V4 Flash。
  • 职位发布智能体 - 根据公司名称和职位,使用NVIDIA NIM上的DeepSeek V4 Flash生成量身定制的职位发布。
  • LangChain数据智能体 - 通过对话式Streamlit聊天界面用普通英语查询Chinook SQLite数据库。
  • 旅行规划智能体 - AI旅行规划助手,涵盖天气、预算、行李清单和逐日行程,一次请求即可完成。
  • 个人财务智能体 - 上传银行对账单CSV,自动分类交易,并就开支提出自然语言问题。由LangChain工具调用智能体驱动,后端使用Orq.ai和SQLite持久化。

📸 OCR

从视觉数据和文档中提取结构和含义。

  • 图像到结构化数据提取器 — 使用Mistral Large 3和Instructor将图像转换为经过验证的结构化JSON。
  • LaTeX公式OCR — 使用本地视觉语言模型从图像和PDF中提取数学公式为LaTeX。
  • 医疗处方数字化器 — 使用Mistral Large 3将手写或打印处方数字化为结构化输出,并实时针对RxNorm验证药物名称。

🎧 音频

用于音频理解和分析的项目。

  • 音乐探索者 — 使用Gemini 3 Flash与任何音频文件或YouTube视频对话。可请求转录、情感分析、乐器识别和带时间戳的分解。
  • 多语言音频翻译器 — 上传或录制任何语言的音频,使用faster-whisper转录,通过Gemini翻译,并使用Kokoro TTS播放合成的语音。

🎬 多模态

结合视觉、视频和语言模型的项目。

  • GLM-OCR Pro — 使用GLM-OCR(通过Ollama)进行结构化文档提取,将图像和PDF本地转换为格式化Markdown。
  • 视频理解智能体 — 使用Gemini Flash将YouTube视频总结为章节、关键要点和行动项。
  • 多模态天气应用 — 上传地图图像获取实时天气。Mistral Small 4通过视觉识别城市,然后通过原生工具调用获取实时天气状况。
  • 多模态RAG — 将文本、URL、PDF、图像、音频和视频摄入共享ChromaDB索引的RAG系统。Gemini Embedding 2处理检索,Gemini 3 Flash生成基于上下文的答案,并传递媒体源的实际文件URI。
  • 图像问答 — 上传PDF,选择页面,提出视觉问题,由Gemma 4以思考模式回答。PyMuPDF将每个页面渲染为全分辨率图像,以便对图表、表格和图形进行基于上下文的推理。
  • 医疗文档解析器 - 使用Gemma 4视觉从医疗PDF和图像中提取结构化的临床档案。

📚 RAG应用

用于知识增强型AI应用的检索增强生成系统。

  • 基于O3-Mini和DuckDuckGo的智能体RAG — 使用O3-Mini和DuckDuckGo进行实时网络搜索的RAG系统。
  • 基于Qwen和FireCrawl的智能体RAG — 使用Qwen和FireCrawl进行网页抓取和检索的RAG系统。
  • 视觉RAG — 用于处理和查询视觉内容的多模态RAG系统。
  • 基于ADE的临床RAG — 高精度临床RAG,使用LandingAI ADE进行视觉优先文档解析,Mistral Large进行基于上下文的推理。
  • YouTube转录RAG — 使用Whisper转录、ChromaDB检索和Mistral Small 4与任何YouTube视频对话,答案带时间戳链接。
  • GraphRAG知识系统 — 使用Mistral Small 4和NetworkX从上传文档构建本地知识图谱,支持实体级和主题查询。
  • 混合RAG系统 — 将文档并行索引到知识图谱和向量存储中。Mistral Small 4使用来自两条检索路径的融合上下文回答问题。
  • HyDE RAG — 使用假设文档嵌入的RAG管道。Gemini 3 Flash生成假设答案,Gemini Embedding 2嵌入并平均,结果从ChromaDB中检索更精确的片段。
  • 摇滚音乐RAG — 基于维基百科构建的自定义摇滚音乐知识库。添加任何乐队,跨所有乐队提问,得到由BM25检索和Gemma 4驱动的带来源的答案。
  • 带数据库路由的RAG智能体 — 使用Agno路由器智能体将查询路由到三个专门的Qdrant数据库(产品、支持、金融)。当未找到相关文档时,回退到LangGraph ReAct网络搜索智能体。
  • 推理RAG - 针对任何网络来源提问,通过Gradio获得带引用的答案和实时逐步推理轨迹。

🤝 贡献

我们欢迎贡献!无论是添加新项目、改进现有项目还是修复错误,您的帮助使这个仓库对每个人都更好。

如何贡献

  1. 阅读指南:查看CONTRIBUTING.md获取详细说明
  2. 创建问题:提出您的项目或改进
  3. 遵循结构:使用适当的分类文件夹
  4. 提交PR:每个拉取请求一个项目

项目结构要求

  • 每个项目必须放在相应分类下的独立文件夹中
  • 必须包含全面的README.md(使用我们的模板
  • 必须包含

相似文章