@mdancho84:这家伙用Python构建了一个完整的AI数据科学团队,然后开源了(100%免费)。它能自动化数据科学工作流…

X AI KOLs Timeline 工具

摘要

一个开源的Python库,可创建AI驱动的数据科学团队,自动化从数据加载到建模的工作流程,并提供可视化管道工作室以确保可重复性。

这家伙用Python构建了一个完整的AI数据科学团队,然后开源了(100%免费)。 它能利用AI自动化数据科学工作流程,包括数据加载、清洗、探索性分析和特征工程。并且每个步骤都会记录在100%可复现的管道中。 00:00 项目概述 01:32 深入AI数据科学工作流与数据加载 02:10 数据整理与清洗 03:33 数据可视化洞察与绘图 04:08 特征工程 05:00 1小时现场工作坊 05:44 AI数据科学团队 Python 库 AI数据科学团队 GitHub(给它一颗星) https://github.com/business-science/ai-data-science-team… 想学习如何构建并交付AI和数据科学项目(企业真正想要的2026年版本)吗? 6月24日,我将举办一场免费工作坊,帮助你开始使用Python进行AI+DS项目。 在此注册(500个席位):https://learn.business-science.io/ai-register
查看原文
查看缓存全文

缓存时间: 2026/06/03 01:40

这家伙用Python搭建了整个AI数据科学团队。然后开源了(100%免费)。它用AI自动化数据科学工作流,包括数据加载、清洗、探索性分析和特征工程。并且每一步都能追踪,形成100%可复现的管道。
00:00 项目概览
01:32 深入AI数据科学工作流与数据加载
02:10 数据整理与清洗
03:33 数据可视化洞察与绘图
04:08 特征工程
05:00 1小时直播实战
05:44 AI数据科学团队Python库
AI数据科学团队在GitHub上(记得点Star)
https://github.com/business-science/ai-data-science-team…
想学习如何构建并交付AI和数据科学项目(企业真正想要的2026年方案)?6月24日,我将主持一场免费实战课,帮你用Python启动AI+DS项目。
在此注册(限500人):https://learn.business-science.io/ai-register

business-science/ai-data-science-team

来源:https://github.com/business-science/ai-data-science-team
AI数据科学团队 + AI管道工作室

AI数据科学团队

AI数据科学团队是一个Python库,包含面向常见数据科学工作流的专用智能体,以及旗舰应用:AI管道工作室。该工作室将你的工作转化为可视化、可复现的管道,而AI团队则负责数据加载、清洗、可视化和建模。

状态: Beta版。在0.1.0版本之前可能发生破坏性变更。
请⭐我们(只需2秒,意义重大)。 (https://github.com/business-science/ai-data-science-team)

AI管道工作室(旗舰应用)

AI管道工作室是AI数据科学团队实际运作的主要示例。

AI管道工作室亮点:

  • Pipeline优先的工作区:可视化编辑器、表格、图表、EDA、代码、模型、预测、MLflow
  • 手动+AI步骤,带血缘关系与可复现脚本
  • 多数据集处理与合并工作流
  • 项目保存:仅元数据或全量数据
  • 存储占用控制与数据恢复工作流

运行它:

streamlit run apps/ai-pipeline-studio-app/app.py  

完整应用文档:apps/ai-pipeline-studio-app/README.md

快速入门

要求

  • Python 3.10+
  • OpenAI API密钥(或用Ollama运行本地模型)

安装应用与库

克隆仓库并以可编辑模式安装:

pip install -e .  

运行AI管道工作室应用

streamlit run apps/ai-pipeline-studio-app/app.py  

库概览

该仓库既包含 AI管道工作室 应用,也包含底层的 AI数据科学团队 库。该库提供了智能体构建模块和多智能体工作流,用于:

  • 数据加载与检查
  • 清洗、整理与特征工程
  • 可视化与EDA
  • 建模与评估(H2O + MLflow工具)
  • SQL数据库交互

智能体(概览)

智能体示例位于 examples/ 目录中。值得关注的智能体:

  • 数据加载工具智能体
  • 数据整理智能体
  • 数据清洗智能体
  • 数据可视化智能体
  • EDA工具智能体
  • 特征工程智能体
  • SQL数据库智能体
  • H2O ML智能体
  • MLflow工具智能体
  • 多智能体工作流(例如Pandas数据分析师、SQL数据分析师)
  • 监督智能体(监管其他智能体)
  • 面向数据科学任务的自定义工具

应用

所有应用见 apps/ 目录。值得关注的应用:

  • AI管道工作室:apps/ai-pipeline-studio-app/
  • EDA探索器应用:apps/exploratory-copilot-app/
  • Pandas数据分析师应用:apps/pandas-data-analyst-app/

使用OpenAI

from langchain_openai import ChatOpenAI  
llm = ChatOpenAI(  
    model_name="gpt-4.1-mini",  
)  

使用Ollama(本地LLM)

ollama serve  
ollama pull llama3.1:8b  
from langchain_ollama import ChatOllama  
llm = ChatOllama(  
    model="llama3.1:8b",  
)  

下一代AI智能体实战课

想学习如何为真实数据科学工作流构建AI智能体和AI应用?加入我的下一代AI实战课:
https://learn.business-science.io/ai-register

相似文章

如果你曾好奇在AI辅助下严谨的数据分析和社会科学研究会是什么样子,我刚刚为我的开源Claude Code研究员工具包推出了一个漂亮的网站:数据分析增强框架(Data Analyst Augmentation Framework)!它既是关于智能体编排的互动讲解器,也是一款免费工具。

Reddit r/artificial

数据分析增强框架(DAAF)是一个免费、开源的工具包,它将Claude Code转变为严谨的定量研究引擎,确保在人类监督下实现可审计和可重复的分析。