@mdancho84:这家伙用Python构建了一个完整的AI数据科学团队,然后开源了(100%免费)。它能自动化数据科学工作流…
摘要
一个开源的Python库,可创建AI驱动的数据科学团队,自动化从数据加载到建模的工作流程,并提供可视化管道工作室以确保可重复性。
查看缓存全文
缓存时间: 2026/06/03 01:40
这家伙用Python搭建了整个AI数据科学团队。然后开源了(100%免费)。它用AI自动化数据科学工作流,包括数据加载、清洗、探索性分析和特征工程。并且每一步都能追踪,形成100%可复现的管道。
00:00 项目概览
01:32 深入AI数据科学工作流与数据加载
02:10 数据整理与清洗
03:33 数据可视化洞察与绘图
04:08 特征工程
05:00 1小时直播实战
05:44 AI数据科学团队Python库
AI数据科学团队在GitHub上(记得点Star)
https://github.com/business-science/ai-data-science-team…
想学习如何构建并交付AI和数据科学项目(企业真正想要的2026年方案)?6月24日,我将主持一场免费实战课,帮你用Python启动AI+DS项目。
在此注册(限500人):https://learn.business-science.io/ai-register
business-science/ai-data-science-team
来源:https://github.com/business-science/ai-data-science-team
AI数据科学团队 + AI管道工作室
AI数据科学团队
AI数据科学团队是一个Python库,包含面向常见数据科学工作流的专用智能体,以及旗舰应用:AI管道工作室。该工作室将你的工作转化为可视化、可复现的管道,而AI团队则负责数据加载、清洗、可视化和建模。
状态: Beta版。在0.1.0版本之前可能发生破坏性变更。
请⭐我们(只需2秒,意义重大)。 (https://github.com/business-science/ai-data-science-team)
AI管道工作室(旗舰应用)
AI管道工作室是AI数据科学团队实际运作的主要示例。
AI管道工作室亮点:
- Pipeline优先的工作区:可视化编辑器、表格、图表、EDA、代码、模型、预测、MLflow
- 手动+AI步骤,带血缘关系与可复现脚本
- 多数据集处理与合并工作流
- 项目保存:仅元数据或全量数据
- 存储占用控制与数据恢复工作流
运行它:
streamlit run apps/ai-pipeline-studio-app/app.py
完整应用文档:apps/ai-pipeline-studio-app/README.md
快速入门
要求
- Python 3.10+
- OpenAI API密钥(或用Ollama运行本地模型)
安装应用与库
克隆仓库并以可编辑模式安装:
pip install -e .
运行AI管道工作室应用
streamlit run apps/ai-pipeline-studio-app/app.py
库概览
该仓库既包含 AI管道工作室 应用,也包含底层的 AI数据科学团队 库。该库提供了智能体构建模块和多智能体工作流,用于:
- 数据加载与检查
- 清洗、整理与特征工程
- 可视化与EDA
- 建模与评估(H2O + MLflow工具)
- SQL数据库交互
智能体(概览)
智能体示例位于 examples/ 目录中。值得关注的智能体:
- 数据加载工具智能体
- 数据整理智能体
- 数据清洗智能体
- 数据可视化智能体
- EDA工具智能体
- 特征工程智能体
- SQL数据库智能体
- H2O ML智能体
- MLflow工具智能体
- 多智能体工作流(例如Pandas数据分析师、SQL数据分析师)
- 监督智能体(监管其他智能体)
- 面向数据科学任务的自定义工具
应用
所有应用见 apps/ 目录。值得关注的应用:
- AI管道工作室:
apps/ai-pipeline-studio-app/ - EDA探索器应用:
apps/exploratory-copilot-app/ - Pandas数据分析师应用:
apps/pandas-data-analyst-app/
使用OpenAI
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(
model_name="gpt-4.1-mini",
)
使用Ollama(本地LLM)
ollama serve
ollama pull llama3.1:8b
from langchain_ollama import ChatOllama
llm = ChatOllama(
model="llama3.1:8b",
)
下一代AI智能体实战课
想学习如何为真实数据科学工作流构建AI智能体和AI应用?加入我的下一代AI实战课:
https://learn.business-science.io/ai-register
相似文章
@quantscience_: 有人做了一个量化交易系统,使用了AI、实时数据处理和风险管理。然后将其开源…
一个开源的Python量化交易系统,利用AI、实时数据处理和风险管理,已免费发布。
@pauliusztin_: 我们刚刚开源了完整的 @aiDotEngineer 研讨会!你可以克隆它并自行运行所有内容... → https://github…
一个开源研讨会仓库,用于构建真实世界的多智能体 AI 系统,包括深度研究智能体和 LinkedIn 写作工作流,使用 MCP 服务器、Pydantic 结构化输出以及带有 Claude Code 子智能体的智能体工程。
如果你曾好奇在AI辅助下严谨的数据分析和社会科学研究会是什么样子,我刚刚为我的开源Claude Code研究员工具包推出了一个漂亮的网站:数据分析增强框架(Data Analyst Augmentation Framework)!它既是关于智能体编排的互动讲解器,也是一款免费工具。
数据分析增强框架(DAAF)是一个免费、开源的工具包,它将Claude Code转变为严谨的定量研究引擎,确保在人类监督下实现可审计和可重复的分析。
@dhruvtwt_:怎么没人聊这事?@nvidia 正免费提供约 80 款 AI 模型的托管 API
Nvidia 低调开放约 80 款免费托管 AI 模型 API,包括 MiniMax M2.7、GLM 5.1、Kimi 2.5、DeepSeek 3.2、GPT-OSS-120B 等,可直接接入 OpenClaude、Zed IDE 等主流开发工具。
@charliejhills:大多数人使用AI。最聪明的人向构建它的人学习。这里有11个GitHub仓库,感觉像是在开源互联网的集体智慧……
一条推文线程,精选了11个开源的GitHub仓库,涵盖AI工具、智能体(agents)和学习资源,包括PilotDeck、Karpathy的技能(Karpathy's skills)以及微软的AI智能体课程。