@laowangbabababa: 震惊了，抖音上祁博士一天卖 50w 的数字人 agent，我2 分钟就开发完成了。用的就是Pixelle-Video这个项目，已经22k stars。包括数字人口播、动作迁移、图生视频全支持。支持ComfyUI，输入主题，从写脚本到加…

X AI KOLs Timeline 2026/06/13 14:06 工具

ai-video open-source digital-human text-to-video comfyui tts agent

摘要

介绍开源项目Pixelle-Video：一个全自动AI短视频引擎，输入主题即可自动生成带文案、配图、语音和背景音乐的视频，支持本地和云端模型，模块化设计可灵活替换各环节模型。

震惊了，抖音上祁博士一天卖 50w 的数字人 agent，我2 分钟就开发完成了。用的就是Pixelle-Video这个项目，已经22k stars。包括数字人口播、动作迁移、图生视频全支持。支持ComfyUI，输入主题，从写脚本到加 BGM 到出片，一条龙自动跑视频。老王部署到本地，做了个简短的视频，属于插图式的视频，如果你需要更复杂的视频，需要自己配置云端模型比如 seedance2，kling 等等。 Pixelle-Video 最厉害的地方，是它把视频生产完全做成了可配置，支持本地部署模型和云端大模型。文案、画面、配音、剪辑，它拆成四个可替换的模块，每块后面都能换模型，可以自由切换模型，使用非常方便 >文案层：LLM 读主题，吐出带时间戳的结构化脚本，每>句对应一段画面。 >画面层：脚本每句转生图提示词，扔给 ComfyUI 或直连 DashScope 出图，图生视频和数字人口播也走这一层。 >语音层：脚本原文走 TTS 合成，多语言加音色克隆，不用自己录音。 >合成层：画面对齐语音时间轴，叠上 BGM，输出 MP4。仓库：http://github.com/AIDC-AI/Pixelle-Video… P.S. 想到了就能出片，懂一点 AI 编程，这个项目就能自己做成适合各行业的数字人 agent。

查看原文

查看缓存全文

缓存时间: 2026/06/14 07:39

震惊了，抖音上祁博士一天卖 50w 的数字人 agent，我2 分钟就开发完成了。

用的就是Pixelle-Video这个项目，已经22k stars。包括数字人口播、动作迁移、图生视频全支持。支持ComfyUI，输入主题，从写脚本到加 BGM 到出片，一条龙自动跑视频。

老王部署到本地，做了个简短的视频，属于插图式的视频，如果你需要更复杂的视频，需要自己配置云端模型比如 seedance2，kling 等等。

Pixelle-Video 最厉害的地方，是它把视频生产完全做成了可配置，支持本地部署模型和云端大模型。

文案、画面、配音、剪辑，它拆成四个可替换的模块，每块后面都能换模型，可以自由切换模型，使用非常方便

文案层：LLM 读主题，吐出带时间戳的结构化脚本，每>句对应一段画面。画面层：脚本每句转生图提示词，扔给 ComfyUI 或直连 DashScope 出图，图生视频和数字人口播也走这一层。语音层：脚本原文走 TTS 合成，多语言加音色克隆，不用自己录音。合成层：画面对齐语音时间轴，叠上 BGM，输出 MP4。仓库：http://github.com/AIDC-AI/Pixelle-Video…

P.S. 想到了就能出片，懂一点 AI 编程，这个项目就能自己做成适合各行业的数字人 agent。

AIDC-AI/Pixelle-Video

Source: https://github.com/AIDC-AI/Pixelle-Video

🎬 Pixelle-Video —— AI 全自动短视频引擎

English | 中文

https://github.com/user-attachments/assets/a42e7457-fcc8-40da-83fc-784c45a8b95d

只需输入一个主题，Pixelle-Video 就能自动完成：

✍️ 撰写视频文案
🎨 生成 AI 配图/视频
🗣️ 合成语音解说
🎵 添加背景音乐
🎬 一键合成视频

零门槛，零剪辑经验，让视频创作成为一句话的事！

🖥️ Web 界面预览

Web UI界面

📋 最近更新

✅ 2026-06-01: 新增直连 API 媒体模型配置，支持在 WebUI 中配置图像/视频模型供应商、Base URL 与代理开关
✅ 2026-01-26: 新增「动作迁移」模块，上传参考视频和图片进行动作迁移
✅ 2026-01-14: 新增「数字人口播」和「图生视频」流水线，新增多语言 TTS 音色支持
✅ 2026-01-06: 新增 RunningHub 48G 显存机器调用支持
✅ 2025-12-28: 支持 RunningHub 并发限制可配置，优化 LLM 返回结构化数据的逻辑
✅ 2025-12-17: 支持 ComfyUI API Key 配置，支持 Nano Banana 模型调用，API 接口支持模板自定义参数
✅ 2025-12-10: 侧边栏内置 FAQ，锁定 edge-tts 版本修复 TTS 服务不稳定问题
✅ 2025-12-08: 支持固定脚本多种分割方式(段落/行/句子)，优化模板选择交互逻辑支持直接预览选择
✅ 2025-12-06: 修复视频生成 API 返回 URL 路径处理，支持跨平台兼容
✅ 2025-12-05: 新增 Windows 整合包下载，优化图片与视频反推工作流
✅ 2025-12-04: 新增「自定义素材」功能，支持用户上传自己的照片和视频，AI 智能分析生成脚本
✅ 2025-11-18: 优化 RunningHub 服务调用支持并行处理，新增历史记录页面，支持批量创建视频任务

✨ 功能亮点

✅ 全自动生成 - 输入主题，自动生成完整视频
✅ AI 智能文案 - 根据主题智能创作解说词，无需自己写脚本
✅ AI 生成配图 - 每句话都配上精美的 AI 插图
✅ AI 生成视频 - 支持使用 AI 视频生成模型（如 WAN 2.1）创建动态视频内容
✅ 直连模型 API - 可直接调用 DashScope、OpenAI、Seedream、Seedance、Kling 等图像/视频生成服务
✅ AI 生成语音 - 支持 Edge-TTS、Index-TTS 等众多主流 TTS 方案
✅ 背景音乐 - 支持添加 BGM，让视频更有氛围
✅ 视觉风格 - 多种模板可选，打造独特视频风格
✅ 灵活尺寸 - 支持竖屏、横屏等多种视频尺寸
✅ 多种 AI 模型 - 支持 GPT、通义千问、DeepSeek、Ollama 等
✅ 原子能力灵活组合 - 支持 ComfyUI / RunningHub 工作流，也支持直连 API 模型，可按需替换图像、视频、TTS、VLM 等能力

📊 视频生成流程

Pixelle-Video 采用模块化设计，整个视频生成流程清晰简洁：

视频生成流程图

从输入文本到最终视频输出，整个流程简洁清晰：文案生成 → 配图规划 → 逐帧处理 → 视频合成

每个环节都支持灵活定制，可选择不同的 AI 模型、音频引擎、视觉风格等，满足个性化创作需求。

🎬 视频示例

以下是使用 Pixelle-Video 生成的实际案例，展示了不同主题和风格的视频效果：

📱 扩展模块视频展示

👤 数字人口播

韩语数字人口播

🖼️ 图生视频

卡通视频

💃 动作迁移

跳舞小猫

📱 竖屏视频展示

🌄 人文纪实类 - 视频默认模版

旅行路上的风景让人流连忘返

🔍 文化解构类 - 视频默认模版

Santa ID

🔭 科学思辨类 - 视频默认模版

为什么我们还没有找到外星文明？

🌱 个人成长类 - 克隆音色

如何提升自己

🧠 深度思考类 - 默认模板

如何理解反脆弱

🏯 历史文化类 - 固定画面

资治通鉴

☀️ 情感类 - 克隆音色

冬日暖阳

📜 小说解说类 - 自创脚本

斗破苍穹

🧬 知识科普类 - Qwen生图

养生知识

🖥️ 横屏视频展示

💰 副业赚钱 - 电影模板

副业赚钱

🏛️ 历史解说 - 自定义模板

资治通鉴启示录

💡 提示: 这些视频都是通过输入一个主题关键词，由 AI 全自动生成的，无需任何视频剪辑经验！

🚀 快速开始

🪟 Windows 一键整合包（推荐 Windows 用户使用）

无需安装 Python、uv 或 ffmpeg，一键开箱即用！

👉 下载 Windows 一键整合包

下载最新的 Windows 一键整合包并解压
双击运行 start.bat 启动 Web 界面
浏览器会自动打开 http://localhost:8501
在「⚙️ 系统配置」中配置 LLM API 和图像生成服务
开始生成视频！

💡 提示: 整合包已包含所有依赖，无需手动安装任何环境。首次使用只需配置 API 密钥即可。

从源码安装（适合 macOS / Linux 用户或需要自定义的用户）

前置环境依赖

在开始之前，需要先安装 Python 包管理器 uv 和视频处理工具 ffmpeg：

安装 uv

请访问 uv 官方文档查看适合你系统的安装方法：
👉 uv 安装指南

安装完成后，在终端中运行 uv --version 验证安装成功。

安装 ffmpeg

macOS

brew install ffmpeg

Ubuntu / Debian

sudo apt update
sudo apt install ffmpeg

Windows

下载地址：https://ffmpeg.org/download.html
下载后解压，将 bin 目录添加到系统环境变量 PATH 中

安装完成后，在终端中运行 ffmpeg -version 验证安装成功。

第一步：下载项目

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video

第二步：启动 Web 界面

# 使用 uv 运行（推荐，会自动安装依赖）
uv run streamlit run web/app.py

浏览器会自动打开 http://localhost:8501

第三步：在 Web 界面配置

首次使用时，展开「⚙️ 系统配置」面板，填写：

LLM 配置: 选择 AI 模型（如通义千问、GPT 等）并填入 API Key
ComfyUI / RunningHub 配置: 如需使用工作流生成图片、视频或语音，配置本地 ComfyUI 地址或 RunningHub API Key
API 媒体模型配置: 如需直连图像/视频模型，配置 DashScope、OpenAI、ARK、Kling 等供应商的 API Key、Base URL 和代理选项

配置好后点击「保存配置」，就可以开始生成视频了！

💻 使用方法

打开 Web 界面后，你会看到三栏布局，下面详细讲解每个部分：

⚙️ 系统配置（首次必填）

首次使用时需要配置，点击展开「⚙️ 系统配置」面板：

1. LLM 配置（大语言模型）

用于生成视频文案的 AI。

快速选择预设

通过下拉菜单选择预设模型（通义千问、GPT-4o、DeepSeek 等）
选择后会自动填充 base_url 和 model
点击「🔑 获取 API Key」链接去注册并获取密钥

手动配置

API Key: 填入你的密钥
Base URL: API 地址
Model: 模型名称

2. ComfyUI / RunningHub 配置

用于通过 ComfyUI 工作流生成视频配图、视频片段或语音。

本地部署（推荐）

ComfyUI URL: 本地 ComfyUI 服务地址（默认 http://127.0.0.1:8188）
点击「测试连接」确认服务可用

云端部署

RunningHub API Key: 云端图像生成服务的密钥

3. API 媒体模型配置

用于不依赖 ComfyUI/RunningHub，直接调用模型供应商的图像、视频或素材分析能力。

支持的供应商

OpenAI / GPT Image：用于 GPT 图像生成模型
DashScope / Wan / HappyHorse：用于通义万象图像、视频生成
Volcengine ARK / Seedream / Seedance：用于字节 Seedream 图像和 Seedance 视频生成
Kling AI / 可灵：用于可灵视频生成

可配置项

API Key / Access Key / Secret Key：模型供应商鉴权信息
Base URL：模型服务地址，WebUI 会提供官方默认地址
本地代理：如 http://127.0.0.1:9090
启用代理：每个供应商可单独选择是否走本地代理
打印模型请求参数：调试用，会在终端打印发送给模型的 prompt、模型名和输入文件路径

💡 如果你只使用 ComfyUI 或 RunningHub，可以不填写 API 媒体模型配置；如果你选择 api/... 工作流，则需要配置对应供应商的密钥。

配置完成后点击「保存配置」。

📝 内容输入（左侧栏）

生成模式

AI 生成内容: 输入主题，AI 自动创作文案
- 适合：想快速生成视频，让 AI 写稿
- 例如：「为什么要养成阅读习惯」
固定文案内容: 直接输入完整文案，跳过 AI 创作
- 适合：已有现成文案，直接生成视频

背景音乐（BGM）

无 BGM: 纯人声解说
内置音乐: 选择预置的背景音乐（如 default.mp3）
自定义音乐: 将你的音乐文件（MP3/WAV 等）放到 bgm/ 文件夹
点击「试听 BGM」可以预览音乐

🎤 语音设置（中间栏）

TTS 工作流

从下拉菜单选择 TTS 工作流（支持 Edge-TTS、Index-TTS 等）
系统会自动扫描 workflows/ 文件夹中的 TTS 工作流
如果懂 ComfyUI，可以自定义 TTS 工作流

参考音频（可选）

上传参考音频文件用于声音克隆（支持 MP3/WAV/FLAC 等格式）
适用于支持声音克隆的 TTS 工作流（如 Index-TTS）
上传后可以直接试听

预览功能

输入测试文本，点击「预览语音」即可试听效果
支持使用参考音频进行预览

🎨 视觉设置（中间栏）

图像生成

决定 AI 生成什么风格的配图。

ComfyUI 工作流

从下拉菜单选择图像生成工作流
支持本地部署（selfhost）和云端（RunningHub）工作流
也支持选择 api/... 直连图像模型工作流（需先在系统配置中填写对应供应商密钥）
默认使用 image_flux.json
如果懂 ComfyUI，可以放自己的工作流到 workflows/ 文件夹

图像尺寸

设置生成图像的宽度和高度（单位：像素）
默认 1024x1024，可根据需要调整
注意：不同的模型对尺寸有不同的限制

提示词前缀（Prompt Prefix）

控制图像的整体风格（语言需要是英文的）
例如：Minimalist black-and-white matchstick figure style illustration, clean lines, simple sketch style
点击「预览风格」可以测试效果

视频模板

决定视频画面的布局和设计。

模板命名规范

static_*.html: 静态模板（无需AI生成媒体，纯文字样式）
image_*.html: 图片模板（使用AI生成的图片作为背景）
video_*.html: 视频模板（使用AI生成的视频作为背景）

使用方法

从下拉菜单选择模板，按尺寸分组显示（竖屏/横屏/方形）
点击「预览模板」可以自定义参数测试效果
如果懂 HTML，可以在 templates/ 文件夹创建自己的模板
🔗 查看所有模板效果图

API 视频生成

当选择支持动态视频的模板或扩展工作流时，可以使用直连 API 视频模型生成片段。

支持 DashScope Wan / HappyHorse、Kling、Seedance 等视频模型
支持按模型能力显示分辨率、画幅比例、时长、水印、原生音频等参数
支持网络下载重试与内容审核失败后的提示词中性化重试
在「自定义素材」工作流中，API 视频片段会尽量根据旁白音频时长生成，并使用相邻片段信息提升连贯性

🎬 生成视频（右侧栏）

生成按钮

配置好所有参数后，点击「🎬 生成视频」
会显示实时进度（生成文案 → 生成配图 → 合成语音 → 合成视频）
生成完成后自动显示视频预览

进度显示

实时显示当前步骤
例如：「分镜 3/5 - 生成插图」

视频预览

生成完成后自动播放
显示视频时长、文件大小、分镜数等信息
视频文件保存在 output/ 文件夹

❓ 常见问题

Q: 第一次使用需要多久？
A: 生成时长取决于视频分镜数量、网络状况和 AI 推理速度，通常几分钟内即可完成。

Q: 视频效果不满意怎么办？
A: 可以尝试：

更换 LLM 模型（不同模型文案风格不同）
调整图像尺寸和提示词前缀（改变配图风格）
更换 TTS 工作流或上传参考音频（改变语音效果）
尝试不同的视频模板和尺寸

Q: 费用大概多少？
A: 本项目完全支持免费运行！

完全免费方案: LLM 使用 Ollama（本地运行）+ ComfyUI 本地部署 = 0 元
推荐方案: LLM 使用通义千问（成本极低，性价比高）+ ComfyUI 本地部署
云端方案: LLM 使用 OpenAI + 图像使用 RunningHub（费用较高但无需本地环境）

选择建议：本地有显卡建议完全免费方案，否则推荐使用通义千问（性价比高）

🤝 参考项目

Pixelle-Video 的设计受到以下优秀开源项目的启发：

Pixelle-MCP - ComfyUI MCP 服务器，让 AI 助手直接调用 ComfyUI
MoneyPrinterTurbo - 优秀的视频生成工具
NarratoAI - 影视解说自动化工具
MoneyPrinterPlus - 视频创作平台
ComfyKit - ComfyUI 工作流封装库

感谢这些项目的开源精神！🙏

💬 社区交流

扫描下方二维码加入我们的社区，获取最新动态和技术支持：

微信群	Discord 社区

📢 反馈与支持

🐛 遇到问题: 提交 Issue
💡 功能建议: 提交 Feature Request
⭐ 给个 Star: 如果这个项目对你有帮助，欢迎给个 Star 支持一下！

📝 许可证

本项目采用 Apache 2.0 许可证，详情请查看 LICENSE 文件。

📚 系列工作

框架图	论文信息
	[SIGGRAPH Asia 2024] FilmAgent: Automating Virtual Film Production Through a Multi-Agent Collaborative Framework Zhenran Xu, Longyue Wang, Jifang Wang, Zhouyi Li, Senbao Shi, Xue Yang, Yiyu Wang, Baotian Hu, Jun Yu, Min Zhang [Paper] [GitHub]
	[SIGGRAPH Asia 2024] Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation Yunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang [Paper] [GitHub]
	[ACL 2025] ComfyUI-Copilot: An Intelligent Assistant for Automated Workflow Development Zhenran Xu, Xue Yang, Yiyu Wang, Qingli Hu, Zijiao Wu, Longyue Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang [Paper] [GitHub]
	[SIGGRAPH Asia 2025] AniMaker: Multi-Agent Animated Storytelling with MCTS-Driven Clip Generation Haoyuan Shi, Yunxin Li, Xinyu Chen, Longyue Wang, Baotian Hu, Min Zhang [Paper] [GitHub]

⭐ Star History

相似文章

@Russell3402: 阿里国际的开源 AI 全自动短视频引擎 Pixelle-Video 你只需要输入主题，就能自动生成完整短视频从文案到配音，从配图到剪辑，全部 AI 搞定 gitHub：

X AI KOLs Timeline

阿里国际开源了 AI 全自动短视频引擎 Pixelle-Video，用户只需输入主题即可自动生成包含文案、配音、配图及剪辑的完整短视频。

@yhslgg: 老杨再特么分享一个宝藏开源工具——KrillinAI，GitHub 10000 星，做多语言音视频内容的绝对值得看！一句话：从视频下载到字幕翻译、AI配音、视频合成，整条链路全包，还能自动生成平台封面，B站、抖音、小红书、YouTube…

X AI KOLs Timeline

KrillinAI 是一款开源工具，整合了视频下载、字幕翻译、AI配音、视频合成全流程，支持上下文感知翻译、语音克隆、自动布局和封面生成，兼容多种AI模型，适合多语言音视频内容创作与分发。

AIDC-AI/Pixelle-Video

GitHub Trending (daily)

Pixelle-Video 是一个开源、全自动的短视频引擎，只需输入一个主题，即可通过 ComfyUI 模块化工作流自动生成完整视频，包括 AI 脚本、画面、配音、BGM 与剪辑。

@hank_aibtc: https://x.com/victormustar/status/2058492201261244458/video/1… 我操！美团直接把商业闭源Avatar干翻了，开源免费版LongCat-Video-Avatar-1.5来了！ …

X AI KOLs Timeline

美团开源了LongCat-Video-Avatar-1.5模型，支持单张照片和语音生成逼真的说话视频，支持多语言、长视频，性能超越商业闭源方案。

@QT9277: 《不是，这AI声音合成已经变态到这种程度了？？？》阿台我今天刷GitHub直接懵了。 VoxCPM2，趋势榜第一，星标干到2万+，海外彻底炸了。我本来以为是又一个PPT开源项目，结果仔细看了眼Demo——我耳朵真的分不清哪个是真人了。 …

X AI KOLs Timeline

介绍VoxCPM2，一个完全免费商用、开源的多语言语音合成模型，支持声音设计、克隆及48kHz高质量输出，在GitHub趋势榜第一。

AIDC-AI/Pixelle-Video

🎬 Pixelle-Video —— AI 全自动短视频引擎

🖥️ Web 界面预览

📋 最近更新

✨ 功能亮点

📊 视频生成流程

🎬 视频示例

📱 扩展模块视频展示

👤 数字人口播

🖼️ 图生视频

💃 动作迁移

📱 竖屏视频展示

🌄 人文纪实类 - 视频默认模版

🔍 文化解构类 - 视频默认模版

🔭 科学思辨类 - 视频默认模版

🌱 个人成长类 - 克隆音色

🧠 深度思考类 - 默认模板

🏯 历史文化类 - 固定画面

☀️ 情感类 - 克隆音色

📜 小说解说类 - 自创脚本

🧬 知识科普类 - Qwen生图

🖥️ 横屏视频展示

💰 副业赚钱 - 电影模板

🏛️ 历史解说 - 自定义模板

🚀 快速开始

🪟 Windows 一键整合包（推荐 Windows 用户使用）

从源码安装（适合 macOS / Linux 用户或需要自定义的用户）

前置环境依赖

安装 uv

安装 ffmpeg

第一步：下载项目

第二步：启动 Web 界面

第三步：在 Web 界面配置

💻 使用方法

⚙️ 系统配置（首次必填）

1. LLM 配置（大语言模型）

2. ComfyUI / RunningHub 配置

3. API 媒体模型配置

📝 内容输入（左侧栏）

生成模式

背景音乐（BGM）

🎤 语音设置（中间栏）

TTS 工作流

参考音频（可选）

预览功能

🎨 视觉设置（中间栏）

图像生成

视频模板

API 视频生成

🎬 生成视频（右侧栏）

生成按钮

进度显示

视频预览

❓ 常见问题

🤝 参考项目

💬 社区交流

📢 反馈与支持

📝 许可证

📚 系列工作

⭐ Star History

相似文章

@Russell3402: 阿里国际的开源 AI 全自动短视频引擎 Pixelle-Video 你只需要输入主题，就能自动生成完整短视频 从文案到配音，从配图到剪辑，全部 AI 搞定 gitHub：

AIDC-AI/Pixelle-Video

@hank_aibtc: https://x.com/victormustar/status/2058492201261244458/video/1… 我操！美团直接把商业闭源Avatar干翻了， 开源免费版LongCat-Video-Avatar-1.5来了！ …

提交意见反馈

@Russell3402: 阿里国际的开源 AI 全自动短视频引擎 Pixelle-Video 你只需要输入主题，就能自动生成完整短视频从文案到配音，从配图到剪辑，全部 AI 搞定 gitHub：

@hank_aibtc: https://x.com/victormustar/status/2058492201261244458/video/1… 我操！美团直接把商业闭源Avatar干翻了，开源免费版LongCat-Video-Avatar-1.5来了！ …