@QingQ77: 上传论文 PDF 或 LaTeX 源码,由多智能体协作自动生成可编辑的 PowerPoint 演示文稿。 https://github.com/CRui5in/paper-ppt-agent… Paper PPT Agent 用三个 ag…
摘要
Paper PPT Agent 是一个开源的多智能体协作工具,能够将学术论文 PDF 或 LaTeX 源码自动转换为可编辑的 PowerPoint 演示文稿,包含内容提炼、版式设计及视觉质量审查功能。
查看缓存全文
缓存时间: 2026/05/11 08:39
上传论文 PDF 或 LaTeX 源码,由多智能体协作自动生成可编辑的 PowerPoint 演示文稿。 https://github.com/CRui5in/paper-ppt-agent… Paper PPT Agent 用三个 agent(策略、执行、审查)协作,把论文 PDF 或 TeX 源码转成可编辑的 PowerPoint。上传后 AI 自动提炼内容、规划结构、设计版式,还能审查视觉质量,静态 Critic 检测溢出和重叠问题并触发修复,视觉 QA 用多模态模型看渲染效果。
CRui5in/paper-ppt-agent
Source: https://github.com/CRui5in/paper-ppt-agent
Paper PPT Agent
中文 | English
基于多智能体协作的学术论文演示文稿自动生成工具。上传论文 PDF 或 TeX 源码,由 AI 完成内容提炼、结构规划、版式设计与视觉质量审查,最终输出可编辑的 PowerPoint 文件。

核心能力
内容生成
支持论文 PDF 与 TeX 源码输入,推荐上传完整的 TeX 压缩包以获得最佳解析效果。多智能体流水线(Strategist → Executor → Critic)协作完成内容提炼与版式生成,支持中英双语及自定义语言输出,可配置目标页数、详略程度和画布比例。
视觉质量保障
静态分析 Critic 自动检测文字溢出、元素重叠、装饰线遮挡等布局问题并触发修复;视觉 QA(实验性)调用多模态大模型对渲染图像进行审查。修复过程自动归档前后快照,支持逐轮对比与全屏实时预览。
图标与装饰
内置图标库,支持自动插入语义匹配的图标。可通过 RAG 语义搜索(基于 Gemini Embedding)从图标库中检索最合适的候选,也可独立开关图标装饰与 RAG 搜索。
反馈迭代
生成完成后可指定单页或多页进行反馈优化,支持结构调整(增删页、插页、重排)。每次迭代自动保存版本快照,支持版本对比与回溯。
日志与可观测性
实时 Agent 日志流展示各阶段事件与进度;Token 用量按模型、阶段、时间维度聚合,支持筛选与详情查看;Critic 事件面板逐页展示违规项、修复提示词与归档路径;结果页支持回溯完整运行配置。
环境要求
- Python 3.11+
- uv
- Node.js 18+ 与 npm
- 至少一种模型提供商的 API Key:
- OpenAI
- DeepSeek
- Anthropic
- Gemini
- 自定义 BaseURL 兼容接口(模型质量对生成效果有显著影响,推荐
GPT-5.5和Gemini 3.1 Pro)
- (可选)Gemini API Key:用于图标 RAG 语义搜索
快速开始
Windows:
.\start-dev.bat
Linux:
sh start-dev.sh
启动脚本会自动安装依赖并启动前后端服务。
手动启动(前后端分别启动):
# 后端
uv run python -m uvicorn backend.app:app --host 127.0.0.1 --port 8000 --reload --reload-dir backend --reload-include=*.py
# 前端
cd frontend && npm run dev -- --host 127.0.0.1 --port 5173 --strictPort
手动启动前需先安装依赖:
uv sync --locked
cd frontend && npm install && cd ..
启动后访问:
重要更新记录
- Critic 日志落盘与详情面板:将每次 Critic 检测的违规项、修复提示词、归档路径持久化为
critic_history.json,前端支持逐页查看详情 - 修复前后 SVG 对比:自动归档修复前的 SVG 快照,支持逐轮对比与全屏实时预览
- 图标 RAG 语义搜索:基于 Gemini Embedding 从图标库中语义检索匹配候选,可独立开关
- 图标装饰主开关:支持在不使用图标的情况下生成纯形状幻灯片
- 视觉 QA(实验性):调用多模态大模型将幻灯片渲染为图像进行布局与对比度审查
- 静态 Critic 增强:新增装饰线遮挡检测、低对比度文本检测,修复多行文字宽度估算误报
- 版本历史管理:每次反馈迭代自动归档快照,支持版本对比与回溯
- Token 日志筛选:按模型、阶段、页码、任务筛选 LLM 调用记录,支持点击展开详情
- 生成取消:支持在流水线运行中取消当前任务
- DeepSeek 专用接口:独立的 DeepSeek 提供商支持与思考模式配置
- 多智能体流水线:Strategist → Executor → Critic 三阶段协作,支持 SVG 自动修复与反馈迭代
参考与致谢
本项目在产品思路、流程拆分和部分工程实现方式上参考了以下开源项目:
许可证
本项目基于 MIT 许可证 开源。
联系方式
如有问题或建议,欢迎通过以下方式联系:
- GitHub Issues: CRui5in/paper-ppt-agent
- Email: [email protected]
声明
本项目为学术研究辅助工具,生成的演示文稿内容由 AI 模型产出,仅供参考。使用者应对生成内容的准确性和合规性自行负责。使用本工具即表示您同意自行承担因使用生成内容而产生的一切风险。
相似文章
@QingQ77: 让 AI Agent 能够通过非破坏性文本编辑方式生成排版精美、信息密度高的中文 PPT https://github.com/GordenSun/GordenPPTSkill… 给 AI Agent 用的 PPT 构建技能,带了 17 …
一个让AI Agent通过非破坏性文本编辑生成精美中文PPT的开源项目,提供17个手工打磨的中文PPTX模板和完整的工具链。
@aehyok: 最近刚好也在研究PPT。看了一姐的视频,使用Codex +Image2来做PPT,于是顺手找了几个star数比较多的PPT Skill,准备挨个都来试试看,到底那个效果更适合自己呢? 1、https://github.com/op7418…
介绍了一款名为guizang-ppt-skill的AI Agent技能,用于生成单文件HTML横向翻页PPT、配图和封面,支持Claude Code和Codex等环境。
@BTCqzy1: 别再用 AI 生成那些只能看不能改的 PPT 图片了! 以前试过各种 AI 做 PPT,全是图片拼接,改个字就要崩溃重做。 直到刷到这个 GitHub 的硬核神器 ppt-master(23k) 主要有以下亮点: · 输出的是原生 .pp…
介绍了一个名为 ppt-master 的开源工具,可以从 PDF、Word、网页链接等生成原生可编辑的 .pptx 文件,支持动画、语音旁白,本地运行保护数据安全。
@Xudong07452910: Paper2Any:将论文、文本或主题一键转化为可编辑的科研图表、技术路线图和演示文稿 这是一个专注于学术可视化与演示制作的开源项目,主要功能包括: 1.Paper2Figure:生成可编辑的模型架构图、技术路线图、实验流程图(支持PPT…
Paper2Any 是一个开源项目,可将论文、文本或主题一键转化为可编辑的科研图表、技术路线图和演示文稿,支持多种输出格式,适合科研工作者快速制作论文配图和汇报材料。
@vintcessun: 今晚发现一个思路清奇的项目:用GPT生成豪华图片格式PPT,再把它“反编译”回可编辑的PPTX。以前AI出PPT要么是模板堆砌要么只能导出图片,这个直接走“生图→解析→拼装”的路径。核心是把PPT图片分解成背景、框架、图标、文本四层,按坐…
一个名为 GordenSuperPPTSkills 的开源项目,利用 GPT 生成豪华图片格式的 PPT,再将其“反编译”为完全可编辑的 PPTX 文件,解决了 AI 生成内容不可编辑的痛点。项目拆分为三个独立技能,支持仅图片生成或仅图片转可编辑,适用于 Codex 环境。