@QingQ77: 上传论文 PDF 或 LaTeX 源码,由多智能体协作自动生成可编辑的 PowerPoint 演示文稿。 https://github.com/CRui5in/paper-ppt-agent… Paper PPT Agent 用三个 ag…

X AI KOLs Timeline 工具

摘要

Paper PPT Agent 是一个开源的多智能体协作工具,能够将学术论文 PDF 或 LaTeX 源码自动转换为可编辑的 PowerPoint 演示文稿,包含内容提炼、版式设计及视觉质量审查功能。

上传论文 PDF 或 LaTeX 源码,由多智能体协作自动生成可编辑的 PowerPoint 演示文稿。 https://github.com/CRui5in/paper-ppt-agent… Paper PPT Agent 用三个 agent(策略、执行、审查)协作,把论文 PDF 或 TeX 源码转成可编辑的 PowerPoint。上传后 AI 自动提炼内容、规划结构、设计版式,还能审查视觉质量,静态 Critic 检测溢出和重叠问题并触发修复,视觉 QA 用多模态模型看渲染效果。
查看原文
查看缓存全文

缓存时间: 2026/05/11 08:39

上传论文 PDF 或 LaTeX 源码,由多智能体协作自动生成可编辑的 PowerPoint 演示文稿。 https://github.com/CRui5in/paper-ppt-agent… Paper PPT Agent 用三个 agent(策略、执行、审查)协作,把论文 PDF 或 TeX 源码转成可编辑的 PowerPoint。上传后 AI 自动提炼内容、规划结构、设计版式,还能审查视觉质量,静态 Critic 检测溢出和重叠问题并触发修复,视觉 QA 用多模态模型看渲染效果。


CRui5in/paper-ppt-agent

Source: https://github.com/CRui5in/paper-ppt-agent

Paper PPT Agent

MIT License

中文 | English

基于多智能体协作的学术论文演示文稿自动生成工具。上传论文 PDF 或 TeX 源码,由 AI 完成内容提炼、结构规划、版式设计与视觉质量审查,最终输出可编辑的 PowerPoint 文件。

截图

核心能力

内容生成

支持论文 PDF 与 TeX 源码输入,推荐上传完整的 TeX 压缩包以获得最佳解析效果。多智能体流水线(Strategist → Executor → Critic)协作完成内容提炼与版式生成,支持中英双语及自定义语言输出,可配置目标页数、详略程度和画布比例。

视觉质量保障

静态分析 Critic 自动检测文字溢出、元素重叠、装饰线遮挡等布局问题并触发修复;视觉 QA(实验性)调用多模态大模型对渲染图像进行审查。修复过程自动归档前后快照,支持逐轮对比与全屏实时预览。

图标与装饰

内置图标库,支持自动插入语义匹配的图标。可通过 RAG 语义搜索(基于 Gemini Embedding)从图标库中检索最合适的候选,也可独立开关图标装饰与 RAG 搜索。

反馈迭代

生成完成后可指定单页或多页进行反馈优化,支持结构调整(增删页、插页、重排)。每次迭代自动保存版本快照,支持版本对比与回溯。

日志与可观测性

实时 Agent 日志流展示各阶段事件与进度;Token 用量按模型、阶段、时间维度聚合,支持筛选与详情查看;Critic 事件面板逐页展示违规项、修复提示词与归档路径;结果页支持回溯完整运行配置。

环境要求

  • Python 3.11+
  • uv
  • Node.js 18+ 与 npm
  • 至少一种模型提供商的 API Key:
    • OpenAI
    • DeepSeek
    • Anthropic
    • Gemini
    • 自定义 BaseURL 兼容接口(模型质量对生成效果有显著影响,推荐 GPT-5.5Gemini 3.1 Pro
  • (可选)Gemini API Key:用于图标 RAG 语义搜索

快速开始

Windows:

.\start-dev.bat

Linux:

sh start-dev.sh

启动脚本会自动安装依赖并启动前后端服务。

手动启动(前后端分别启动):

# 后端
uv run python -m uvicorn backend.app:app --host 127.0.0.1 --port 8000 --reload --reload-dir backend --reload-include=*.py

# 前端
cd frontend && npm run dev -- --host 127.0.0.1 --port 5173 --strictPort

手动启动前需先安装依赖:

uv sync --locked
cd frontend && npm install && cd ..

启动后访问:

重要更新记录

  • Critic 日志落盘与详情面板:将每次 Critic 检测的违规项、修复提示词、归档路径持久化为 critic_history.json,前端支持逐页查看详情
  • 修复前后 SVG 对比:自动归档修复前的 SVG 快照,支持逐轮对比与全屏实时预览
  • 图标 RAG 语义搜索:基于 Gemini Embedding 从图标库中语义检索匹配候选,可独立开关
  • 图标装饰主开关:支持在不使用图标的情况下生成纯形状幻灯片
  • 视觉 QA(实验性):调用多模态大模型将幻灯片渲染为图像进行布局与对比度审查
  • 静态 Critic 增强:新增装饰线遮挡检测、低对比度文本检测,修复多行文字宽度估算误报
  • 版本历史管理:每次反馈迭代自动归档快照,支持版本对比与回溯
  • Token 日志筛选:按模型、阶段、页码、任务筛选 LLM 调用记录,支持点击展开详情
  • 生成取消:支持在流水线运行中取消当前任务
  • DeepSeek 专用接口:独立的 DeepSeek 提供商支持与思考模式配置
  • 多智能体流水线:Strategist → Executor → Critic 三阶段协作,支持 SVG 自动修复与反馈迭代

参考与致谢

本项目在产品思路、流程拆分和部分工程实现方式上参考了以下开源项目:

许可证

本项目基于 MIT 许可证 开源。

联系方式

如有问题或建议,欢迎通过以下方式联系:

声明

本项目为学术研究辅助工具,生成的演示文稿内容由 AI 模型产出,仅供参考。使用者应对生成内容的准确性和合规性自行负责。使用本工具即表示您同意自行承担因使用生成内容而产生的一切风险。

相似文章

@Xudong07452910: Paper2Any:将论文、文本或主题一键转化为可编辑的科研图表、技术路线图和演示文稿 这是一个专注于学术可视化与演示制作的开源项目,主要功能包括: 1.Paper2Figure:生成可编辑的模型架构图、技术路线图、实验流程图(支持PPT…

X AI KOLs Timeline

Paper2Any 是一个开源项目,可将论文、文本或主题一键转化为可编辑的科研图表、技术路线图和演示文稿,支持多种输出格式,适合科研工作者快速制作论文配图和汇报材料。

@vintcessun: 今晚发现一个思路清奇的项目:用GPT生成豪华图片格式PPT,再把它“反编译”回可编辑的PPTX。以前AI出PPT要么是模板堆砌要么只能导出图片,这个直接走“生图→解析→拼装”的路径。核心是把PPT图片分解成背景、框架、图标、文本四层,按坐…

X AI KOLs Timeline

一个名为 GordenSuperPPTSkills 的开源项目,利用 GPT 生成豪华图片格式的 PPT,再将其“反编译”为完全可编辑的 PPTX 文件,解决了 AI 生成内容不可编辑的痛点。项目拆分为三个独立技能,支持仅图片生成或仅图片转可编辑,适用于 Codex 环境。