@Xudong07452910: 改论文排版改到崩溃?试试开源项目 PaperFit!科研人排版救星,可以直接在Claude Code、Codex和Cursor中使用。 内容写完、LaTeX编译通过,但版面丑到不敢投,PaperFit 用视觉闭环直接解决: - 自动编译 …
摘要
PaperFit 是一个视觉闭环的 LaTeX 排版 Agent 系统,能自动编译、诊断 PDF 版面问题并修复源码,支持在 Claude Code、Codex 和 Cursor 中使用。
查看缓存全文
缓存时间: 2026/05/20 04:25
改论文排版改到崩溃?试试开源项目 PaperFit!科研人排版救星,可以直接在Claude Code、Codex和Cursor中使用。
内容写完、LaTeX编译通过,但版面丑到不敢投,PaperFit 用视觉闭环直接解决:
- 自动编译 + 把PDF渲染成页面图像
- 智能诊断双栏空洞、表格溢出、图表乱飘、末页留白等问题
- 自动生成修复策略并修改源码
- 重新编译 + 视觉验收
关键是它不是只看.log文件,而是真正“看”PDF版面来改,比手动调浮动体和表格省几十次反复编译!
这很符合科研人的痛点,论文内容写完后,最烦的往往不是再写一段话,而是为了压到 8 页、调一个表格、救一个双栏图。
写论文已经够累了,排版这种耗精力的事,能交给 Agent 就交给 Agent吧。 https://github.com/OpenRaiser/PaperFit…
#AI科研 #论文 #ClaudeCode #Codex
OpenRaiser/PaperFit
Source: https://github.com/OpenRaiser/PaperFit
PaperFit
Vision-in-the-Loop Academic Typesetting Agent System
PaperFit 是面向 Claude Code、Codex、Cursor 的 LaTeX 论文排版 Agent System。你只需要在论文项目根目录描述目标,PaperFit 会自动完成编译、页图渲染、视觉诊断、源码修复与最终验收。
为什么需要 PaperFit
论文的 LaTeX 编译通过,并不代表版面已经合格。真实投稿前常见的问题往往发生在视觉层面:浮动体堆在一起、双栏页面出现大面积空洞、表格风格不一致、公式或表格溢出、模板迁移后对象位置失控。这些问题很难只靠 .log 文件发现,也很难靠一次性文本改写稳定解决。
PaperFit 把论文排版视为一个视觉闭环任务:先把 PDF 渲染成页面图像,再结合 LaTeX 日志、交叉引用和模板规则判断问题,最后回写源码并重新渲染验收。它的目标不是替代作者写论文,而是把“看版面、修源码、再检查”的重复劳动交给 Agent。
| 传统方式 | PaperFit |
|---|---|
| 主要关注编译错误 | 同时关注编译、视觉版面和内容完整性 |
| 人工翻 PDF 找问题 | 页图渲染后按缺陷类型系统诊断 |
| 手动调整浮动体和表格 | 由 Agent 生成修复策略并受控改源码 |
| 模板迁移后逐页救火 | 将模板规则、栏型、浮动体和表格一起处理 |
| 修完后靠肉眼确认 | 用视觉门禁决定继续修复还是交付 |
核心能力
| 能力 | 说明 |
|---|---|
| 视觉排版诊断 | 识别孤行、末页留白、双栏空洞、浮动体堆积、表格不一致、溢出与对齐问题。 |
| 完整 VTO 修复 | 串联编译、日志解析、页图渲染、视觉诊断、源码修复与复验。 |
| 模板迁移 | 支持 CVPR、ICLR、ACL、ACM 等常见学术模板之间的迁移与版式重整。 |
| 页数控制 | 在目标页数预算下优先做版式级调整,必要时进行最小、可审计的语义微调。 |
| 局部对象修复 | 针对单个表格、图、公式或页面问题执行更小范围的修复。 |
| 跨宿主分发 | 同一套能力可安装到 Claude Code、Codex、Cursor。 |
真实效果展示
下面的案例来自 PaperFit 的真实排版修复效果展示。
适合场景
- 投稿前检查论文是否存在明显视觉排版缺陷。
- 将已有论文迁移到新的会议模板,并尽量保持内容和对象稳定。
- 把正文压缩到目标页数,同时尽量不改变学术含义。
- 修复宽表、浮动体堆叠、双栏空洞、overfull、caption 不一致等问题。
- 在 Agent 宿主中用自然语言发起排版任务,而不是手动串脚本。
快速开始
安装完成后,在论文项目根目录直接对宿主说目标即可:
用 PaperFit 分析这篇论文的排版问题
Use the paperfit agent to inspect this paper's layout and tell me the main visual defects
用 PaperFit 把这篇论文迁移到 CVPR 模板,并尽量保持图表和引用稳定
用 PaperFit 把正文压到 8 页,尽量不要改学术内容
PaperFit 会自动推断主 .tex 文件、当前模板、页面预算和需要进入的修复路径。只有在项目结构不清楚、环境缺失或目标本身有歧义时,它才需要你补充信息。
安装
环境要求
- Node.js
18+ - Python
3.8+ - Poppler:用于 PDF 信息读取和页图渲染
- LaTeX 编译环境:如
tectonic、pdflatex或模板要求的工具链
macOS 上可安装 Poppler:
brew install poppler
npm 安装
npm install -g paperfit-cli
paperfit-install --target claude
也可以安装到其他宿主:
paperfit-install --target codex
paperfit-install --target cursor --project /path/to/paper
paperfit-install --target all
安装后建议运行一次体检,并安装 Python 依赖:
paperfit doctor --target claude
pip3 install -r "$(npm root -g)/paperfit-cli/requirements.txt"
从源码安装
git clone https://github.com/OpenRaiser/PaperFit.git
cd PaperFit
npm install
bash install.sh --local --target claude
Claude Code 插件市场安装:
/plugin marketplace add OpenRaiser/PaperFit
/plugin install paperfit@paperfit-vto
Codex provider 相关说明见 docs/CODEX_PROVIDER_SETUP.md。
使用方法
PaperFit 的推荐入口是自然语言,而不是记忆内部命令。
| 宿主 | 推荐入口 |
|---|---|
Claude Code | /paperfit 后描述排版目标;也可使用 /fix-layout、/check-visual、/repair-table 等快捷命令。 |
Codex | 明确请求 Use the paperfit agent to ...,之后可通过 /agent 切回已创建的 PaperFit agent 线程。 |
Cursor | 在论文项目中描述任务,项目级 rule 会引导 Cursor 调用 PaperFit 能力。 |
常见任务:
| 任务 | 示例 |
|---|---|
| 排版分析 | 用 PaperFit 分析 main.tex 的视觉排版问题 |
| 完整修复 | Use the paperfit agent to run a full layout repair loop |
| 视觉检查 | Use PaperFit for visual inspection only |
| 表格修复 | 用 PaperFit 修复这个跨栏表格,不要用 resizebox 硬压缩 |
| 模板迁移 | 用 PaperFit 把这篇论文迁移到 CVPR 模板 |
| 长度调整 | 用 PaperFit 把正文压到 8 页,语义修改要最小 |
| 状态查看 | Use the paperfit agent to summarize the current layout status |
工作流
PaperFit 的闭环可以概括为:
LaTeX project
-> compile and parse logs
-> render PDF pages
-> diagnose visual defects
-> plan source-level repairs
-> patch LaTeX safely
-> recompile and rerender
-> gatekeeper acceptance
视觉检查是交付前的必要步骤。PaperFit 不会只因为编译通过就宣称排版完成,也不会为了压缩页数静默删除 figure、table、caption、label 或交叉引用。
VTO 缺陷分类
PaperFit 使用 Visual Typesetting Optimization (VTO) taxonomy 来统一诊断和修复语言:
| 类别 | 关注问题 |
|---|---|
| A 空间利用 | 孤行、寡行、末页留白、双栏高度失衡、页面大空洞。 |
| B 浮动体 | 图表位置、尺寸、堆叠、跨栏与正文关系。 |
| C 一致性 | 表格、图表、caption、间距、风格不统一。 |
| D 溢出与对齐 | overfull、公式断行、表格超宽、对象边界错位。 |
| E 模板迁移 | 单双栏变化、宏包兼容、会议模板规则差异。 |
完整定义见 config/vto_taxonomy.yaml。
架构
PaperFit 由 Agent 角色、技能包、配置和执行层组成。Agent 负责判断任务和组织闭环;CLI 与脚本负责渲染、状态记录、日志解析和可重复执行的修复动作。
| 组件 | 职责 |
|---|---|
agents/ | 调度、视觉诊断、规则检查、源码修复、语义微调、质量门禁的角色说明。 |
skills/ | VTO taxonomy、视觉检查、浮动体优化、溢出修复、模板迁移、写作微调等能力说明。 |
config/ | 模板元数据、版式规则、Agent 角色、写作边界和缺陷分类配置。 |
scripts/ | PDF 渲染、日志解析、视觉信号聚合、状态管理、修复执行和门禁检查。 |
bin/paperfit.js | paperfit CLI 入口,供安装、体检、渲染和内部执行调用。 |
简化目录:
PaperFit/
├── agents/ # Agent role definitions
├── skills/ # PaperFit capability bundle
├── config/ # templates, layout rules, taxonomy
├── scripts/ # render, inspect, repair, gatekeeper
├── plugins/paperfit/ # Codex plugin assets
├── .claude/commands/ # Claude Code commands
├── bin/paperfit.js # CLI entry
├── install.sh
└── README.md
开发与验证
在仓库根目录准备开发环境:
npm install
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
运行基础验证:
npm run verify
常用开发命令:
paperfit doctor --target claude
paperfit render paper.pdf --output data/pages
paperfit status
更多安装和命令细节见:
内容保护
PaperFit 的自动修复必须保护学术内容和关键对象:
- 不静默删除 figure、table、caption、label、引用或实验结果。
- 不用
\resizebox、\scalebox作为默认的表格压缩手段。 - 优先使用
table*、tabularx、列宽重构、浮动体重排等版式级方案。 - 语义编辑必须最小、可审计,并保留修复依据。
相关协议见 protocols/content-integrity-protection.md。
许可证
MIT 许可证,见 LICENSE。
相似文章
PaperFit:用于科学文档的视觉闭环排版优化
本文介绍了 PaperFit,这是一种视觉闭环智能体,能够迭代诊断并修复 LaTeX 文档中的布局缺陷,以生成可用于出版的 PDF。此外,本文还提出了一个新基准 PaperFit-Bench,用于评估视觉排版优化的性能。
@cxjwin: 用Claude Code写论文的一整套流水线,有人打包开源出来了。 完全戳中了学生党的痛点,github星标直达9.4k。 项目名叫academic-research-skills
一个名为academic-research-skills的开源项目打包了使用Claude Code撰写论文的完整流水线,在GitHub上获得9.4k星标,直击学生用户痛点。
@QingQ77: 上传论文 PDF 或 LaTeX 源码,由多智能体协作自动生成可编辑的 PowerPoint 演示文稿。 https://github.com/CRui5in/paper-ppt-agent… Paper PPT Agent 用三个 ag…
Paper PPT Agent 是一个开源的多智能体协作工具,能够将学术论文 PDF 或 LaTeX 源码自动转换为可编辑的 PowerPoint 演示文稿,包含内容提炼、版式设计及视觉质量审查功能。
@Xudong07452910: 画 paper 配图画到崩溃,改到天亮? 开源神器 PaperBanana,一句话帮你出图: • 扔进去方法论文本 / PDF + 一句 caption • 多 Agent 自动跑:规划 → 风格化 → 出图 → 自我挑刺 → 重画 • …
PaperBanana 是一个开源工具,利用多 Agent 流水线自动从论文 PDF 和用户描述生成高质量学术插图,支持 GPT-Image、Gemini 等多个 AI 提供商,并提供了 CLI、Python API 和 Web 界面。
@GitHub_Daily: 写论文的时候,画模型架构图、做汇报 PPT、整理实验数据图表,每个环节都要切换不同工具,反复折腾格式,的确耗时间。 最近看到 Paper2Any 这个开源项目,直接把论文丢进去,就能一键生成各种学术素材。 上传论文 PDF、截图或文字,A…
Paper2Any 是一个开源项目,可自动从论文 PDF、截图或文字中生成模型架构图、PPT 演示文稿、实验图表等学术素材,支持编辑、Docker 一键部署。