PDFMathTranslate: 保留版式的科学文档翻译工具

Papers with Code Trending 2025/07/02 10:22 论文

摘要

本文介绍PDFMathTranslate，一款基于大语言模型和精准版式检测技术的开源科学文档翻译工具，可在翻译过程中保留原文档的版式。

科学文档中的语言障碍阻碍了科学技术的传播与发展。然而，此前在翻译此类文档的工作中，大多忽视了版式中所包含的信息。为填补这一空白，我们推出了PDFMathTranslate——全球首款在翻译过程中保留版式的开源科学文档翻译软件。借助大语言模型和精准版式检测领域的最新进展，我们在精度、灵活性和效率方面实现了关键性提升，为社区做出了贡献。该项目已在 https://github.com/byaidu/pdfmathtranslate 开源，下载量超过222万次。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 09:06

论文页面 - PDFMathTranslate：保留排版的科学文档翻译

来源：https://huggingface.co/papers/2507.03009

摘要

PDFMathTranslate 利用大语言模型和精确的版面检测技术，实现保留排版的科学文档翻译，在精度、灵活性和效率方面均有提升。

语言障碍阻碍了科学文档的传播与科学技术的发展。然而，此前针对此类文档的翻译工作在很大程度上忽略了版面信息。为填补这一空白，我们推出了 PDFMathTranslate——全球首款用于翻译科学文档并保留其版面的开源软件。借助大语言模型和精确版面检测的最新进展，我们在精度、灵活性和效率方面为社区带来了关键改进。该项目已在 https://github.com/byaidu/pdfmathtranslate 开源，下载量超过 222k 次。

查看 arXiv 页面 (https://arxiv.org/abs/2507.03009) 查看 PDF (https://arxiv.org/pdf/2507.03009) GitHub 33.6k stars (https://github.com/byaidu/pdfmathtranslate) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2507.03009)

在您的智能体中获取这篇论文：

hf papers read 2507.03009

还没有安装最新版 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用该论文

在模型 README.md 中引用 arxiv.org/abs/2507.03009，即可从此页面链接。

引用该论文的数据集 0

暂无数据集引用该论文

在数据集 README.md 中引用 arxiv.org/abs/2507.03009，即可从此页面链接。

引用该论文的 Spaces 0

暂无 Space 引用该论文

在 Space README.md 中引用 arxiv.org/abs/2507.03009，即可从此页面链接。

包含该论文的收藏 0

暂无收藏包含该论文

将该论文添加到收藏 (https://huggingface.co/new-collection)，即可从此页面链接。

相似文章

@jerryjliu0：LiteParse，我们的开源文档解析器，在将复杂 PDF 布局、文本和表格解析为清晰的空间网格方面表现出色……

X AI KOLs Following

LiteParse 是一款基于启发式规则的开源 PDF 解析器，无需依赖 ML 模型即可快速将复杂布局、文本和表格转换为整洁的空间网格。

@AIExplorerTim: 有人刚刚开发了一个工具，可以将 PDF 转换为干净、结构化的 Markdown 速度达到 100 页/秒不需要 GPU。不需要 API 成本。没有混乱的解析。只有原始的、可用的数据。它可以轻松处理的内容： • 表格 → 完美提…

X AI KOLs Timeline

OpenDataLoader 是一个开源工具，可将 PDF 转换为结构化的 Markdown 和 JSON，支持 100 页/秒的本地处理速度，无需 GPU 或 API 成本，专为 RAG 管道和 PDF 无障碍自动化设计。

PDFMathTranslate: 保留版式的科学文档翻译工具

论文页面 - PDFMathTranslate：保留排版的科学文档翻译

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的收藏 0

相似文章

@jerryjliu0：LiteParse，我们的开源文档解析器，在将复杂 PDF 布局、文本和表格解析为清晰的空间网格方面表现出色……

@AIExplorerTim: 有人刚刚开发了一个工具，可以将 PDF 转换为干净、结构化的 Markdown 速度达到 100 页/秒不需要 GPU。不需要 API 成本。没有混乱的解析。只有原始的、可用的数据。它可以轻松处理的内容： • 表格 → 完美提…

@tom_doerr: 将图像和PDF转换为Markdown，无需OCR https://github.com/NanoNets/docext

SmolDocling：一种超紧凑的端到端多模态文档转换视觉语言模型

本地漫画翻译器，内置 LLM，Rust 编写并集成 llama.cpp

提交意见反馈

论文页面 - PDFMathTranslate：保留排版的科学文档翻译

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的收藏 0

相似文章

@jerryjliu0：LiteParse，我们的开源文档解析器，在将复杂 PDF 布局、文本和表格解析为清晰的空间网格方面表现出色……

@AIExplorerTim: 有人刚刚开发了一个工具，可以将 PDF 转换为 干净、结构化的 Markdown 速度达到 100 页/秒 不需要 GPU。 不需要 API 成本。 没有混乱的解析。 只有原始的、可用的数据。 它可以轻松处理的内容： • 表格 → 完美提…

@tom_doerr: 将图像和PDF转换为Markdown，无需OCR https://github.com/NanoNets/docext

SmolDocling：一种超紧凑的端到端多模态文档转换视觉语言模型

本地漫画翻译器，内置 LLM，Rust 编写并集成 llama.cpp

提交意见反馈

@AIExplorerTim: 有人刚刚开发了一个工具，可以将 PDF 转换为干净、结构化的 Markdown 速度达到 100 页/秒不需要 GPU。不需要 API 成本。没有混乱的解析。只有原始的、可用的数据。它可以轻松处理的内容： • 表格 → 完美提…