JPEG XL 发展之路:开源实验塑造了图像编码的未来
摘要
谷歌工程师回顾 JPEG XL 背后长达十年的开源历程,重点介绍了 WebP Lossless、Butteraugli 和 Guetzli 等关键实验如何塑造了下一代图像标准。
暂无内容
查看缓存全文
缓存时间: 2026/06/04 00:43
# 通往JPEG XL之路:开源实验如何塑造图像编码的未来
来源:https://opensource.googleblog.com/2026/06/journey-to-jpeg-xl-how-open-source-experiments-shaped-the-future-of-image-coding.html
作者:Jyrki Alakuijala、Zoltán Szabadka 和 Luca Versari,Google 科技与社会部门,智能范式团队
## 构建下一代图像标准
互联网的运行依赖图像。自网络早期开始,视觉保真度与带宽之间就存在着持续的矛盾。几十年来,业界依赖经典的 JPEG 标准来确保图像快速加载。它曾出色地满足需求,但随着显示器转向高动态范围(HDR)和广色域(WCG),这种格式开始显露其局限。
通往 JPEG XL (https://www.iso.org/standard/85066.html)(JXL (https://github.com/libjxl/libjxl))的道路并非一条直线。这是一场长达十年的探索,通过一系列里程碑式的项目,在视觉心理建模、熵编码和优化方面测试了各种激进的想法。如今,随着 JPEG XL 在操作系统和专业标准中迅速普及,我们来回顾一下那些使其成为可能的实验。
---
## 早期基础:2011–2017 年
我们的研究首先聚焦于理解现有技术的局限性。我们并非一开始就试图编写新标准,而是从改进现有标准入手,并了解其不足之处。这使得我们能够在恰当的位置让新形式体系更加灵活和高效。
- **WebP 无损格式与 Brotli:** 有损 WebP 源自视频技术,而 **WebP 无损格式**(2011 年)在架构和范围上则是一个分水岭。我们首次提出了 **熵图像概念 (https://www.rfc-editor.org/rfc/rfc9649.html#section-3.6.1)**,这是一种利用辅助图像来协调主视觉数据静态熵码选择的方法。后来,我们在 **Brotli 压缩格式 (https://dl.acm.org/doi/abs/10.1145/3231935)** 中重新应用了这一方法,通过数据驱动的上下文建模,在不降低解码速度的情况下实现了丰富的上下文建模。
- **Butteraugli:** 大约在 2014 年,我们意识到原始的数学压缩(PSNR)不够用,而简单的视觉心理近似(SSIM 及其同类指标)在色彩丰富的环境中也表现不佳。于是我们构建了 **Butteraugli (https://github.com/libjxl/libjxl/tree/main/lib/jxl/butteraugli)** 和 **XYB 色彩空间 (https://github.com/libjxl/libjxl/blob/6aa76f3134684f86e239263384230751b56938a7/lib/jxl/butteraugli/butteraugli.cc#L1445)**,以在不同尺度上模拟人类视觉系统的边缘检测和对抗色过程,从而实现更有效的图像压缩。
- 我们通过两个关键项目将传统的 **JPEG 1 标准 (https://jpeg.org/jpeg/)**(ISO/IEC 10918,1992 年引入)推向了绝对极限:**Guetzli 和 Brunsli**。这些项目为我们提供了关于传统 JPEG 压缩方法优缺点的宝贵洞见。**Guetzli (https://en.wikipedia.org/wiki/Guetzli)**(2016 年)是一种较慢的高密度感知编码器,它使用 Butteraugli 来寻找最优量化表,使传统 JPEG 文件缩小 20-30%。而 **Brunsli (https://github.com/google/brunsli)**(2015 年)则专注于 **无损再压缩**,允许用户在不丢失任何原始数据位的情况下,将现有 JPEG 重新打包成更小的体积。在完成 JPEG XL 标准化工作后,我们于 2024 年重新审视了 Guetzli 的应用范围,使其编码速度大幅提升并兼容 HDR,这就是 Jpegli (https://opensource.googleblog.com/2024/04/introducing-jpegli-new-jpeg-coding-library.html)。
从 **WebP 无损格式**的技术细节到 **Guetzli** 的视觉心理审核,这些项目发布后获得的反馈被证明不可或缺。尽管我们原本就以最高视觉保真度为目标,但来自对细节要求严苛的电商领域的反馈帮助我们进一步完善了需求。
---
## 融合阶段:2017–2019 PIK 时代与 2019 FUIF 整合
到 2017 年,我们拥有了强大的独立工具,是时候将它们融合起来了。在开源 **PIK (http://github.com/google/pik)** 时,我们将 Brunsli 的效率与 Guetzli 的视觉心理优化结合在一起。此外,PIK 还引入了 **真正的自适应量化场** 和其他优化。**PIK** 构成了我们向 **ISO** 标准化机构提交的提案。委员会的最终征集提案 (https://jpeg.org/downloads/jpegxl/jpegxl-cfp.pdf) 推动了极致的压缩密度,要求比特率低至 **0.06 BPP**,相当于互联网质量图像的 35 倍压缩,相机原始输出的 80 倍压缩。这种范围的扩展要求格式和编码器显著复杂化,从而引出了如今仍是 **JPEG XL** 核心的可变块大小离散余弦变换(**VarDCT**)架构。
我们提议将我们的 PIK 提案与 Cloudinary 的 FUIF(自由通用图像格式)提案合并。PIK 在编码时使用 Brotli 风格的分布选择,而 FUIF 则在解码过程中逐步优化码字。最终的 JPEG XL 标准成为两全其美的折衷方案:我们采用了 PIK 的解码速度更快的分布选择,并结合了 FUIF 的复杂上下文树。这次合并代表着对传统单一平台驱动标准化模式的突破,优先考虑了技术协同与协作。
一幅名为“JPEG XL 标准构建模块”的流程图,展示了从左到右跨越三个阶段的演进过程。第一阶段“早期构建模块(2011-2017)”包含四个方框:WebP 无损格式与 Brotli、Butteraugli 与 XYB、Guetzli、Brunsli。箭头从这些早期技术指向第二阶段“融合阶段(2017-2019)”,该阶段由两个主要方框构成:PIK 和 FUIF。最后,多条线从 PIK 和 FUIF 汇聚到第三阶段“最终标准”。这一最终部分有一个橙色大框,标注为“JXL:JPEG XL 标准”,描述为融合了 PIK 的分布选择与 FUIF 的上下文树。(https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEic_WoSwZ84GajY2-xiBPt4P5ho2eN8-lyfLAx_8A_VfQpy-UKyJSxOjFDn118y4LCXy5EShCZ2L5NH2a5EC_cEh2WyY1oV6ZhipsJ2ZtYl7G2VRkGtP1YWU7m0Gq98NqEUCkcve9f4iDALjZ4diU1SFKXq60P_ba2FA1TP07Ovy8NLXrvVbWNCp1sueSE/s1600/jxl-graph.jpg)
## JPEG XL 的今天:生态系统生根发芽
JPEG XL 的效率、视觉心理优化的质量、文件大小以及编码速度正受到关注。我们看到各行各业自下而上的采用,最苛刻的领域正在引领潮流。由于能够高效且稳健地处理高比特深度、高质量甚至无损数据,JPEG XL 已成为多个领域的基础:
- **摄影:** 用于数字底片(DNG 1.7)、Apple ProRAW 等。
- **医学:** 被国际医学图像标准 **DICOM (https://www.dicomstandard.org/about)** 采用。
- **出版:** 集成到未来版本的 PDF 和 EPUB 标准中。
生态系统迅速成熟。Adobe 的摄影软件、Apple 的 iOS、macOS 和 visionOS 提供原生支持,Ubuntu 等 Linux 发行版和 Microsoft 的 Windows JPEG XL Image Extension 也是如此。我们的 libjxl-tiny (https://github.com/libjxl/libjxl-tiny) 激励了 Shikino High-Tech, Inc (https://www.shikino.co.jp/eng/) 和 CAST (https://www.cast-inc.com/compression/jpeg-image-compression/jpeg-xl-e) 发布首个面向 ASIC 和 FPGA 设计的商用 JPEG XL 编码器 IP 核,旨在实现实时、低功耗的图像采集。Safari(2023 年)在主要浏览器中率先支持,而 Firefox 和 Chrome 目前保持实验性支持。
两位男士在明亮的办公室里合作讨论白板上的内容。白板上有一幅手绘流程图,标题为“VARDCT 块合并策略”。图表显示小方块组合成更大的图案化矩形,并由箭头连接。流程图中的文字标签包括:“决策逻辑:率失真代价”、“合并准则”、“熵编码效率”、“相邻块”和“可变块大小”。左边的男士正指着图表左下角;右边留着长发胡须的男士正用马克笔在白板上写一个数学方程。(https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhc06dUH5IJAcb7TkoKrPhI74B-ypK-20K34QMj8hVlys42KahbbBTdoPy-EyLUAw-bdDA9pyuw6bfErHGNN_XO8-awfM4dJgeFyA8KtATzMCY21gIdbFHwWBACllCfaBVVYHHPVyz8opEbWgEkTUNY6JY7aLmrryQRkRqKzCTqBcvpkqb57lP4aNeNLNc/s1600/luca-jyrki-ai-board.jpg)JPEG XL 的设计不仅包含无数小时的优化、实验和肉眼审视结果,还包括在白板前的创造性讨论。在这张由 Gemini 重建的场景中,Luca Versari 和 Jyrki Alakuijala(从左到右)正在争论 VarDCT 块选择启发式算法。
## 展望未来
**JPEG XL** 的故事证明了长期规划的有效性——通过中间功能里程碑(如最小可行原型 Guetzli)和实用工具(如 Brunsli 和 Brotli)进行验证,并邀请开源社区反馈。一个小型研究团队可以通过快速迭代来结晶解决方案,进行数千甚至数万次关于 **视觉心理建模**、**熵**、**编码速度与复杂度** 的实验,最终引领整个行业走向一个更高效、更美好的未来。
我们最初试图从1992年的 JPEG 1 标准中再挤出几个字节;而通过 JPEG XL,我们希望为数字图像建立一个能持续未来三十年的基础。
相似文章
@smratitiwa86867: 这太疯狂了。前谷歌工程师刚刚发布了他们内部工具的完整地图……以及你可以直接使用的精确开源版本……
前谷歌工程师发布了一张谷歌内部工具及其开源替代品的地图,为构建可扩展的基础设施提供了秘籍。
三个开源图像模型,一个平台。Microsoft Foundry 和 Hugging Face 为开发者带来的最大目录 f…
Microsoft Foundry 通过 Hugging Face 集成了三个开源图像模型(SDXL、FLUX.1-schnell 和 Z-Image-Turbo),为开发者提供了一个统一的 AI 图像生成平台。
扩展伪影
一篇反思性文章,探讨有损压缩如何产生可见伪影,并影响数字美学、取证与艺术。
Perceptual Image Codec: 实际学习型图像压缩中的关键因素
PICO (Perceptual Image Codec) 是苹果公司推出的一种新型学习型编解码器,针对人类视觉系统进行了优化,相比AV1和VVC等传统编解码器可节省2.3–3倍的比特率,同时在iPhone 17 Pro Max上实现230毫秒编码/150毫秒解码。
Generative Media | I/O 2026 Keynote
文章介绍了Google I/O 2026 Keynote上发布的生成式媒体产品更新,包括Google Pics图像编辑工具、Stitch UI设计工具,以及Google Flow的新功能如Gemini Omni、多智能体并行处理、自定义工具和音乐混音。强调技术帮助用户将创意快速变为现实。