Perceptual Image Codec: 实际学习型图像压缩中的关键因素

Hacker News Top 2026/05/24 12:01 论文

摘要

PICO (Perceptual Image Codec) 是苹果公司推出的一种新型学习型编解码器，针对人类视觉系统进行了优化，相比AV1和VVC等传统编解码器可节省2.3–3倍的比特率，同时在iPhone 17 Pro Max上实现230毫秒编码/150毫秒解码。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/24 15:40

# 实用型学习式图像压缩的关键因素来源：https://apple.github.io/ml-pico/ ## 关于 (https://apple.github.io/ml-pico/index.html#about) 我们推出了 PICO（感知图像编解码器）—— 首款既实用又直接针对人类视觉系统优化的学习式编解码器。为了推导出它，我们对实用学习式编解码器的建模选择进行了全面研究，并在数百万个模型配置中进行搜索，以联合优化感知质量和设备端运行时。基于大规模主观用户研究，PICO 在 AV1、AV2、VVC、ECM 和 JPEG-AI 的基础上实现了 **2.3–3 倍码率节省**，相比最佳学习式编解码器替代方案则实现了 **20–40% 码率节省**。同时，在 iPhone 17 Pro Max 上，它编码 1200 万像素图像的速度快至 **230 毫秒**，解码速度为 **150 毫秒** —— 比大多数顶级基于机器的编解码器在 V100 GPU 上运行还要快。与大多数学习式编解码器不同，PICO 还提供了跨平台的鲁棒性保证。不同图像之间的交互式比较。PICO（我们的）固定在左侧。从叠加按钮中选择图像和比较方法，然后拖动滑块进行比较。建议在大屏幕上观看。最先进的传统与学习式编解码器在不同实用性考量下的比较。 PICO 与传统及学习式编解码器的性能比较最先进的传统与学习式编解码器比较。感知 BD 码率基于来自大规模主观研究的人类评分。iPhone 17 Pro Max 上的速度基准测试使用相同的编译器优化。 ## 引用 (https://apple.github.io/ml-pico/index.html#citation) 如果您觉得我们的工作有用，请引用： `` @article{tatwawadi2026pico, title={What Matters in Practical Learned Image Compression}, author={Tatwawadi, Kedar and Rahimzadeh, Parisa and Sun, Zhanghao and Chen, Zhiqi and Yang, Ziyun and Nair, Sanjay and Hasteer, Divija and Rippel, Oren}, journal={arXiv preprint arXiv:2605.05148}, year={2026} } ``

Perceptual Image Codec: 实际学习型图像压缩中的关键因素

相似文章

PivCo-Huffman

AdaCodec：面向视频多模态大模型的预测性视觉编码

PiD：基于像素扩散的快速高分辨率潜在解码

@jiqizhixin: 如果你的AI能像流媒体编解码器一样“看”视频——只把令牌花在最关键的时刻？介绍……

基于隐式神经表示的数据驱动视频编解码器

提交意见反馈