对柯达图集的逐图 PCA 分解首次揭示精心策划

Hacker News Top 论文

摘要

对 24 张图像的柯达 PCD0992 图集进行首次逐图 PCA 分解,发现其在通道间冗余度上跨越两个数量级的精心策划。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 23:23

PearsonZero/kodak-pcd0992-statistical-characterization

来源:https://github.com/PearsonZero/kodak-pcd0992-statistical-characterization

Kodak PCD0992 统计画像系列

Kodak 无损真彩色图像套件(PCD0992)的逐图 PCA 与通道间冗余度分析

Baetzel, J.(2026)


概述

本仓库首次公开了 Kodak 无损真彩色图像套件(PCD0992)全部 24 张图像的逐图统计特征。每张图像以两页数据表形式呈现,完整记录通道间冗余结构:协方差矩阵、特征分解、Pearson 相关系数、空间自相关及由此衍生的分类指标。

所有统计量均基于标准 768×512 基础分辨率 PNG 发行版的 8-bit RGB 像素阵列直接计算,无任何主观描述。冗余分类由固定阈值算法依据已记录的度量值自动生成。


相关研究

母论文: Baetzel, J.(2026)。《Kodak 无损真彩色图像套件通道间冗余结构的统计刻画》。PCD0992 的逐图主成分分解。

  • 要点:建立 Kodak 套件逐图 PCA 完整分解的理论框架,记录维度谱、蓝通道独立区间、特征向量载荷模式,以及 24 张图像被刻意策划的证据。
  • 获取:已含于本仓库(baetzel_2026_kodak_pca_characterization.pdf)。

本系列: Baetzel, J.(2026)。《Kodak PCD0992 统计画像系列》。逐图 PCA 与通道间冗余度分析。

  • 要点:提供 24 张图像各自的参考数据表与机器可读指标导出,是母论文套件级分析的逐图证据——协方差矩阵、特征分解、相关热力图、空间自相关及逻辑生成的冗余画像。
  • 获取:/baseline/ 目录(24 份 PDF + 25 份 JSON)。

母论文解释“为什么”Kodak 套件能覆盖通道间冗余的全谱;画像系列记录“每张图”具体贡献了哪一段冗余区间。


数据集规格

属性
套件Kodak Lossless True Color Image Suite(PCD0992)
图像数量24
分辨率768×512 或 512×768
位深24-bit(每通道 8 bit)
色域sRGB
色彩模式RGB
格式PNG(无损)
来源Kodak PCD Film Scanner 2000,35 mm 胶片,PhotoYCC 解码至 8-bit RGB

每张图像计算指标

每份两页画像包含:

第 1 页

  • RGB 通道分布(像素数据平滑密度曲线)
  • 单通道统计:均值、标准差、方差、峰度、偏度、最小值、最大值
  • 通道间相关热力图(3×3)
  • 成对 Pearson 相关系数(R-G、R-B、G-B)及套件均值
  • 完整 3×3 协方差矩阵

第 2 页

  • 特征分解:特征值、方差解释率(%)、特征向量载荷
  • 衍生指标:条件数、特征值比率、蓝通道独立性、PC1 主导通道
  • 维度层级分类
  • 空间自相关(滞后 1,水平与垂直)
  • 平均局部方差(3×3 邻域)
  • 冗余画像(由计算指标逻辑生成)

套件总览

24 张图像几乎覆盖了胶片摄影可实现的全部通道间冗余配置。条件数从 7.55 到 1,739.16,跨越两个数量级,色分布从近球形到极度拉长。

维度层级

层级PC1 范围数量图像
三维(PC1 < 75%)69.27–73.37%3kodim02, kodim03, kodim23
二维(PC1 75–85%)81.60%1kodim14
弱一维(PC1 85–93%)86.87–91.91%8kodim04, kodim05, kodim07, kodim09, kodim11, kodim18, kodim21, kodim22
强一维(PC1 93–97%)93.36–96.96%7kodim01, kodim08, kodim10, kodim12, kodim15, kodim16, kodim19
近退化(PC1 > 97%)97.36–98.42%5kodim06, kodim13, kodim17, kodim20, kodim24

特征向量载荷模式

模式数量图像
绿通道主导7kodim03, kodim05, kodim08, kodim09, kodim10, kodim16, kodim17
绿-蓝耦合6kodim01, kodim04, kodim11, kodim12, kodim15, kodim21
红通道主导6kodim02, kodim06, kodim14, kodim18, kodim19, kodim23
均衡4kodim07, kodim13, kodim20, kodim24
蓝通道主导1kodim22

套件极值

指标低值高值
平均 |r|kodim23: 0.5595kodim20: 0.9903
条件数kodim23: 7.55kodim20: 1,739.16
PC1 方差解释率kodim03: 69.27%kodim20: 98.42%
蓝通道独立性kodim15: 2.3%kodim03: 52.0%
最高单对 rkodim20 R-G: 0.9955
最低单对 rkodim03 R-B: 0.2890

如何阅读画像表

条件数(lambda1/lambda3):最大与最小特征值之比。高值表示色分布呈针状集中于单一轴;低值表示更接近球形,各通道信息独立。

蓝通道独立性:蓝通道方差中未被第一主成分解释的比例。计算式为 (1 - (blue_loading_PC1² × lambda1 / Var(B))) × 100。低值表示蓝通道几乎可由主方差轴预测;高值表示蓝通道携带大量独特信息。

维度层级:依据 PC1 方差解释率划分,阈值 75%、85%、93%、97%,共五级,从“三维”到“近退化”,对应不同冗余区间。

特征向量模式:第一主成分的载荷结构。识别主导方差轴由哪个通道或通道对驱动:均衡(三通道近等)、耦合(双通道共载)、主导(单通道领先)。

空间自相关(滞后 1):像素与其直接邻域的 Pearson 相关,分水平与垂直计算。值接近 1.0 表示图像数据空间平滑、连贯。


文件结构

/
    README.md
    baetzel_2026_kodak_pca_characterization.pdf
/baseline/
    KODIM01_STATISTICAL_PROFILE.pdf
    kodim01_stats.json
    KODIM02_STATISTICAL_PROFILE.pdf
    kodim02_stats.json
    ...
    KODIM24_STATISTICAL_PROFILE.pdf
    kodim24_stats.json
    kodak_suite_master_stats.json
/docs/
    methodology.md

根目录:母论文与仓库自述。
/baseline/:24 份两页 PDF 参考表 + 25 份 JSON(24 张单图 + 1 份总表)。
/docs/:计算流程文档,确保结果可复现。


参考文献

[1] Eastman Kodak Company. Kodak Publication No. PCD-042, 1992.

[2] Baetzel, J. (2026). “Statistical Characterization of Inter-Channel Redundancy Structure in the Kodak Lossless True Color Image Suite.”

[3] Watanabe, S. “Karhunen-Loeve Expansion and Factor Analysis,” pp. 635-660, 1965.

[4] Giorgianni, E.J. and Madden, T.E. Digital Color Management. Addison-Wesley, 1998.


引用格式

Baetzel, J. (2026). Kodak PCD0992 Statistical Profile Series:
Per-Image PCA and Inter-Channel Redundancy Analysis of the
Kodak Lossless True Color Image Suite.

许可

统计分析与画像表 © Jasmine Baetzel(2026)。基准图像来自 Kodak Lossless True Color Image Suite(PCD0992),由 Eastman Kodak Company 发布,可自由使用。

相似文章

单次调色板优化与有序抖动

Lobsters Hottest

一种单次方法将在线 k-means 调色板优化与 Bayer 有序抖动结合,省去了独立的像素映射步骤,带来轻微提速并生成视觉上更有趣的结果。

多项式自编码器在 Transformer 嵌入压缩上优于 PCA

Hacker News Top

本文介绍了一种多项式自编码器,通过利用二次解码器捕捉非线性方差,在压缩 Transformer 嵌入方面改进了传统的 PCA 方法。在 BEIR 基准测试中的结果表明,该方法在保持高压缩率的同时,其检索质量显著优于标准 PCA 和 Matryoshka 嵌入。