statistical-analysis

#statistical-analysis

开源LLM基准测试每4小时运行147个编码任务，采用5次试验中位数及95%置信区间，并使用CUSUM进行变点检测。好奇大家对这种方法的看法。

Reddit r/AI_Agents ↗ · 2026-06-18

一个包含147个编码任务的开源LLM基准测试每4小时运行一次，采用5次试验中位数及95%置信区间，并使用CUSUM进行变点检测，引发了对其方法的讨论。

0 人收藏 0 人点赞

#statistical-analysis

FID 彩票：量化生成模型评估中的隐藏随机性

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

本文分析了不同训练种子和采样种子下FID分数的方差，揭示了图像生成评估中显著的可重复性问题。它提出了一种新的评估协议，包括误差带和每单元最优引导调整。

0 人收藏 0 人点赞

#statistical-analysis

评估失效的缩放定律：为何简单平均在数据稀疏和题目难度差距下会崩溃，以及项目反应理论如何跨领域恢复真实情况

arXiv cs.LG ↗ · 2026-05-13 缓存

本文指出，在数据稀疏和难度异构的情况下，AI基准测试中的简单平均法会失效，并提出项目反应理论（IRT）作为一种稳健的替代方案，以恢复真实的排名情况。

0 人收藏 0 人点赞

#statistical-analysis

对柯达图集的逐图 PCA 分解首次揭示精心策划

Hacker News Top ↗ · 2026-04-20 缓存

对 24 张图像的柯达 PCD0992 图集进行首次逐图 PCA 分解，发现其在通道间冗余度上跨越两个数量级的精心策划。

0 人收藏 0 人点赞

#statistical-analysis

人工智能架构演化的普适统计特征

Hugging Face Daily Papers ↗ · 2026-04-12 缓存

# 论文页面 - 人工智能架构演化的普适统计特征来源：[https://huggingface.co/papers/2604.10571](https://huggingface.co/papers/2604.10571) ## 摘要研究发现，人工智能架构的演化遵循与生物进化相同的统计规律，包括相似的适应度效应分布和趋同动力学。我们检验了人工智能架构演化是否遵循相同的统计法则。

0 人收藏 0 人点赞

statistical-analysis

开源LLM基准测试每4小时运行147个编码任务，采用5次试验中位数及95%置信区间，并使用CUSUM进行变点检测。好奇大家对这种方法的看法。

FID 彩票：量化生成模型评估中的隐藏随机性

评估失效的缩放定律：为何简单平均在数据稀疏和题目难度差距下会崩溃，以及项目反应理论如何跨领域恢复真实情况

对柯达图集的逐图 PCA 分解首次揭示精心策划

人工智能架构演化的普适统计特征

提交意见反馈