statistical-analysis

标签

Cards List
#statistical-analysis

开源LLM基准测试每4小时运行147个编码任务,采用5次试验中位数及95%置信区间,并使用CUSUM进行变点检测。好奇大家对这种方法的看法。

Reddit r/AI_Agents · 2026-06-18

一个包含147个编码任务的开源LLM基准测试每4小时运行一次,采用5次试验中位数及95%置信区间,并使用CUSUM进行变点检测,引发了对其方法的讨论。

0 人收藏 0 人点赞
#statistical-analysis

FID 彩票:量化生成模型评估中的隐藏随机性

Hugging Face Daily Papers · 2026-06-18 缓存

本文分析了不同训练种子和采样种子下FID分数的方差,揭示了图像生成评估中显著的可重复性问题。它提出了一种新的评估协议,包括误差带和每单元最优引导调整。

0 人收藏 0 人点赞
#statistical-analysis

评估失效的缩放定律:为何简单平均在数据稀疏和题目难度差距下会崩溃,以及项目反应理论如何跨领域恢复真实情况

arXiv cs.LG · 2026-05-13 缓存

本文指出,在数据稀疏和难度异构的情况下,AI基准测试中的简单平均法会失效,并提出项目反应理论(IRT)作为一种稳健的替代方案,以恢复真实的排名情况。

0 人收藏 0 人点赞
#statistical-analysis

对柯达图集的逐图 PCA 分解首次揭示精心策划

Hacker News Top · 2026-04-20 缓存

对 24 张图像的柯达 PCD0992 图集进行首次逐图 PCA 分解,发现其在通道间冗余度上跨越两个数量级的精心策划。

0 人收藏 0 人点赞
#statistical-analysis

人工智能架构演化的普适统计特征

Hugging Face Daily Papers · 2026-04-12 缓存

# 论文页面 - 人工智能架构演化的普适统计特征 来源:[https://huggingface.co/papers/2604.10571](https://huggingface.co/papers/2604.10571) ## 摘要 研究发现,人工智能架构的演化遵循与生物进化相同的统计规律,包括相似的适应度效应分布和趋同动力学。我们检验了人工智能架构演化是否遵循相同的统计法则。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈