leaderboards

#leaderboards

聚合排行榜隐藏系统特定获胜者：离线根因分析基准的报告协议审计

arXiv cs.AI ↗ · 2026-06-30 缓存

本文对离线根因分析基准进行了审计，发现聚合排行榜隐藏了子系统特定的获胜者，通过对11个子系统的778个案例进行成对比较。它发布了一个320行的审计模块，用于重新计算每个子系统的稳定性检查。

0 人收藏 0 人点赞

#leaderboards

@lucas_flatwhite: 对于关注人工智能研究/智能体趋势的各位，请务必收藏此页面..! Papers with Code https://paperswithco…

X AI KOLs Timeline ↗ · 2026-06-27 缓存

Papers with Code 是一个专注于人工智能研究论文与代码的平台，在被 Meta 收购后，由 Hugging Face 从头重建，为研究、代码实现以及特定任务的排行榜提供了统一入口。

0 人收藏 0 人点赞

#leaderboards

部分模型一周内定价相同，于是我观察了人们实际使用的模型

Reddit r/ArtificialInteligence ↗ · 2026-06-25

当多个AI模型以相同价格运行一周时，实际的token使用量揭示了与排行榜排名不同的偏好差异，表明编码和通用聊天各有不同的顶级模型，且长上下文使用集中在两个受信任的模型上。

0 人收藏 0 人点赞

#leaderboards

超越静态排行榜：LLM智能体评估的预测有效性

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

本文认为，针对LLM智能体基准测试的聚合得分排行榜未能捕捉到与部署相关的维度，并且表现出排名不稳定性。文章提出根据预测有效性（即样本内排名与样本外排名之间的相关性）来对配置进行排序，并引入了一个十二层级的测量体系以及可证伪的分布外准则。

0 人收藏 0 人点赞

#leaderboards

@NielsRogge: 介绍 Papers Without Code 言归正传，现在你也可以浏览封闭源模型的评估结果和排行榜了…

X AI KOLs Following ↗ · 2026-06-08 缓存

Papers Without Code 现在支持用户浏览封闭源模型（如 GPT-5.5 和 Opus 4.8）的评估结果和排行榜，并可在设置中切换。

0 人收藏 0 人点赞

#leaderboards

@vikingmute: 这是哪个神仙做的这个网站？https://sophon.at 收集和展示和AI 相关的所有信息和内容，论文/最新模型/Benchmark/排行榜论文还能直接在线看，非常非常全还有 feed ，可以直接订阅了解最新的消息。还有这个 …

X AI KOLs Timeline ↗ · 2026-06-05 缓存

本文推荐了一个名为 Sophon 的网站，它聚合了 AI 领域的论文、模型、基准测试、排行榜和强化学习环境等信息，提供实时排行榜、对比和订阅功能，被誉为 AI 研究的 Bloomberg 终端。

0 人收藏 0 人点赞

#leaderboards

信任悖论：计算机科学研究人员如何参与LLM排行榜

arXiv cs.CL ↗ · 2026-05-29 缓存

本文介绍了一项基于对计算机科学研究人员访谈的定性研究，揭示了一个实用怀疑主义的悖论：研究人员不信任LLM排行榜排名，却仍将其作为粗略的决策指南。研究发现，同行网络是模型选择的主要途径，基于竞技场（人工投票）的排行榜更受青睐，而成本透明是最被要求的功能。

0 人收藏 0 人点赞

#leaderboards

PapersWithCode 新功能 - 第一周 [P]

Reddit r/MachineLearning ↗ · 2026-05-24

来自 Hugging Face 的 Niels 宣布了复兴的 PapersWithCode 平台的新功能，包括多指标排行榜、支持外部论文、论文谱系等。

0 人收藏 0 人点赞

#leaderboards

复兴PapersWithCode（由Hugging Face开发）[P]

Reddit r/MachineLearning ↗ · 2026-05-18

来自Hugging Face的Niels宣布复兴PapersWithCode，新平台为paperswithcode.co，能够大规模解析高影响力的AI论文，并自动生成排行榜和基准测试，融合了热门论文、领域分类以及外部论文支持等功能。

0 人收藏 0 人点赞

#leaderboards

@NielsRogge：宣布PapersWithCode复兴！正如@ilyasut所说，我们回到了“研究时代”。因此，重要的是要……

X AI KOLs Following ↗ · 2026-05-18 缓存

NielsRogge宣布PapersWithCode复兴，该平台按领域提供SOTA、排行榜和方法，并使用AI智能体大规模解析。

0 人收藏 0 人点赞

leaderboards

提交意见反馈