ICLR 2026 – 机构隶属关系数据集与分析

Hacker News Top 工具

摘要

本文介绍了针对ICLR 2026已被接收论文的数据集与分析流程,从PDF标题块中提取机构隶属关系,以创建一个干净的数据集和可直接发表的树图可视化。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/15 00:27

DmytroLopushanskyy/iclr2026-affiliations

来源: https://github.com/DmytroLopushanskyy/iclr2026-affiliations

ICLR 2026 — 机构归属数据集与分析

这是一个端到端的流水线,将 5,356 篇 ICLR 2026(https://openreview.net/group?id=ICLR.cc/2026)接收论文转化为一份干净的、从 PDF 提取的机构归属数据集,以及一张可直接发布的树图,展示当前谁在塑造人工智能研究。

该方法避免了 OpenReview 个人资料漂移问题(即作者的当前职位会出现在他们写过的每篇论文上——例如,一篇实际上是在 UBC 写的论文,却将怀俄明州列为所属机构)。归属信息来自论文标题块的 PDF,而非作者个人资料。

关注我获取更多此类分析,以及 AI 工程与研究的洞见:

  • LinkedIn — linkedin.com/in/dmytrolopushanskyy (https://linkedin.com/in/dmytrolopushanskyy)
  • GitHub — github.com/DmytroLopushanskyy (https://github.com/DmytroLopushanskyy)

如果此数据集或流水线对您的工作有帮助,一个关注或星标是鼓励我继续发布此类分析的最简单方式。


主要图表

ICLR 2026 排名前 50 的机构,按地区分组

每个矩形代表一个机构,其大小由该机构出现在其中的接收论文数量决定(每篇论文只计一次,无论该论文有多少位作者隶属于该机构)。地区单元格的大小由其排名前 50 机构的累计总数决定。浅色 = 学术界/研究机构,深色 = 工业界。

正方形版本(用于社交媒体): charts/iclr2026_top50_treemap_unique_grouped_square.png


data/ 中的内容

文件说明
iclr2026_public.csv / .xlsx主数据集。 包含 5,356 篇接收论文的 PDF 提取作者和机构、规范化机构规范名称、国家/地区、摘要、OpenReview URL。UTF-8 with BOM,兼容 Excel。
iclr2026_institutions_ranked_unique.csv按唯一归属计数(每个机构每篇论文 +1)排名的前 N 个机构。
iclr2026_institutions_ranked_first_author.csv同上,但仅统计第一作者的机构。
iclr2026_institutions_ranked_fractional.csv同上,每个机构每篇论文获得 1/N 的小数积分。
iclr2026_method_sensitivity.csv三种计数方法下的排名并列对比,可查看哪些机构是稳健的,哪些是方法导致的假象。

iclr2026_public.csv 的列

列名含义
DecisionOral / Poster
Title论文标题(LaTeX 数学标记已转换为 Unicode — $\alpha$ → α, $\nabla$ → ∇, $\textrm{...}$ → 纯文本等)
Authors分号分隔,按作者顺序
InstitutionsAuthors 顺序相同。每篇论文中每位作者的 PDF 提取文本(对于约 6% PDF 解析失败的论文,回退到 OpenReview 数据)
Institutions_canonical通过约 250 条规则进行规范化。MIT / Massachusetts Institute of Technology / MIT CSAIL 均归并为 MIT。每篇论文去重。
Countries每篇论文去重后的国家列表。
Regions每篇论文的高层面区域(中国、美国、香港等)。
Affiliation_sourcepdf(94%)/ parse_fail(6%)/ no_pdf(4 篇论文)。审计跟踪。
Primary_AreaOpenReview 的赛道。
Keywords作者提供的关键词。
Abstract全文摘要。
OpenReview_URL论文的直接链接。

快速开始

仅重新生成图表

bash git clone https://github.com/DmytroLopushanskyy/iclr2026-affiliations.git cd iclr2026-affiliations python3 -m venv .venv && source .venv/bin/activate pip install -r requirements.txt python3 make_iclr_treemap.py --source pdf

此命令读取 data/iclr2026_public.csv,并将树图 PNG/SVG 写入 charts/

添加 --shape square 可获得 1:1 版本。添加 --source openreview 可对比仅使用 OpenReview 个人资料数据的版本(需要先运行爬虫)。

从头复现完整的流水线

仅当您想重新推导数据集(例如针对新会议)时才需要。网络时间约需 1–2 小时,PDF 缓存约需 5 GB 磁盘空间。

``bash

1. 爬取 OpenReview 元数据(需要账户)

export OPENREVIEW_USERNAME=… export OPENREVIEW_PASSWORD=… python3 scrape_openreview.py

→ data/iclr2026_accepted.

2. 下载所有接收论文的 PDF(约 5 GB;有速率限制;重试脚本处理 429 错误)

python3 download_missing_pdfs.py python3 retry_missing_pdfs.py # 处理首次遇到 429 的链接

3. 解析 PDF 并与 OpenReview 数据合并

python3 build_pdf_spreadsheet.py

→ data/iclr2026_accepted_pdf.{csv,xlsx} + data/pdf_parse_summary.txt

4. 构建公开 CSV(清洗 + LaTeX 转 Unicode + 规范名称)

python3 build_public_spreadsheet.py

→ data/iclr2026_public.

5. 渲染图表

python3 make_iclr_treemap.py –source pdf

→ charts/iclr2026_top50_treemap_*.

``


解析器工作原理

parse_pdf_affiliations.py 处理 ICLR 模板论文中常见的四种布局模式:

模式布局示例
A编号脚注标记Author1,2 Author1,3 ... \n 1Inst A 2Inst B 3Inst C
B无标记,单一共享机构Author1, Author2 \n Single Institution
C按作者分段的区块,用电子邮件分隔Author1 \n Inst A \n [email protected] \n Author2 \n Inst B \n [email protected]
D交替的姓名/机构对(无电子邮件)常见于纯工业界论文(Apple、Anthropic 等)

此外还有脚注文本过滤器,用于捕获并丢弃“Equal contribution”、“Corresponding author”、“Project lead”、“These authors contributed equally”——这些文本在过滤前曾泄露到机构字符串中。

结果:96% 的论文解析成功;其余 4% 回退到 OpenReview 个人资料数据(在 Affiliation_source 列中透明标记)。


方法选择简要说明

  • 计数:每个机构每篇论文只计一次,无论列出了多少位作者。与 AI World NeurIPS 排行榜的规则相同。该仓库还生成了仅第一作者和分数 1/N 的变体用于敏感性分析。
  • 规范化:约 250 条正则表达式规则将拼写/缩写变体合并(HKUST = Hong Kong University of Science and Technology = The Hong Kong University of Science and Technology 等)。图表前 50 名中的机构在所有三种计数方法下都是稳定的(参见 data/iclr2026_method_sensitivity.csv)。
  • 地区分组:国家 → 17 个广泛区域用于树图。香港与中国大陆分开显示,因为香港大学在独立的高等教育体系下运作(不同的治理、教学语言,在 QS/THE 排名中单独列出)。

许可证

MIT。数据来源于公开的 OpenReview(https://openreview.net)投稿和 ICLR 2026 论文 PDF;如果在已发表作品中使用,请引用此仓库。


保持联系

如果您在此基础上构建了某些东西,请告知我——我始终对这类流水线的应用场景很感兴趣。如果您想要更多类似文章(研究工程深度解读、应用 AI 分析、我正在阅读的论文),最佳渠道是:

  • LinkedIn — linkedin.com/in/dmytrolopushanskyy (https://linkedin.com/in/dmytrolopushanskyy)
  • GitHub — github.com/DmytroLopushanskyy (https://github.com/DmytroLopushanskyy)

— Dmytro Lopushanskyy

相似文章

约1,200篇有公开代码或数据的ICLR 2026论文 [R]

Reddit r/MachineLearning

已整理并发布了一份包含约1,200篇ICLR 2026已接收论文(占总数的22%)的精选列表,这些论文都提供了公开的代码、数据或演示。ICLR 2026将于2026年4月22日在巴西里约热内卢举行。

MICCAI 2026 决定 [D]

Reddit r/MachineLearning

一个社区讨论帖,用于分享和汇总 MICCAI 2026 会议的早期接收、反驳和拒绝决定。