ICLR 2026 – 机构隶属关系数据集与分析
摘要
本文介绍了针对ICLR 2026已被接收论文的数据集与分析流程,从PDF标题块中提取机构隶属关系,以创建一个干净的数据集和可直接发表的树图可视化。
查看缓存全文
缓存时间: 2026/05/15 00:27
DmytroLopushanskyy/iclr2026-affiliations
来源: https://github.com/DmytroLopushanskyy/iclr2026-affiliations
ICLR 2026 — 机构归属数据集与分析
这是一个端到端的流水线,将 5,356 篇 ICLR 2026(https://openreview.net/group?id=ICLR.cc/2026)接收论文转化为一份干净的、从 PDF 提取的机构归属数据集,以及一张可直接发布的树图,展示当前谁在塑造人工智能研究。
该方法避免了 OpenReview 个人资料漂移问题(即作者的当前职位会出现在他们写过的每篇论文上——例如,一篇实际上是在 UBC 写的论文,却将怀俄明州列为所属机构)。归属信息来自论文标题块的 PDF,而非作者个人资料。
关注我获取更多此类分析,以及 AI 工程与研究的洞见:
- LinkedIn — linkedin.com/in/dmytrolopushanskyy (https://linkedin.com/in/dmytrolopushanskyy)
- GitHub — github.com/DmytroLopushanskyy (https://github.com/DmytroLopushanskyy)
如果此数据集或流水线对您的工作有帮助,一个关注或星标是鼓励我继续发布此类分析的最简单方式。
主要图表
ICLR 2026 排名前 50 的机构,按地区分组
每个矩形代表一个机构,其大小由该机构出现在其中的接收论文数量决定(每篇论文只计一次,无论该论文有多少位作者隶属于该机构)。地区单元格的大小由其排名前 50 机构的累计总数决定。浅色 = 学术界/研究机构,深色 = 工业界。
正方形版本(用于社交媒体):
charts/iclr2026_top50_treemap_unique_grouped_square.png
data/ 中的内容
| 文件 | 说明 |
|---|---|
iclr2026_public.csv / .xlsx | 主数据集。 包含 5,356 篇接收论文的 PDF 提取作者和机构、规范化机构规范名称、国家/地区、摘要、OpenReview URL。UTF-8 with BOM,兼容 Excel。 |
iclr2026_institutions_ranked_unique.csv | 按唯一归属计数(每个机构每篇论文 +1)排名的前 N 个机构。 |
iclr2026_institutions_ranked_first_author.csv | 同上,但仅统计第一作者的机构。 |
iclr2026_institutions_ranked_fractional.csv | 同上,每个机构每篇论文获得 1/N 的小数积分。 |
iclr2026_method_sensitivity.csv | 三种计数方法下的排名并列对比,可查看哪些机构是稳健的,哪些是方法导致的假象。 |
iclr2026_public.csv 的列
| 列名 | 含义 |
|---|---|
Decision | Oral / Poster |
Title | 论文标题(LaTeX 数学标记已转换为 Unicode — $\alpha$ → α, $\nabla$ → ∇, $\textrm{...}$ → 纯文本等) |
Authors | 分号分隔,按作者顺序 |
Institutions | 与 Authors 顺序相同。每篇论文中每位作者的 PDF 提取文本(对于约 6% PDF 解析失败的论文,回退到 OpenReview 数据) |
Institutions_canonical | 通过约 250 条规则进行规范化。MIT / Massachusetts Institute of Technology / MIT CSAIL 均归并为 MIT。每篇论文去重。 |
Countries | 每篇论文去重后的国家列表。 |
Regions | 每篇论文的高层面区域(中国、美国、香港等)。 |
Affiliation_source | pdf(94%)/ parse_fail(6%)/ no_pdf(4 篇论文)。审计跟踪。 |
Primary_Area | OpenReview 的赛道。 |
Keywords | 作者提供的关键词。 |
Abstract | 全文摘要。 |
OpenReview_URL | 论文的直接链接。 |
快速开始
仅重新生成图表
bash git clone https://github.com/DmytroLopushanskyy/iclr2026-affiliations.git cd iclr2026-affiliations python3 -m venv .venv && source .venv/bin/activate pip install -r requirements.txt python3 make_iclr_treemap.py --source pdf
此命令读取 data/iclr2026_public.csv,并将树图 PNG/SVG 写入 charts/。
添加 --shape square 可获得 1:1 版本。添加 --source openreview 可对比仅使用 OpenReview 个人资料数据的版本(需要先运行爬虫)。
从头复现完整的流水线
仅当您想重新推导数据集(例如针对新会议)时才需要。网络时间约需 1–2 小时,PDF 缓存约需 5 GB 磁盘空间。
``bash
1. 爬取 OpenReview 元数据(需要账户)
export OPENREVIEW_USERNAME=… export OPENREVIEW_PASSWORD=… python3 scrape_openreview.py
→ data/iclr2026_accepted.
2. 下载所有接收论文的 PDF(约 5 GB;有速率限制;重试脚本处理 429 错误)
python3 download_missing_pdfs.py python3 retry_missing_pdfs.py # 处理首次遇到 429 的链接
3. 解析 PDF 并与 OpenReview 数据合并
python3 build_pdf_spreadsheet.py
→ data/iclr2026_accepted_pdf.{csv,xlsx} + data/pdf_parse_summary.txt
4. 构建公开 CSV(清洗 + LaTeX 转 Unicode + 规范名称)
python3 build_public_spreadsheet.py
→ data/iclr2026_public.
5. 渲染图表
python3 make_iclr_treemap.py –source pdf
→ charts/iclr2026_top50_treemap_*.
``
解析器工作原理
parse_pdf_affiliations.py 处理 ICLR 模板论文中常见的四种布局模式:
| 模式 | 布局 | 示例 |
|---|---|---|
| A | 编号脚注标记 | Author1,2 Author1,3 ... \n 1Inst A 2Inst B 3Inst C |
| B | 无标记,单一共享机构 | Author1, Author2 \n Single Institution |
| C | 按作者分段的区块,用电子邮件分隔 | Author1 \n Inst A \n [email protected] \n Author2 \n Inst B \n [email protected] |
| D | 交替的姓名/机构对(无电子邮件) | 常见于纯工业界论文(Apple、Anthropic 等) |
此外还有脚注文本过滤器,用于捕获并丢弃“Equal contribution”、“Corresponding author”、“Project lead”、“These authors contributed equally”——这些文本在过滤前曾泄露到机构字符串中。
结果:96% 的论文解析成功;其余 4% 回退到 OpenReview 个人资料数据(在 Affiliation_source 列中透明标记)。
方法选择简要说明
- 计数:每个机构每篇论文只计一次,无论列出了多少位作者。与 AI World NeurIPS 排行榜的规则相同。该仓库还生成了仅第一作者和分数 1/N 的变体用于敏感性分析。
- 规范化:约 250 条正则表达式规则将拼写/缩写变体合并(HKUST = Hong Kong University of Science and Technology = The Hong Kong University of Science and Technology 等)。图表前 50 名中的机构在所有三种计数方法下都是稳定的(参见
data/iclr2026_method_sensitivity.csv)。 - 地区分组:国家 → 17 个广泛区域用于树图。香港与中国大陆分开显示,因为香港大学在独立的高等教育体系下运作(不同的治理、教学语言,在 QS/THE 排名中单独列出)。
许可证
MIT。数据来源于公开的 OpenReview(https://openreview.net)投稿和 ICLR 2026 论文 PDF;如果在已发表作品中使用,请引用此仓库。
保持联系
如果您在此基础上构建了某些东西,请告知我——我始终对这类流水线的应用场景很感兴趣。如果您想要更多类似文章(研究工程深度解读、应用 AI 分析、我正在阅读的论文),最佳渠道是:
- LinkedIn — linkedin.com/in/dmytrolopushanskyy (https://linkedin.com/in/dmytrolopushanskyy)
- GitHub — github.com/DmytroLopushanskyy (https://github.com/DmytroLopushanskyy)
— Dmytro Lopushanskyy
相似文章
约1,200篇有公开代码或数据的ICLR 2026论文 [R]
已整理并发布了一份包含约1,200篇ICLR 2026已接收论文(占总数的22%)的精选列表,这些论文都提供了公开的代码、数据或演示。ICLR 2026将于2026年4月22日在巴西里约热内卢举行。
KDD 2026 第二轮结果 [D]
KDD 2026 第二轮研究赛道的结果已公布。
MICCAI 2026 决定 [D]
一个社区讨论帖,用于分享和汇总 MICCAI 2026 会议的早期接收、反驳和拒绝决定。
@tom_doerr: 从原始数据生成LLM就绪的数据集 https://github.com/OpenDCAI/DataFlow…
DataFlow是一个开源工具,提供可视化、低代码的管道,用于从原始数据生成、清洗和准备高质量的LLM训练数据集。它包含一篇arXiv上的技术报告。
@tom_doerr: 大语言模型指令与推理数据集精选列表 https://github.com/mlabonne/llm-datasets…
由 mlabonne 整理的大语言模型指令与推理数据集列表,包含数据集特征、许可证及用例详情。