ICLR 2026 – 机构隶属关系数据集与分析

Hacker News Top 2026/05/14 22:50 工具

iclr institutional-affiliations dataset analysis open-source visualization

摘要

本文介绍了针对ICLR 2026已被接收论文的数据集与分析流程，从PDF标题块中提取机构隶属关系，以创建一个干净的数据集和可直接发表的树图可视化。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/15 00:27

DmytroLopushanskyy/iclr2026-affiliations

来源: https://github.com/DmytroLopushanskyy/iclr2026-affiliations

ICLR 2026 — 机构归属数据集与分析

这是一个端到端的流水线，将 5,356 篇 ICLR 2026（https://openreview.net/group?id=ICLR.cc/2026）接收论文转化为一份干净的、从 PDF 提取的机构归属数据集，以及一张可直接发布的树图，展示当前谁在塑造人工智能研究。

该方法避免了 OpenReview 个人资料漂移问题（即作者的当前职位会出现在他们写过的每篇论文上——例如，一篇实际上是在 UBC 写的论文，却将怀俄明州列为所属机构）。归属信息来自论文标题块的 PDF，而非作者个人资料。

关注我获取更多此类分析，以及 AI 工程与研究的洞见：

LinkedIn — linkedin.com/in/dmytrolopushanskyy (https://linkedin.com/in/dmytrolopushanskyy)

GitHub — github.com/DmytroLopushanskyy (https://github.com/DmytroLopushanskyy)

如果此数据集或流水线对您的工作有帮助，一个关注或星标是鼓励我继续发布此类分析的最简单方式。

主要图表

ICLR 2026 排名前 50 的机构，按地区分组

每个矩形代表一个机构，其大小由该机构出现在其中的接收论文数量决定（每篇论文只计一次，无论该论文有多少位作者隶属于该机构）。地区单元格的大小由其排名前 50 机构的累计总数决定。浅色 = 学术界/研究机构，深色 = 工业界。

正方形版本（用于社交媒体）： charts/iclr2026_top50_treemap_unique_grouped_square.png

`data/` 中的内容

文件	说明
`iclr2026_public.csv` / `.xlsx`	主数据集。包含 5,356 篇接收论文的 PDF 提取作者和机构、规范化机构规范名称、国家/地区、摘要、OpenReview URL。UTF-8 with BOM，兼容 Excel。
`iclr2026_institutions_ranked_unique.csv`	按唯一归属计数（每个机构每篇论文 +1）排名的前 N 个机构。
`iclr2026_institutions_ranked_first_author.csv`	同上，但仅统计第一作者的机构。
`iclr2026_institutions_ranked_fractional.csv`	同上，每个机构每篇论文获得 1/N 的小数积分。
`iclr2026_method_sensitivity.csv`	三种计数方法下的排名并列对比，可查看哪些机构是稳健的，哪些是方法导致的假象。

`iclr2026_public.csv` 的列

列名	含义
`Decision`	Oral / Poster
`Title`	论文标题（LaTeX 数学标记已转换为 Unicode — $\alpha$ → α, $\nabla$ → ∇, $\textrm{...}$ → 纯文本等）
`Authors`	分号分隔，按作者顺序
`Institutions`	与 `Authors` 顺序相同。每篇论文中每位作者的 PDF 提取文本（对于约 6% PDF 解析失败的论文，回退到 OpenReview 数据）
`Institutions_canonical`	通过约 250 条规则进行规范化。`MIT` / `Massachusetts Institute of Technology` / `MIT CSAIL` 均归并为 MIT。每篇论文去重。
`Countries`	每篇论文去重后的国家列表。
`Regions`	每篇论文的高层面区域（中国、美国、香港等）。
`Affiliation_source`	`pdf`（94%）/ `parse_fail`（6%）/ `no_pdf`（4 篇论文）。审计跟踪。
`Primary_Area`	OpenReview 的赛道。
`Keywords`	作者提供的关键词。
`Abstract`	全文摘要。
`OpenReview_URL`	论文的直接链接。

快速开始

仅重新生成图表

bash git clone https://github.com/DmytroLopushanskyy/iclr2026-affiliations.git cd iclr2026-affiliations python3 -m venv .venv && source .venv/bin/activate pip install -r requirements.txt python3 make_iclr_treemap.py --source pdf

此命令读取 data/iclr2026_public.csv，并将树图 PNG/SVG 写入 charts/。

添加 --shape square 可获得 1:1 版本。添加 --source openreview 可对比仅使用 OpenReview 个人资料数据的版本（需要先运行爬虫）。

从头复现完整的流水线

仅当您想重新推导数据集（例如针对新会议）时才需要。网络时间约需 1–2 小时，PDF 缓存约需 5 GB 磁盘空间。

``bash

1. 爬取 OpenReview 元数据（需要账户）

export OPENREVIEW_USERNAME=… export OPENREVIEW_PASSWORD=… python3 scrape_openreview.py

→ data/iclr2026_accepted.

2. 下载所有接收论文的 PDF（约 5 GB；有速率限制；重试脚本处理 429 错误）

python3 download_missing_pdfs.py python3 retry_missing_pdfs.py # 处理首次遇到 429 的链接

3. 解析 PDF 并与 OpenReview 数据合并

python3 build_pdf_spreadsheet.py

→ data/iclr2026_accepted_pdf.{csv,xlsx} + data/pdf_parse_summary.txt

4. 构建公开 CSV（清洗 + LaTeX 转 Unicode + 规范名称）

python3 build_public_spreadsheet.py

→ data/iclr2026_public.

5. 渲染图表

python3 make_iclr_treemap.py –source pdf

→ charts/iclr2026_top50_treemap_*.

解析器工作原理

parse_pdf_affiliations.py 处理 ICLR 模板论文中常见的四种布局模式：

模式	布局	示例
A	编号脚注标记	`Author1,2 Author1,3 ... \n 1Inst A 2Inst B 3Inst C`
B	无标记，单一共享机构	`Author1, Author2 \n Single Institution`
C	按作者分段的区块，用电子邮件分隔	`Author1 \n Inst A \n [email protected] \n Author2 \n Inst B \n [email protected]`
D	交替的姓名/机构对（无电子邮件）	常见于纯工业界论文（Apple、Anthropic 等）

此外还有脚注文本过滤器，用于捕获并丢弃“Equal contribution”、“Corresponding author”、“Project lead”、“These authors contributed equally”——这些文本在过滤前曾泄露到机构字符串中。

结果：96% 的论文解析成功；其余 4% 回退到 OpenReview 个人资料数据（在 Affiliation_source 列中透明标记）。

方法选择简要说明

计数：每个机构每篇论文只计一次，无论列出了多少位作者。与 AI World NeurIPS 排行榜的规则相同。该仓库还生成了仅第一作者和分数 1/N 的变体用于敏感性分析。
规范化：约 250 条正则表达式规则将拼写/缩写变体合并（HKUST = Hong Kong University of Science and Technology = The Hong Kong University of Science and Technology 等）。图表前 50 名中的机构在所有三种计数方法下都是稳定的（参见 data/iclr2026_method_sensitivity.csv）。
地区分组：国家 → 17 个广泛区域用于树图。香港与中国大陆分开显示，因为香港大学在独立的高等教育体系下运作（不同的治理、教学语言，在 QS/THE 排名中单独列出）。

许可证

MIT。数据来源于公开的 OpenReview（https://openreview.net）投稿和 ICLR 2026 论文 PDF；如果在已发表作品中使用，请引用此仓库。

保持联系

如果您在此基础上构建了某些东西，请告知我——我始终对这类流水线的应用场景很感兴趣。如果您想要更多类似文章（研究工程深度解读、应用 AI 分析、我正在阅读的论文），最佳渠道是：

LinkedIn — linkedin.com/in/dmytrolopushanskyy (https://linkedin.com/in/dmytrolopushanskyy)
GitHub — github.com/DmytroLopushanskyy (https://github.com/DmytroLopushanskyy)

— Dmytro Lopushanskyy

ICLR 2026 – 机构隶属关系数据集与分析

DmytroLopushanskyy/iclr2026-affiliations

ICLR 2026 — 机构归属数据集与分析

主要图表

`data/` 中的内容

`iclr2026_public.csv` 的列

快速开始

仅重新生成图表

从头复现完整的流水线

1. 爬取 OpenReview 元数据（需要账户）

→ data/iclr2026_accepted.

2. 下载所有接收论文的 PDF（约 5 GB；有速率限制；重试脚本处理 429 错误）

3. 解析 PDF 并与 OpenReview 数据合并

→ data/iclr2026_accepted_pdf.{csv,xlsx} + data/pdf_parse_summary.txt

4. 构建公开 CSV（清洗 + LaTeX 转 Unicode + 规范名称）

→ data/iclr2026_public.

5. 渲染图表

→ charts/iclr2026_top50_treemap_*.

解析器工作原理

方法选择简要说明

许可证

保持联系

相似文章

约1,200篇有公开代码或数据的ICLR 2026论文 [R]

KDD 2026 第二轮结果 [D]

MICCAI 2026 决定 [D]

@tom_doerr: 从原始数据生成LLM就绪的数据集 https://github.com/OpenDCAI/DataFlow…

@tom_doerr: 大语言模型指令与推理数据集精选列表 https://github.com/mlabonne/llm-datasets…

提交意见反馈

DmytroLopushanskyy/iclr2026-affiliations

ICLR 2026 — 机构归属数据集与分析

主要图表

data/ 中的内容

iclr2026_public.csv 的列

快速开始

仅重新生成图表

从头复现完整的流水线

1. 爬取 OpenReview 元数据（需要账户）

→ data/iclr2026_accepted.

2. 下载所有接收论文的 PDF（约 5 GB；有速率限制；重试脚本处理 429 错误）

3. 解析 PDF 并与 OpenReview 数据合并

→ data/iclr2026_accepted_pdf.{csv,xlsx} + data/pdf_parse_summary.txt

4. 构建公开 CSV（清洗 + LaTeX 转 Unicode + 规范名称）

→ data/iclr2026_public.

5. 渲染图表

→ charts/iclr2026_top50_treemap_*.

解析器工作原理

方法选择简要说明

许可证

保持联系

相似文章

约1,200篇有公开代码或数据的ICLR 2026论文 [R]

KDD 2026 第二轮结果 [D]

MICCAI 2026 决定 [D]

@tom_doerr: 从原始数据生成LLM就绪的数据集 https://github.com/OpenDCAI/DataFlow…

@tom_doerr: 大语言模型指令与推理数据集精选列表 https://github.com/mlabonne/llm-datasets…

提交意见反馈

`data/` 中的内容

`iclr2026_public.csv` 的列