iclr

#iclr

公平强化学习

Reddit r/AI_Agents ↗ · 2026-06-02

公平强化学习引入了民主对齐，以整合来自不同代理的多个竞争性价值集，克服了传统RLHF的局限性，并通过黑盒策略包装器实现了数量级更快的优化。

0 人收藏 0 人点赞

#iclr

Hacker News Top ↗ · 2026-05-14 缓存

本文介绍了针对ICLR 2026已被接收论文的数据集与分析流程，从PDF标题块中提取机构隶属关系，以创建一个干净的数据集和可直接发表的树图可视化。

0 人收藏 0 人点赞

#iclr

MIT News — Artificial Intelligence ↗ · 2026-04-22 缓存

MIT CSAIL 研究人员提出 RLCR 方法，在强化学习中引入布雷尔分数（Brier scores），训练 AI 模型输出经过校准的置信度估计，在显著降低过度自信的同时，不牺牲准确率。

0 人收藏 0 人点赞

#iclr

Reddit r/MachineLearning ↗ · 2026-04-22

一位ICLR参会博士生寻求实用策略，克服社交焦虑，在已有对话群体中插话，而非泛泛的“自信”建议。

0 人收藏 0 人点赞

#iclr

X AI KOLs Following ↗ · 2026-04-21

ICLR 2026 的两篇论文展示了小型 RL 训练智能体如何在机器学习工程任务上击败前沿模型，以及 MLE-Smith 如何自动扩展 MLE 工作负载。

0 人收藏 0 人点赞

#iclr

Papers with Code Trending ↗ · 2026-02-03 缓存

AutoFigure是一个开源系统，用于生成和精炼可编辑、适合出版的科学图表，已被ICLR 2026接收。

0 人收藏 0 人点赞