generalization

#generalization

基础模型嵌入是否提升了跨国作物产量预测的泛化能力？一项针对撒哈拉以南非洲的留一国验证研究

arXiv cs.LG ↗ · 昨天缓存

本文评估了以 Prithvi-EO 为代表的地理空间基础模型嵌入，在撒哈拉以南非洲地区预测作物产量时，相较于传统 Sentinel-2 特征是否具备跨国泛化优势。研究发现，在严格的留一国交叉验证下，冻结的嵌入特征并未显著优于光谱中位数，表明国家层面的分布偏移是主要瓶颈，而非特征表示的质量。

0 人收藏 0 人点赞

#generalization

@dair_ai: 本周 AI 热门论文 (5 月 4 日 - 10 日) - Conductor - HeavySkill - Horizon Generalization - 1000 台合成计算机…

X AI KOLs Following ↗ · 3天前缓存

本周 AI 研究论文精选汇总，涵盖 Conductor、HeavySkill、Horizon Generalization、合成计算机、自我改进预训练以及用于井字棋变体（Connect Four）的 AlphaZero 等主题。

0 人收藏 0 人点赞

#generalization

通过有限专家库实现通信高效的专家路由

arXiv cs.LG ↗ · 5天前缓存

本文提出了一种针对稀疏混合专家（MoE）模型中通信高效专家路由的信息论框架，将门控机制视为随机信道，并推导实用的互信息估计器以分析有限专家库上的准确率-速率权衡。

0 人收藏 0 人点赞

#generalization

重新思考大模型训练中的数据策展：在线重加权比离线方法具有更好的泛化能力

arXiv cs.LG ↗ · 5天前缓存

本文介绍了 ADAPT，这是一个用于大语言模型数据策展的在线重加权框架。该框架通过损失加权在训练过程中动态调整样本重要性，在跨基准测试的泛化能力方面优于离线筛选和混合方法。

0 人收藏 0 人点赞

#generalization

平坦最小值是幻觉吗？

arXiv cs.LG ↗ · 5天前缓存

本文挑战了关于平坦最小值能导致神经网络更好泛化的普遍观点，认为‘弱性’——一种函数简单性的重参数化不变度量——才是真正的驱动力。在MNIST和Fashion-MNIST上的实验结果表明，弱性能够预测泛化，而尖锐性则与之负相关，且随着训练数据增加，大批次泛化优势消失。

0 人收藏 0 人点赞

#generalization

Anthropic 研究人员详细介绍“模型规范中期训练”，该训练在预训练和微调之间增加一个阶段，以提升对齐训练的泛化能力

Reddit r/artificial ↗ · 6天前缓存

Anthropic 研究人员提出模型规范中期训练（MSM），这是一种介于预训练和微调之间的新训练阶段，旨在改善模型从对齐训练中泛化的能力，并减少代理性对齐失误。

0 人收藏 0 人点赞

#generalization

OSCBench: 文本到视频生成中的对象状态变化基准测试

arXiv cs.CL ↗ · 2026-04-20 缓存

OSCBench是一个新的基准测试，用于评估文本到视频生成模型准确表示对象状态变化（由剥皮或切片等动作引起的转变）的能力。该论文表明，当前的T2V模型在处理时间上一致的状态变化方面存在困难，特别是在新颖和组合场景中，这被认定为视频生成的一个关键瓶颈。

0 人收藏 0 人点赞

#generalization

MARCO：探索语义对应中未见空间的航行器

Hugging Face Daily Papers ↗ · 2026-04-20 缓存

MARCO 提出一种轻量高速的语义对应模型，通过由粗到精的目标与自蒸馏框架结合 DINOv2，在未知关键点上也达到 SOTA 精度与泛化能力。

0 人收藏 0 人点赞

#generalization

RoboLab：用于任务通用策略分析的高保真仿真基准

Hugging Face Daily Papers ↗ · 2026-04-14 缓存

# 论文页面 - RoboLab：用于任务通用策略分析的高保真仿真基准来源：[https://huggingface.co/papers/2604.09860](https://huggingface.co/papers/2604.09860) ## 摘要 RoboLab 是一个仿真基准框架，通过可扩展的真实任务生成和对策略在受控扰动下行为的系统分析，解决机器人策略评估中的局限。

0 人收藏 0 人点赞

#generalization

深度双下降

OpenAI Blog ↗ · 2019-12-05 缓存

OpenAI研究揭示了“双下降”现象，即测试误差随着模型规模和训练步数的增加呈现出非单调的模式，挑战了传统上对深度学习偏差-方差权衡的理解。

0 人收藏 0 人点赞

#generalization

Procgen Benchmark

OpenAI Blog ↗ · 2019-12-03 缓存

OpenAI推出Procgen Benchmark，这是一套程序生成的环境套件，旨在评估强化学习智能体在多样化任务中的泛化能力，解决Atari等传统基准中的过拟合问题。

0 人收藏 0 人点赞

#generalization

# 量化强化学习中的泛化能力来源: [https://openai.com/index/quantifying-generalization-in-reinforcement-learning/](https://openai.com/index/quantifying-generalization-in-reinforcement-learning/) 我们训练了9个智能体来玩CoinRun，每个智能体都有不同数量的可用训练关卡。前8个智能体分别在包含100到16,000个关卡的数据集上进行训练。最后一个智能体在不受限制的关卡集合上进行训练，因此该智能体永远不会看到相同的关卡两次。

0 人收藏 0 人点赞

#generalization

复古竞赛：成果揭晓

OpenAI Blog ↗ · 2018-06-22 缓存

OpenAI 的复古竞赛圆满落幕，923 个团队参赛，利用 Sonic 基准开发可泛化的算法。排名靠前的团队主要使用了经过调优的现有算法，如 PPO 和 Rainbow DQN，其中 Dharmaraja 以 4,692 分（理论最高分为 10,000 分）赢得第一名。

0 人收藏 0 人点赞

#generalization

Gym Retro

OpenAI Blog ↗ · 2018-05-25 缓存

OpenAI 发布 Gym Retro，这是一个强化学习研究环境，汇集了来自经典游戏主机（世嘉创世纪、NES、SNES、Game Boy 等）的游戏，用于研究智能体在不同游戏和关卡中的泛化能力。

0 人收藏 0 人点赞

#generalization

进化策略梯度

OpenAI Blog ↗ · 2018-04-18 缓存

OpenAI 推出进化策略梯度（EPG），这是一种元学习方法，通过进化而非直接学习策略来学习损失函数，使强化学习代理能够通过利用类似人类技能迁移的先验经验，更好地跨任务泛化。

0 人收藏 0 人点赞

#generalization

必须快速学习：强化学习泛化能力的新基准

OpenAI Blog ↗ · 2018-04-10 缓存

OpenAI 推出了一个基于音速小子（Sonic the Hedgehog）的新型强化学习基准，用于测量 RL 智能体的迁移学习和小样本学习性能，同时包括基线算法的评估。

0 人收藏 0 人点赞

#generalization

复古竞赛

OpenAI Blog ↗ · 2018-04-05 缓存

OpenAI 推出了复古竞赛（Retro Contest），这是一项迁移学习竞赛，在来自经典 SEGA Genesis 游戏的未见过的视频游戏关卡上评估强化学习算法，于 2018 年 4 月至 6 月期间进行。该竞赛使用 Gym Retro 平台，包括基准实现和技术基准论文，证明当前的强化学习算法在泛化任务上的表现明显低于人类。

0 人收藏 0 人点赞

#generalization

神经 GPU 的扩展与局限性

OpenAI Blog ↗ · 2016-11-02 缓存

本文探讨了神经 GPU 模型的扩展与局限性，通过课程设计和规模扩展展示了改进方案，使其能够学习十进制数和长表达式的算术运算，同时识别出对称输入上的失败模式，这些模式类似于对抗样本。

0 人收藏 0 人点赞

generalization

提交意见反馈