The Well:面向机器学习的大规模多样化物理模拟集合
摘要
The Well是一个包含16个领域、15TB多样化物理模拟数据集的大规模集合,旨在为时空物理系统的机器学习代理模型提供基准测试。它提供了统一的PyTorch接口和示例基线,以加速基于模拟的工作流程。
查看缓存全文
缓存时间: 2026/06/27 17:18
论文页面 - The Well: 面向机器学习的大规模多样化物理仿真数据集
来源:https://huggingface.co/papers/2412.00568 发布于 2024 年 11 月 30 日
作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
大规模数据集集合 The Well 提供了多样化的数值仿真数据,用于在物理系统仿真中对机器学习模型进行基准测试。
基于机器学习的代理模型(https://huggingface.co/papers?q=surrogate%20models)为研究人员提供了加速基于仿真的工作流(https://huggingface.co/papers?q=simulation-based%20workflows)的强大工具。然而,由于该领域的标准数据集通常只涵盖小类物理行为,因此难以评估新方法的有效性。为弥补这一空白,我们推出了 The Well:一个大规模数据集集合,包含多种时空物理系统(https://huggingface.co/papers?q=spatiotemporal%20physical%20systems)的数值仿真(https://huggingface.co/papers?q=numerical%20simulations)。The Well 汇集了领域专家和数值软件开发者的成果,提供了 15TB 数据,涵盖 16 个数据集,涉及生物系统(https://huggingface.co/papers?q=biological%20systems)、流体动力学(https://huggingface.co/papers?q=fluid%20dynamics)、声散射(https://huggingface.co/papers?q=acoustic%20scattering)以及星系际流体或超新星爆炸的磁流体动力学仿真(https://huggingface.co/papers?q=magneto-hydrodynamic%20simulations)等多个领域。这些数据集可单独使用,也可作为更广泛基准测试套件(https://huggingface.co/papers?q=benchmark%20suite)的一部分。为方便使用 The Well,我们提供了统一的 PyTorch 接口(https://huggingface.co/papers?q=PyTorch%20interface)用于训练和评估模型。我们通过引入示例基线来展示该库的功能,这些基线突显了 The Well 中复杂动力学带来的新挑战。代码和数据可在 https://github.com/PolymathicAI/the_well 获取。
查看 arXiv 页面(https://arxiv.org/abs/2412.00568)查看 PDF(https://arxiv.org/pdf/2412.00568)GitHub3.63k(https://github.com/PolymathicAI/the_well)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2412.00568)
在您的 agent 中获取这篇论文:
hf papers read 2412.00568
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2412.00568,以便在此页面链接。
引用此论文的数据集13
polymathic-ai/acoustic_scattering_inclusions 更新于 2025 年 4 月 10 日 • 23.5k(https://huggingface.co/datasets/polymathic-ai/acoustic_scattering_inclusions)
polymathic-ai/rayleigh_benard 更新于 2025 年 4 月 10 日 • 6.88k(https://huggingface.co/datasets/polymathic-ai/rayleigh_benard)
polymathic-ai/planetswe 更新于 2025 年 4 月 10 日 • 5.87k • 1(https://huggingface.co/datasets/polymathic-ai/planetswe)
polymathic-ai/acoustic_scattering_discontinuous 更新于 2025 年 4 月 10 日 • 5.34k • 1(https://huggingface.co/datasets/polymathic-ai/acoustic_scattering_discontinuous)
浏览引用此论文的 13 个数据集(https://huggingface.co/datasets?other=arxiv:2412.00568)### 引用此论文的空间1
包含此论文的收藏集5
浏览包含此论文的 5 个收藏集(https://huggingface.co/collections?paper=2412.00568)
相似文章
ThousandWorlds:潜在宜居系外行星气候模拟的基准数据集
ThousandWorlds 是一个用于机器学习模拟系外行星气候的基准数据集,包含来自五个全球气候模型的大约1800个模拟。在这个低数据量、多模拟器的回归任务中,高斯过程方法的性能优于深度学习基线方法。
@heyrobinai: 整个AI行业刚刚被羞辱了——一个仅用单张显卡训练几小时的微型模型正在规划...
Yann LeCun的团队发布了LeWorldModel,一个仅有1500万参数的物理模型,在单张GPU上训练数小时,在规划速度和物理合理性上超越了价值数十亿美元的基础模型,挑战了主流的规模扩展范式。
Synthics: 用于机器学习的类物理合成数据集
一种利用贝叶斯概率上下文无关文法生成结构上类似物理方程的合成回归数据集的方法,该方法已在费曼语料库上得到验证,并证明对超参数调优有效。
Surface Evolver Bench: 要求大型语言模型以自定义数据格式编写复杂物理模拟的基准测试
介绍Surface Evolver Bench,这是一个评估大型语言模型以自定义数据格式编写复杂物理模拟的基准测试。
@lvwerra:我们发布了physics-intern:一个用于科学问题的简单工具!它能让Gemini 3.1 Pro等模型的性能从17.7提升至…
发布了physics-intern,一个简单工具,能显著提升Gemini 3.1 Pro等推理模型在科学问题上的性能,从17.7提升到31.4,超越了GPT 5.5 Pro。